FC2ブログ

タイトル画像

歌声合成ソフト合成速度ダービー

2018.10.20(22:45) 302

ハイやってまいりました第1回歌声合成ソフト合成速度ダービー。実況及び解説は私くろ州が務めさせていただきます。

【概要】
この大会は「同じ条件で歌声合成を行うと最も速いのはどのソフトウェアなのか」という合成速度の比較を目的としています。参加歌声合成は以下の通り。

1.VOCALOID4 VY1V4
2.UTAU デフォ子
3.CeVIO さとうささら
4.Sharpkey 稲荷(Inari)
5.SynthV Eleanor Forte
6.Sinsy f00005j
7.歌うボイスロイド 琴葉葵 with KotonoSync
8.Nakloid 単独音

はーい。以上8の歌声合成ソフトと音源さんに集まっていただきました。

なお、英語音源として唯一のエントリーとなるEleanor Forteさんですが、頑張って日本語を歌ってもらうこととなりました。日本語化の方法につきましてはこちらの記事を参照してください。

【ルール】
では、今回大会のルールを説明いたしましょう。

会場スペック
・CPU:i5-8250U(1.60GHz)
・RAM:12GB
・電源モード:「最も高いパフォーマンス」
・オーディオインターフェース接続ナシ

利用シーケンス
・手元にあった「夕景イエスタデイ」のMIDI
・1曲丸ごと
・1トラックのみ
・無調声

測定方法
・保存ボタンを押してから合成終了の印が表示されるまで
・画面を録画し測定するビデオ判定

このルールどう見ましょうか。会場スペックとしてはノートPCにしては多少高めの設定にはなっているかもしれません。特にRAM12GBというのがどうも微妙な高さです。ただ、オーディオインターフェースの接続により速さを増すCeVIOとしては少し苦手なコースとなるかもしれません。Sinsyに関しては処理を行うのはサーバー側ですので会場のスペックには左右されませんが、サーバーが計測時に調子が良いかどうかにかかっているといえるでしょう。

そして今回の勝負のポイントは「電源モード」にかかっているといっても過言ではありません。事前のレースではこの電源モードを「省電力」にしていましたが、今回は最高にしてあるというのがどの陣営にどの程度影響を与えるのか見ものです。

また、課題曲の「夕景イエスタデイ」ですが、非常にノート数が多いですので、どんな歌声合成にしてもかなりてこずる相手ではないかと予想されます。

【結果】
さて、実際に処理が実行されている場面をお見せできず急に結果となってしまいますがご了承ください。なお、結果の予想を立てるのは自由にしていただいて結構ですが、賭け事はやめていただければと思います。

第8位 歌うボイスロイド 琴葉葵
 記録 17分33秒20

さすがに歌声合成の中に混じって唯一の話声合成ソフトであるVOICEROIDは有利な戦いは出来なかったか。歌うボイスロイドはそもそも外部ツールを利用してVOICEROIDをコントロールし、計算しては保存し計算しては保存しを繰り返しているのでとても不利なわけです。

第7位 UTAU デフォ子
 記録 2分0秒63

今回は事前にキャッシュをためず、デフォ子におま☆かせのみ適用したうえでresamplerを利用して合成しています。電源モードを省電力にしていた事前レースでの記録を47秒短くするという大きな前進を見せています。UTAUはどのエンジンにしても電源モードで目に見えて速度が変わるのが楽しいですね。

第6位 Sinsy f00005j
 記録 1分1秒93

サーバーの調子はまぁ通常通りといったところだったでしょうか。UTAUと並んで中速にランク付けられるでしょう。

第5位 CeVIO さとうささら
 記録 22秒26

ここから1分を大幅に切る高速ゾーンに入ってきます。オーディオインターフェースの接続ナシ
ということで十分な記録を残せなかった可能性もあったCeVIOですが、しっかり30秒を切る大健闘です。

第4位 SynthV TP Eleanor Forte
 記録 19秒60

CeVIOの追跡を振り切って4位に落ち着きました英語音源のEleanor Forte。日本語USTをArpabet形式に変換したうえで読み込んだシーケンスでも上位に食い込んできました。

第3位 VOCALOID    VY1V4
 記録 16秒23

なんと、VOCALOID4が高速エリアに入ってきました。事前のレースでは42秒93と出遅れたV4でしたが、電源モードの選択により大きくCeVIO、SynthVを追い抜いて堂々3位にランクインしました。波乱の展開ですね。

第2位 Nakloid 単独音
 記録 9秒23

ここからは10秒を切る超速ランクに突入します。なんと思わぬ伏兵Nakloidが第2位につけました。私くろ州も全くノーマークだった「UTAUにフリーライドしている」歌声合成ことNakloidが10秒を切りました。

そもそもNakloidはUSTを読み込んだ時点で音声を合成しているので書き出しのときにはすでに保存するだけになっているんですねー。しかしそれでは公平性の観点からといいますか、あくまで「合成速度」を競いたいという趣旨のレースですのでここでは合成して保存というほかの歌声合成と同じ動きをしてもらって測定しました。

しかしながらそれでも他を圧倒する速さを見せたNakloid侮りがたし。

第1位 Sharpkey 稲荷(Inari)
 記録 8秒23

堂々の第1位はSharpkeyがかっさらっていきました。2位に1秒の差をつけての勝利となります。事前のレースでも8秒50と他の追随を許さぬ速さで駆け抜けていきました。しかしながらNakloidには少々肝を冷やす場面もあったようです。

というわけで最終的に

1.Sharpkey
2.Nakloid
3.VOCALOID
4.SynthV
5.CeVIO
6.Sinsy
7.UTAU
8.歌うボイスロイド

ということになりました。合成速かったらなんだという話をするつもりはないので早々に実況席からのコメントを終了させていただこうかと思います。ありがとうございました。
スポンサーサイト


くろ州の合成音声備忘録


未分類 トラックバック(-) | コメント(0) | [EDIT]
<<バーチャルキャストでVRoidテカテカになる問題の回避方法 | ホームへ | カバー曲作りに必須な「WaveTone」>>
コメント
コメントの投稿













管理者にだけ表示を許可する