FC2ブログ

タイトル画像

サイトマップ

2030.01.01(00:00) 233

このブログでは歌声合成/話声合成/声質変換/VRに関する情報を集めて自由に発信しています。モットーは「実際に触って記事を書く」

シュミなので誤字等放置。


【記事】
歌声合成1 主要な歌声合成
VOCALOID ・UTAU ・CeVIO

歌声合成2 Sharpkey

その他の歌声合成 約30の歌声合成ソフトを使ってみた記録

制作 UTAU音源制作等に役立ちそうな情報

話声合成 VOICEROIDやCeVIO等TTSの記事

声質変換 ボイスチェンジャーの記事

VR VRやVTuber関連ソフトの記事
VR

【実績】
調声 多種多様な歌声合成でカバー

イベント 過去の参加イベント

対談 過去の対談企画

翻訳 外語→日本語のお仕事

音源制作 歌声合成ソフト用の音源制作
・UTAU同志社音源群『会長ロイド』『Marine』
・Sharpkey初日本語音源『稲荷(Inari)』

配布物 過去の配布物(音源を除く)


スポンサーサイト

くろ州の合成音声備忘録


未分類 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

歌声合成ソフト合成速度ダービー

2018.10.20(22:45) 302

ハイやってまいりました第1回歌声合成ソフト合成速度ダービー。実況及び解説は私くろ州が務めさせていただきます。

【概要】
この大会は「同じ条件で歌声合成を行うと最も速いのはどのソフトウェアなのか」という合成速度の比較を目的としています。参加歌声合成は以下の通り。

1.VOCALOID4 VY1V4
2.UTAU デフォ子
3.CeVIO さとうささら
4.Sharpkey 稲荷(Inari)
5.SynthV Eleanor Forte
6.Sinsy f00005j
7.歌うボイスロイド 琴葉葵 with KotonoSync
8.Nakloid 単独音

はーい。以上8の歌声合成ソフトと音源さんに集まっていただきました。

なお、英語音源として唯一のエントリーとなるEleanor Forteさんですが、頑張って日本語を歌ってもらうこととなりました。日本語化の方法につきましてはこちらの記事を参照してください。

【ルール】
では、今回大会のルールを説明いたしましょう。

会場スペック
・CPU:i5-8250U(1.60GHz)
・RAM:12GB
・電源モード:「最も高いパフォーマンス」
・オーディオインターフェース接続ナシ

利用シーケンス
・手元にあった「夕景イエスタデイ」のMIDI
・1曲丸ごと
・1トラックのみ
・無調声

測定方法
・保存ボタンを押してから合成終了の印が表示されるまで
・画面を録画し測定するビデオ判定

このルールどう見ましょうか。会場スペックとしてはノートPCにしては多少高めの設定にはなっているかもしれません。特にRAM12GBというのがどうも微妙な高さです。ただ、オーディオインターフェースの接続により速さを増すCeVIOとしては少し苦手なコースとなるかもしれません。Sinsyに関しては処理を行うのはサーバー側ですので会場のスペックには左右されませんが、サーバーが計測時に調子が良いかどうかにかかっているといえるでしょう。

そして今回の勝負のポイントは「電源モード」にかかっているといっても過言ではありません。事前のレースではこの電源モードを「省電力」にしていましたが、今回は最高にしてあるというのがどの陣営にどの程度影響を与えるのか見ものです。

また、課題曲の「夕景イエスタデイ」ですが、非常にノート数が多いですので、どんな歌声合成にしてもかなりてこずる相手ではないかと予想されます。

【結果】
さて、実際に処理が実行されている場面をお見せできず急に結果となってしまいますがご了承ください。なお、結果の予想を立てるのは自由にしていただいて結構ですが、賭け事はやめていただければと思います。

第8位 歌うボイスロイド 琴葉葵
 記録 17分33秒20

さすがに歌声合成の中に混じって唯一の話声合成ソフトであるVOICEROIDは有利な戦いは出来なかったか。歌うボイスロイドはそもそも外部ツールを利用してVOICEROIDをコントロールし、計算しては保存し計算しては保存しを繰り返しているのでとても不利なわけです。

第7位 UTAU デフォ子
 記録 2分0秒63

今回は事前にキャッシュをためず、デフォ子におま☆かせのみ適用したうえでresamplerを利用して合成しています。電源モードを省電力にしていた事前レースでの記録を47秒短くするという大きな前進を見せています。UTAUはどのエンジンにしても電源モードで目に見えて速度が変わるのが楽しいですね。

第6位 Sinsy f00005j
 記録 1分1秒93

サーバーの調子はまぁ通常通りといったところだったでしょうか。UTAUと並んで中速にランク付けられるでしょう。

第5位 CeVIO さとうささら
 記録 22秒26

ここから1分を大幅に切る高速ゾーンに入ってきます。オーディオインターフェースの接続ナシ
ということで十分な記録を残せなかった可能性もあったCeVIOですが、しっかり30秒を切る大健闘です。

第4位 SynthV TP Eleanor Forte
 記録 19秒60

CeVIOの追跡を振り切って4位に落ち着きました英語音源のEleanor Forte。日本語USTをArpabet形式に変換したうえで読み込んだシーケンスでも上位に食い込んできました。

第3位 VOCALOID    VY1V4
 記録 16秒23

なんと、VOCALOID4が高速エリアに入ってきました。事前のレースでは42秒93と出遅れたV4でしたが、電源モードの選択により大きくCeVIO、SynthVを追い抜いて堂々3位にランクインしました。波乱の展開ですね。

第2位 Nakloid 単独音
 記録 9秒23

ここからは10秒を切る超速ランクに突入します。なんと思わぬ伏兵Nakloidが第2位につけました。私くろ州も全くノーマークだった「UTAUにフリーライドしている」歌声合成ことNakloidが10秒を切りました。

そもそもNakloidはUSTを読み込んだ時点で音声を合成しているので書き出しのときにはすでに保存するだけになっているんですねー。しかしそれでは公平性の観点からといいますか、あくまで「合成速度」を競いたいという趣旨のレースですのでここでは合成して保存というほかの歌声合成と同じ動きをしてもらって測定しました。

しかしながらそれでも他を圧倒する速さを見せたNakloid侮りがたし。

第1位 Sharpkey 稲荷(Inari)
 記録 8秒23

堂々の第1位はSharpkeyがかっさらっていきました。2位に1秒の差をつけての勝利となります。事前のレースでも8秒50と他の追随を許さぬ速さで駆け抜けていきました。しかしながらNakloidには少々肝を冷やす場面もあったようです。

というわけで最終的に

1.Sharpkey
2.Nakloid
3.VOCALOID
4.SynthV
5.CeVIO
6.Sinsy
7.UTAU
8.歌うボイスロイド

ということになりました。合成速かったらなんだという話をするつもりはないので早々に実況席からのコメントを終了させていただこうかと思います。ありがとうございました。


くろ州の合成音声備忘録


未分類 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

カバー曲作りに必須な「WaveTone」

2018.10.19(18:28) 301

カバー曲作るときには原曲のテンポがわからないといけない。特に既存のUSTを使わない場合は加えて耳コピもしないといけません。

聞いただけで耳コピができる人は多少いるかもしれないけど、テンポがわかる人ってなかなかいないはず。そういう時に使うのが「WaveTone」
WavTon01.png


【WaveToneでできること】
・曲のテンポがわかる
・曲のコードがわかるかも
・耳コピ支援

【テンポ解析】
WaveToneを立ち上げて、そこにカバーしたい曲のWAVEなりMP3なりをD&Dします。

で、出てくるウィンドウでとりあえず「解析ボタン」を押しましょう。
WavTon02.png

で、解析が終わったっぽかったらメニューバーの「解析→テンポ解析」すると大体正しくテンポが表示されます。
WavTon03.png

この画像の場合はテンポ135

【耳コピ】
私は耳コピ普通に耳でやるのでこの機能ほとんど使ったことないんですが、WaveToneを使えば多少耳コピ苦手でも目で見てコピーできます。
WavTon04.png

こんな画面があるじゃろ?

この赤くなっている部分がエネルギーの大きいところ。音を流してみるとわかるけどここがボーカル。音を流してもわかんない場合はたぶん耳コピ向いてないのでおとなしくUST使うか誰かに頼んだほうが良い。

この状態で再生ボタンを押す。

曲を聴きながら「Shift+Spase」を押す。Shiftは押しっぱなしでSpaseキーをテンポに合わせてタップする。これをやらないとMIDIが汚くなる。MIDIのテンポ合わせの作業です。

で、鉛筆マークを押すとノートを書き込めるようになるのでぐりぐり書いていく。
WavTon05.png

こうなる。音を聞きながらやれば大体正しくできる。

鉛筆マークの二つとなりの音符マークがクオンタイズ設定ボタンなのでここで1/8なりなんなり細かい値に設定するのが良い。

できたら「ファイル→ノートをMIDIファイルに出力」でMIDIを書き出す。これをUTAUなりVOCALOIDに読み込めばOK。


くろ州の合成音声備忘録


制作 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

歌声合成に欠かせない「VocalShifter」

2018.10.19(17:38) 300

一部の歌声合成ではエディター内でボーカルを作り切るということが可能になっていますが、割と奥の歌声合成ソフトではエディター上でピッチを描く等々のエディットができない場合が結構あります。

Sinsyはそもそもエディターがないからボーカル編集できないし、歌うボイスロイドやAlter/Ego、LaLaSongなんかはエディターでピッチを編集するのがすこぶる面倒だったりします。

その辺をどうにかするのが「VocalShifter」です。
VocShif01.png


【できること】
・ピッチを直接描いて編集できる
・ジェンダーを自由に描いて編集できる
・音量を大まかに/かなり細かく編集できる
・タイミングを編集できる

ちなみに無料で使えるのはVocalShifter LEのほう。LEがつかないほうは2000円くらいで音質が良くなるらしい。

【ピッチ】
上の画像にも見えている黄色とオレンジの線がピッチカーブです。編集方法は主に3つ

範囲選択
 範囲を選択して、ピッチを一気に上下させたりケロケロさせたりする。
 右クリックから「ピッチ平滑化/平均化」「ビブラート付加」「ケロケロボイス」「自動補正」など様々な編集/補正が可能。

鉛筆/直線
 ピッチを手描きで編集できる。Sinsy他歌声合成から書き出したファイルのピッチを編集できる。歌声合成上達ポイントとして「全部エディターでやらんでもええんやで」というのがあって、VOCALOIDにしてもUTAU/CeVIO他何にしても、全部エディターでやろうとするとむしろ難しいポイントがいくつかあります。そういうのは無理にエディターで全部やらなくてもこういうツールでやっちゃっていいんです。

ノート編集
 ピッチをノートで表示して 簡単に編集できる。どちらかというと生歌の補正によく使う。
VocShif02.png

【FRM(フォルマント)】
歌声合成界隈ではジェンダーといわれることが多いアレ。CeVIOの声質やUTAUのgフラグよりも自由度が高いがVOCALOIDとそんなに変わらないので使うか使わないか人により分かれそう。

【VOL】
ざっくりボリューム。子音を小さくするとかクレッシェンドデクレッシェンドを作るのではなくAメロとBメロとサビの音量差を作るとかそういう用途に向いている。VOCALOIDのDYNとほぼ同じ。

【PAN】
DAWでやればいいと思うので私は使わない

【DYN】
詳細なボリューム。子音を小さくするとかクレッシェンドデクレッシェンドを作るのに向いているが逆にABメロサビの音量差を作るのは苦手。CeVIOのVOLとほぼ同じ。

【TIME】
タイミング。音素を引き延ばしたり縮めたりする。小さい「っ」を作ったりなんだりする。再生カーソルを移動させて右クリックから「再生位置に制御点追加」で制御点を量産してそれを前後させてタイミング補正なりなんなりします。超めんどいのでタイミング補正はいらないようにしてほしい(特に歌い手)

これだけ使えばあらゆる歌声合成を十分に調声できる。


くろ州の合成音声備忘録


未分類 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

ISSEでノイズ除去してみる。

2018.10.19(16:34) 299

UTAU音源制作の過程で、技術者に依頼を出すポイントって大きく3つくらいあって、一つはキャラデザ/イラスト制作、もう一つが原音設定、で最後にノイズ除去です。

UTAU界隈でノイズ除去している人はiZotopeから発売されているRXシリーズやAdobeのAuditionなどを使っていると思います。これらのソフトは超高級か月額制でなかなか簡単に手に入れられるものではないと思います。

そんな中で無料でノイズ除去ができるのが「ISSE」です。
ISSE01.png

カッコよかろ?

【ISSEでできること】
ノイズとノイズじゃない部分の分離ができます。スペクトログラムを見て「これノイズだな」っていう部分をブラシや選択ツールで塗りつぶして分離ボタンを押すとノイズが切り離せます。

ただ、自動分離機能がないのでエアコンや冷蔵庫などのずっと鳴ってるノイズ(恒常性ノイズ)の分離はあまり得意じゃないです。あとクリッピングノイズ(歪み)を消すことができません(少なくとも得意じゃない)

そういうあたりが欲しければ有料ソフトを買おうねという感じ。音質低くてもいいならAudacityやREAPERのReaFirで恒常性ノイズを消せたりもするけども。

【音声デバイスの設定】
「File→AudioSettings」に進んで音声デバイスを設定します。Testボタンを押して「ぽー」とか聞こえたら正解。
ISSE02.png

ASIOは対応無し。ダイレクトサウンドよりWinオーディオのほうが遅延が少なかった(うちの環境では)

【分離設定】
SeparationSettingsタブでこんな感じの設定にするのが私の好み。
ISSE03.png

それぞれのパラメーターの意味は私もあんまりわかってないので適宜いろいろ触って試してみてください。

【基本操作】
「File→New」かドラッグアンドドロップでWAVファイルを読み込みます。あとは各種ブラシでノイズをぬりぬりするだけ。

塗りつぶしたら「CTRL+P」で分離(Prosess)する。うまく分離出来たら「File→Export Audio」で音声を書き出せばOK

【ツール】
ISSE04.png

ブラシ/消しゴム
 ブラシを選択した状態で右のツールを選択してやると分離範囲を塗れる
 消しゴムを選択して右のツールを選択してやると分離範囲を消せる

矢印ツール
 私は使い方よくわからない

エアスプレー
 D&Dで千を書くように選択する

時間選択ツール
 時間軸で選択する。無音区間を選択して完全な無音を作ったりする

周波数選択ツール
 音の高さで選択する。恒常性ノイズを消すのに使う

ボックス選択ツール
 四角く切り抜く。時間選択×周波数選択

トレーニングブラシ
 よくわからないけど強力

ブラシ設定
 エアスプレーの設定

あとは頑張ってぬりぬりしよう。


くろ州の合成音声備忘録


制作 トラックバック(-) | コメント(0) | [EDIT]
最近の記事
  1. サイトマップ(01/01)
  2. 歌声合成ソフト合成速度ダービー(10/20)
  3. カバー曲作りに必須な「WaveTone」(10/19)
  4. 歌声合成に欠かせない「VocalShifter」(10/19)
  5. ISSEでノイズ除去してみる。(10/19)
次のページ
次のページ