Sharpkeyを作っていた「Boxstar」さんが新しく出した歌声合成「DeepVocal」がいよいよ公開となりました。
Sharpkeyと大体同じGUIで機能を軽量化したDeepVocalですが、専用の音声ライブラリが作れるということで中国をはじめとして一部のUTAU民からの注目がアツくなっています。
ただ、音源制作をしようにも情報が少ない。参考にできる日本語ネイティブ音源もなかなか見当たらないし。というわけでとりあえず、私版DeepVocal音源制作の日本語マニュアルを張り付けておきます。
【手順】
1.収録
2.発音辞書作成
3.原音設定
4.音声モデルの生成
5.音声ライブラリのビルド
【収録】
収録自体はOREMOでやってしまうのが楽です。基本的にはUTAUと同じお作法でできる。注意点とすれば
・音声ファイルは「WAVE,44.1kHz,16bit,モノラル」
・ビブラートとか音程の揺れは極力ないようにする(音声モデルの生成に失敗する)
くらい。
収録リストはCVVC。公式情報ではBPMは100くらいがちょうどいいらしい。
【発音辞書作成】
すべての発音をリストアップする必要があります。以下のように。
a,a,a
i,i,i
u,u,u
e,e,e
o,o,o
ka,k,a
ki,ky,i
ku,k,u
ke,k,e
ko,k,o
……
「ノートに打ち込む歌詞,VC音素の子音を指定,母音」
例えば、「き」だと、
「ノートに打ち込む歌詞=ki,VC音素の子音を指定=ky,母音=i」
となる。こうすると「ki」と打ち込めばシステム側で[a ky][ki]みたいな感じでつないでくれる。
このほかにも、母音リスト、無声子音リスト、有声子音リスト、語尾音リスト、ExVoice用リストがある。作るのはめんどいと思うので、近いうちにリストのプリセット配布します。
【原音設定】
割と説明することが多いので詳細は上に貼ったマニュアルを参照してほしい。
CV音素はUTAUでいうところの左ブランク以外の4ポイントを指定していく。
VC音素(DeepVocal式に書くとVX音素)は2ポイントしかない。UTAUのVCで言うと、オーバーラップともう一つ「先行発声と子音固定範囲の間くらい」に設定するやつがある。
「発音設定」のウィンドウを開いて
1.原音がある位置を指定
2.設定したい原音のファイル名と音階名を入力
3.CV音素なのかVX音素なのかそれ以外なのか選ぶ
4.音素名を入力する
5.マーカーを作成
6.出てきた原音設定用のウィンドウで設定
7.確定ボタンを押す
の、2から7をひたすら繰り返すと音源ができる。
【音声モデルの生成】
UTAUでいうところの周波数表作成みたいなもの。DeepVocalは原音ではなくて、原音から作った音声モデルをいじって音声を合成する。
音声ライブラリビルダーのウィンドウから作成できる。
1.原音があるフォルダを指定
2.書き出す場所を指定
3.全部作るか、一部ほしいところだけ作るかを選択
4.すでに作った音声モデルを上書きするか否かを選択
5.生成ボタンを押す
6.ログファイルの保存先を指定
7.生成
という流れ。エラーが出たらそのエイリアスを原音設定で直して、3からやり直し。
【音声ライブラリのビルド】
ビルドは、保存先と名前と音階名を入力してビルドボタンを押せば一瞬でできる。ログファイルはテキトーに。ここで出てくるエラーはほぼすべて無視してOK。
生成された「voice.sksd」「SKC」「SKI」の三つをフォルダにまとめれば配布ファイル完成。
フォルダごとDeepVocalの「singers」フォルダに投げれば使えます。
Twitterで観測してなんか躓く部分があるようなら、また記事にして解説します。
スポンサーサイト