タイトル画像

フリーライド歌声合成 Nakloid

2017.05.11(20:42) 141

UTAU音源はUTAU以外のソフトでも使えることがあります。今回はUTAUにフリーライドしている「Nakloid」という歌声合成ソフトを使ってみました。
歌声を聞いてみましょう。いい曲です。

【概要】
「Nakloid」はUTAU音源とUST/MIDIがあれば歌声を合成してくれるWinで動くソフトウェアです。

ソースコードがMITライセンスで公開されているようなので、いろいろいじれるみたいです。

【配布場所】
手っ取り早く歌声合成をしたいなら「Nakloid GUI」を使います。こちらのページでダウンロードできます。

【導入】
ソフトを動かすためにはJavaのランタイムが必要なので先にインストールしておきます。正直本家様の導入方法を読めば全部わかります。のでもう本家様にフリーライドさせていただきます。

【導入可能なUTAU音源】
Nakloidにはデフォルトで歌声ライブラリが付属していないので自分で導入する必要があります。

ここで注意するべきはUTAU音源には「UTAU以外のソフトで読み込んでいい音源」と「UTAU以外のソフトで読み込んではいけない音源」があるということです。

音源のReadmeや規約をよく読んで導入してもいいものだけ導入しましょう。


今回は私もかかわったのでその辺安心な「会長ロイド」を使います。

もろもろ導入できたらとりあえず起動してみます。

【操作画面】
起動直後はとてもシンプル
Nak01.png 

音符表示画面
ファイル>楽譜をインポート でUSTかMIDIを読み込みます
nak02.png 
ウィンドウ上部には合成波形が表示され、ピアノロールも表示されますが、グリッドは表示されません。また、ノートのタイミングはミリ秒で指定するようになっているのでゼロからの打ち込みは厳しいです。

ピッチ表示画面
F2キーでピッチ編集用の画面になります。
nak03.png

ピッチ曲線はフリーハンドで描けます。ちなみに元に戻すことはできないという男気仕様です。元USTでのピッチ情報は保持されないようです。 

ちなみに選択部分のみ合成&再生というのもないです。常に全部再生します。

設定
Nakloid GUIの細やかさはここに出ます。 オプション>設定 で歌い方の設定をすることができます。

特徴的な項目は

微細変動:ピッチのヒューマナイズ?
オーバーシュート:オーバーシュートを自動で入れたり入れなかったり調節できる
プレパレーション:プレパレーションを自動で入れたり入れなかったり調整できる
簡易コンプレッサー:簡単にコンプレッサーをかけてくれる

【その他の機能たち】
あまり詳しく調べられていませんが

・原音設定
・Nakloid特有のピッチマーカーの編集
・話し声合成

など、力の入れどころからしても実際にはこちらがメインな気がします。

【まとめ】
・歌声合成の勉強によい
・ピッチが手書きできる
・波形を編集中に見られる
・歌声合成部分はガチ



スポンサーサイト

くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

VOCALOIDとUTAUとCeVIOを混ぜたような中国の歌声合成「Sharpkey」

2017.02.15(16:30) 128

中国の歌声合成ソフト「Sharpkey」が先日アップデートしてさらに機能が追加されました。この歌声合成は純粋にかなりすごいと思うし、とっても好きなので皆さん触ってみてください。

ちなみにVOCALOID・UTAU・CeVIOの配合率は6:2:2くらいです。

歌声を聞いてみましょう。

ホームページはこちら

表現力ありますよね。早速使ってみました。

【ファイルサイズ】
エディター自体はそんなに大きくないですが、音源サイズはばかでかいです。Huan Xiao Yiの音源インストーラーのサイズは1.4GBで、インストール後の音源本体とみられるファイルは1.91GBあります。後述しますが4音階音源のようなのでファイルサイズは妥当より少し大きいかもくらい。少なくともHMMベースなだけの音源ではないようです。

【音源】
現在配布されている音源は幻晓伊(Huan Xiao Yi)とサードパーティー?の琪亚娜(Kiana)のようです。Kianaはもともとあるゲームのキャラクターのようですね。

【操作画面】
楽譜(ノート入力)画面
SK01.png 
とってもVOCALOIDライクになっています。使い心地は良好で、中国語が読めなくても迷いなく操作できます。アタックやビブラートの編集窓(クリックで表示される)はVOCALOIDとほぼ一緒。

VOCALOIDと少し違うのは左のピアノロールは押しても音が出ないこと、ビブラートはツールで伸縮できないことあたりです。

歌詞の入力は中国簡体字かピンインでできます。音素の指定をしたい場合はピンインで入力します。TABキーで次のノートに移ったり、歌詞の流し込みができるのも大体同じ。

UTAUと同様にブレスはノートとして打ち込むことができます。

画面上の真ん中あたりにある「参数」をクリックすると編集モードになります。この時ピアノロールの左上に出る鉛筆マークの中から編集したい項目を選びます。

編集画面 音量
SK02.png 
純粋な音量調節で、声質は変わらない。VOCALOIDのDYNとほぼ同じ機能。上下の幅が結構広いのでかなり大きく動かしてるつもりでも思ったほど変化はない感じ。

編集画面 音調
SK03.png 
ピッチ編集モードです。これはCeVIOとほぼ同じ操作感でフリーハンドかラインツールでピッチを感覚的に手書きできます。ビブラートはついた状態で表示され、もろとも編集できる。

編集画面 亮度
SK04.png 
VOCALOIDのBRIと大体同じもの。声の明瞭度・明るさ・ハリをコントロールします。

編集画面 力度
SK05.png 
これはとてもいいパラメーターで、オリジナルのものと言えます。声の強さをコントロールすることができます。この時の「声の強さ」は音量の変化というよりも声質の変化、つまり「力強さ」です。

 力度0から徐々に上げていくとこうなる

編集画面 気声
SK06.png 
これはVOCALOIDのBREと同じもので、息っぽさをコントロールできます。割とノイジーというよりは自然な仕上がりになってくれました。

編集画面 声線
SK07.png 
今回はいじってませんがVOCALOIDのGENと同じものです。あげると男性的に・年齢が高くなり、下げると女性的に・年齢が低くなります。

編集画面 音素
SK08.png 
これはCeVIOのタイミング調整画面に近いもので、各ノートの発声タイミングをコントロールできます。子音の長さを変えたければ赤の区間をいじります。CeVIOの人は慣れている画面と近いですが、VOCALOIDの人はVELや母音分割で対応しているあたりで、UTAUの人は子音速度で対応している部分になります。

編集画面 音色
SK09.png 
この画面ではそのノートで使うサンプルの変更ができます。UTAU的な機能です。VOCALOIDやUTAUは中の人の声を録音して切り貼りしているわけですが、録音した音程から大きく離れた音を出そうとするとどうしても無理が出るので、高い声や低い声も同様に録音して対応しています。この画面を見た感じではHuan Xiao Yiは4音階音源のようです。

左の色分けはUTAUのプリフィックスマップと同じようなものでサンプルの対応範囲を示しています。フラグをクリックするとサンプルが選択でき、中域高めの音程(T3の対応範囲)を鳴らすときに低域のサンプル(T1)を鳴らすことも可。

UTAUの人はG4の音程で「- あ」と鳴らすときに、その音が気に入らなければ「- あC4」など別音程のサンプルを引いてくることがありますが、その感覚です。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━


と、このようにSharpkeyはいろんな要素を詰め込んだ歌声合成であることがわかります。

VOCALOIDのようなノート・パラメーター編集
UTAUのような音素選択・ブレス打ち込み
CeVIOのようなピッチ・タイミング編集
オリジナルの力度編集

さらに、噂によると歌声ライブラリの自作もできるようになるらしい(あくまで噂)ので今後UTAU音源制作勢の参入も期待です。

今回できた音声を一応置いておきます。




くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

中国のHMMベース?歌声合成ソフト「MUTA」

2017.01.28(17:30) 125

最近の中国の歌声合成は結構アツくて目を見張るものがあります。

そんな中出てきたのが「MUTA」です。

「MUTA」というのは歌声合成ソフトの名前で、デフォルトでついてくる歌声は「嫣汐(Yan Xi)」と言います。歌声を聞いてみましょう。


早速触ってみました。

【ファイルサイズ】
MUTAの音源部分は「yanxi.voice」というファイルになっていて、このファイルのサイズは215MB。UTAU日本語連続音2~3音階分くらいのサイズです。それなりのサイズではありますが「中国語ライブラリ」であると考えると小さめともいえるかもしれません。

【音源ライブラリ】
MUTAの音源部分は歌声ライブラリ一つと、話し声ライブラリ三つで構成されています。この構成はCeVIOとほぼ同じです。

【操作画面】
SONG機能 ノート入力画面
MUTA_SONG_STD 
あまり見ない感じのカラーリングですが、操作は別にフツーです。D&Dでノートが描け、ダブルクリックで歌詞入力ができます。歌詞入力は中国語簡体字とピンインでできるようです。読めない文字を入れるとすべて「あ」で発音され、「-」ノートがVOCALOIDと同じ挙動になります。

SONG機能 タイミング調整画面
MUTA_SONG_TMG.png

タイミング調整画面はCeVIOとほぼ同じですが、区切り線はCeVIOより少なめ。数も一定ではない模様。挙動は大体CeVIOと同じ。

SONG機能 ピッチ調整画面
MUTA_SONG_PIT.png 
CeVIOやSharpkey同様フリーハンドでピッチ曲線を描くことができます。打ち込んだままの状態でもしゃくりがついていたりします。しかし、デフォルトのピッチがCeVIOがピアノロールの1音階の真ん中あたりにラインがあるのに対してこちらは境目あたりにあるのが少し違和感あります。

SONG機能 ボリューム調整画面
MUTA_SONG_VOL.png

こちらも手書きでボリューム操作ができますが、CeVIOのダイナミクス調整とは違ってDAWのオートメーションやVOCALOIDのDYNくらいの感じです。 

SONG機能 ビブラート調整画面
これはCeVIOと同様、振幅を指定する「VIA」画面と周期を指定する「VIF」画面があり、操作もCeVIOと同じです。

【まとめ】
HMMベースの歌声合成っぽい?細かい違いはあるがCeVIOと似た点が多い

一応今回テストしてできた音声を載せておきますね。



くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

リバーブで歌声を合成する実験 ソースフィルタモデルの歌声合成

2016.12.13(13:40) 123

とある歌声でない音声にリバーブをかけて歌声にする実験をしました。

【概要】
パルス波を集めて作ったビープ音に「特殊なIR」を読み込んだコンボリューションリバーブを適用して歌声を合成する。

1)IRを作る 
 今回は母音を生成しようと思うので母音を作るためのIRを作ります。

A.「あ」の波形から2周期を切り出す
a波形「あ」波形

2周期 2周期分

B.始めと終わりの1/4をフェード処理
1414.png 
IR完成

2)ビープ音を作る
 IRを作るときに使った波形と同じ周波数のビープ音を作ってダイナミクスとピッチの揺れを書く
Beep.png 
波形の1周期は純粋なパルス波です。

3)コンボリューションリバーブを掛ける
 リバーブに先ほど作ったIRを込みこんでビープ音にかければ歌声の合成は完了。

一回目の合成は「Beep音とIRの周波数が合っていない」&「IRが1周期分でフェード処理なし」
二回目の合成は「IRが1周期分でフェード処理なし」
三回目の合成は「Beep音とIRの周波数があっていて」「IRが2周期分でフェード処理アリ」

です。


くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(1) | [EDIT]
タイトル画像

正弦波重畳方式

2016.12.06(19:33) 120

「正弦波重畳方式」というのは歌声音源の合成方式の一つです。

音というのは波ですよね。いわゆる「音波」です。

そしてその波の形を「波形」と言います。
あ 波形図1:「あ」の波形 

この音波には「いくつかの正弦波に分解できる」という性質があるのです。

詳しいことや正しいことが知りたい方は「音声 フーリエ解析」とかで検索してみましょう。

正弦波とは? y=sinxのグラフです。
sinx=y.png 図2:y=sinxのグラフ

いろんな周期の正弦波=SIN波を畳のように重ねて図1のような波形が作れれば、「中の人のいない音源ができる」ということですね!!

手順1)解析
 「あ」の波形はどんな正弦波の組み合わせでできているのかを調べます。ツールはExcel。
あ 周波数 図3

こんな感じ。
要するに

344Hz   0.05
689Hz   0.10
1033Hz   0.22
1378Hz   0.18
1722Hz   0.05

くらいの構成になっているのです。

つまり

y=0.05×sin(344×2π)+
    0.10×sin(689×2π)+
  0.22×sin(1033×2π)+
  0.18×sin(1378×2π)+
  0.05×sin(1722×2π)

が「あ」の近似式なのです。

実際の合成には「私の好みの音源数種」の平均を用いて、しかもきれいな式になるように数値をいくつか改変して、息成分を少なめにした式を使いました

手順2)数式⇒波形
 1)で作った式をグラフに起こします。ツールはGRAPES。
sinple.png 図4

ずいぶんとシンプル。実際の合成ではもっと複雑な式でやりました。
このGRAPESはコマンドで波形を再生してくれる機能があるのでそれでWAVEファイルを作ります。

手順3)1周期切り出し&ループ
 できたWAVEから1周期分切り出してループ再生して再録音。ツールはAudacity。これでやっと聞ける感じになってきます。この行程がないととても聞けない。

手順4)ピッチ・ダイナミクスをつける
 できた波形は現在こんな感じ。
現状図5 

ピッチに適度な揺らぎを与えて、波形を人の声っぽくトリミングします。ツールはVocalShifter。
手書き 図6

黄色がピッチ線、緑がダイナミクスです。これは手書きしています。

結果。
キャプチャ図7
 
手順5)エフェクト掛け
 人らしさがないので、エフェクトでぽくします。ツールはModernExciter(エキサイター)。
人の声に聞こえるようになるまで調整します。これは好み。ここで差が付きます。

完成!!


あ、い、う、え、お、だけ作りました。


くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
その他歌声合成
  1. フリーライド歌声合成 Nakloid(05/11)
  2. VOCALOIDとUTAUとCeVIOを混ぜたような中国の歌声合成「Sharpkey」(02/15)
  3. 中国のHMMベース?歌声合成ソフト「MUTA」(01/28)
  4. リバーブで歌声を合成する実験 ソースフィルタモデルの歌声合成(12/13)
  5. 正弦波重畳方式(12/06)
次のページ
次のページ