タイトル画像

VOCALOIDとUTAUとCeVIOを混ぜたような中国の歌声合成「Sharpkey」

2017.02.15(16:30) 128

中国の歌声合成ソフト「Sharpkey」が先日アップデートしてさらに機能が追加されました。この歌声合成は純粋にかなりすごいと思うし、とっても好きなので皆さん触ってみてください。

ちなみにVOCALOID・UTAU・CeVIOの配合率は6:2:2くらいです。

歌声を聞いてみましょう。

ホームページはこちら

表現力ありますよね。早速使ってみました。

【ファイルサイズ】
エディター自体はそんなに大きくないですが、音源サイズはばかでかいです。Huan Xiao Yiの音源インストーラーのサイズは1.4GBで、インストール後の音源本体とみられるファイルは1.91GBあります。後述しますが4音階音源のようなのでファイルサイズは妥当より少し大きいかもくらい。少なくともHMMベースなだけの音源ではないようです。

【音源】
現在配布されている音源は幻晓伊(Huan Xiao Yi)とサードパーティー?の琪亚娜(Kiana)のようです。Kianaはもともとあるゲームのキャラクターのようですね。

【操作画面】
楽譜(ノート入力)画面
SK01.png 
とってもVOCALOIDライクになっています。使い心地は良好で、中国語が読めなくても迷いなく操作できます。アタックやビブラートの編集窓(クリックで表示される)はVOCALOIDとほぼ一緒。

VOCALOIDと少し違うのは左のピアノロールは押しても音が出ないこと、ビブラートはツールで伸縮できないことあたりです。

歌詞の入力は中国簡体字かピンインでできます。音素の指定をしたい場合はピンインで入力します。TABキーで次のノートに移ったり、歌詞の流し込みができるのも大体同じ。

UTAUと同様にブレスはノートとして打ち込むことができます。

画面上の真ん中あたりにある「参数」をクリックすると編集モードになります。この時ピアノロールの左上に出る鉛筆マークの中から編集したい項目を選びます。

編集画面 音量
SK02.png 
純粋な音量調節で、声質は変わらない。VOCALOIDのDYNとほぼ同じ機能。上下の幅が結構広いのでかなり大きく動かしてるつもりでも思ったほど変化はない感じ。

編集画面 音調
SK03.png 
ピッチ編集モードです。これはCeVIOとほぼ同じ操作感でフリーハンドかラインツールでピッチを感覚的に手書きできます。ビブラートはついた状態で表示され、もろとも編集できる。

編集画面 亮度
SK04.png 
VOCALOIDのBRIと大体同じもの。声の明瞭度・明るさ・ハリをコントロールします。

編集画面 力度
SK05.png 
これはとてもいいパラメーターで、オリジナルのものと言えます。声の強さをコントロールすることができます。この時の「声の強さ」は音量の変化というよりも声質の変化、つまり「力強さ」です。

 力度0から徐々に上げていくとこうなる

編集画面 気声
SK06.png 
これはVOCALOIDのBREと同じもので、息っぽさをコントロールできます。割とノイジーというよりは自然な仕上がりになってくれました。

編集画面 声線
SK07.png 
今回はいじってませんがVOCALOIDのGENと同じものです。あげると男性的に・年齢が高くなり、下げると女性的に・年齢が低くなります。

編集画面 音素
SK08.png 
これはCeVIOのタイミング調整画面に近いもので、各ノートの発声タイミングをコントロールできます。子音の長さを変えたければ赤の区間をいじります。CeVIOの人は慣れている画面と近いですが、VOCALOIDの人はVELや母音分割で対応しているあたりで、UTAUの人は子音速度で対応している部分になります。

編集画面 音色
SK09.png 
この画面ではそのノートで使うサンプルの変更ができます。UTAU的な機能です。VOCALOIDやUTAUは中の人の声を録音して切り貼りしているわけですが、録音した音程から大きく離れた音を出そうとするとどうしても無理が出るので、高い声や低い声も同様に録音して対応しています。この画面を見た感じではHuan Xiao Yiは4音階音源のようです。

左の色分けはUTAUのプリフィックスマップと同じようなものでサンプルの対応範囲を示しています。フラグをクリックするとサンプルが選択でき、中域高めの音程(T3の対応範囲)を鳴らすときに低域のサンプル(T1)を鳴らすことも可。

UTAUの人はG4の音程で「- あ」と鳴らすときに、その音が気に入らなければ「- あC4」など別音程のサンプルを引いてくることがありますが、その感覚です。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━


と、このようにSharpkeyはいろんな要素を詰め込んだ歌声合成であることがわかります。

VOCALOIDのようなノート・パラメーター編集
UTAUのような音素選択・ブレス打ち込み
CeVIOのようなピッチ・タイミング編集
オリジナルの力度編集

さらに、噂によると歌声ライブラリの自作もできるようになるらしい(あくまで噂)ので今後UTAU音源制作勢の参入も期待です。

今回できた音声を一応置いておきます。



スポンサーサイト

くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

中国のHMMベース?歌声合成ソフト「MUTA」

2017.01.28(17:30) 125

最近の中国の歌声合成は結構アツくて目を見張るものがあります。

そんな中出てきたのが「MUTA」です。

「MUTA」というのは歌声合成ソフトの名前で、デフォルトでついてくる歌声は「嫣汐(Yan Xi)」と言います。歌声を聞いてみましょう。


早速触ってみました。

【ファイルサイズ】
MUTAの音源部分は「yanxi.voice」というファイルになっていて、このファイルのサイズは215MB。UTAU日本語連続音2~3音階分くらいのサイズです。それなりのサイズではありますが「中国語ライブラリ」であると考えると小さめともいえるかもしれません。

【音源ライブラリ】
MUTAの音源部分は歌声ライブラリ一つと、話し声ライブラリ三つで構成されています。この構成はCeVIOとほぼ同じです。

【操作画面】
SONG機能 ノート入力画面
MUTA_SONG_STD 
あまり見ない感じのカラーリングですが、操作は別にフツーです。D&Dでノートが描け、ダブルクリックで歌詞入力ができます。歌詞入力は中国語簡体字とピンインでできるようです。読めない文字を入れるとすべて「あ」で発音され、「-」ノートがVOCALOIDと同じ挙動になります。

SONG機能 タイミング調整画面
MUTA_SONG_TMG.png

タイミング調整画面はCeVIOとほぼ同じですが、区切り線はCeVIOより少なめ。数も一定ではない模様。挙動は大体CeVIOと同じ。

SONG機能 ピッチ調整画面
MUTA_SONG_PIT.png 
CeVIOやSharpkey同様フリーハンドでピッチ曲線を描くことができます。打ち込んだままの状態でもしゃくりがついていたりします。しかし、デフォルトのピッチがCeVIOがピアノロールの1音階の真ん中あたりにラインがあるのに対してこちらは境目あたりにあるのが少し違和感あります。

SONG機能 ボリューム調整画面
MUTA_SONG_VOL.png

こちらも手書きでボリューム操作ができますが、CeVIOのダイナミクス調整とは違ってDAWのオートメーションやVOCALOIDのDYNくらいの感じです。 

SONG機能 ビブラート調整画面
これはCeVIOと同様、振幅を指定する「VIA」画面と周期を指定する「VIF」画面があり、操作もCeVIOと同じです。

【まとめ】
HMMベースの歌声合成っぽい?細かい違いはあるがCeVIOと似た点が多い

一応今回テストしてできた音声を載せておきますね。



くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

リバーブで歌声を合成する実験 ソースフィルタモデルの歌声合成

2016.12.13(13:40) 123

とある歌声でない音声にリバーブをかけて歌声にする実験をしました。

【概要】
パルス波を集めて作ったビープ音に「特殊なIR」を読み込んだコンボリューションリバーブを適用して歌声を合成する。

1)IRを作る 
 今回は母音を生成しようと思うので母音を作るためのIRを作ります。

A.「あ」の波形から2周期を切り出す
a波形「あ」波形

2周期 2周期分

B.始めと終わりの1/4をフェード処理
1414.png 
IR完成

2)ビープ音を作る
 IRを作るときに使った波形と同じ周波数のビープ音を作ってダイナミクスとピッチの揺れを書く
Beep.png 
波形の1周期は純粋なパルス波です。

3)コンボリューションリバーブを掛ける
 リバーブに先ほど作ったIRを込みこんでビープ音にかければ歌声の合成は完了。

一回目の合成は「Beep音とIRの周波数が合っていない」&「IRが1周期分でフェード処理なし」
二回目の合成は「IRが1周期分でフェード処理なし」
三回目の合成は「Beep音とIRの周波数があっていて」「IRが2周期分でフェード処理アリ」

です。


くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(1) | [EDIT]
タイトル画像

正弦波重畳方式

2016.12.06(19:33) 120

「正弦波重畳方式」というのは歌声音源の合成方式の一つです。

音というのは波ですよね。いわゆる「音波」です。

そしてその波の形を「波形」と言います。
あ 波形図1:「あ」の波形 

この音波には「いくつかの正弦波に分解できる」という性質があるのです。

詳しいことや正しいことが知りたい方は「音声 フーリエ解析」とかで検索してみましょう。

正弦波とは? y=sinxのグラフです。
sinx=y.png 図2:y=sinxのグラフ

いろんな周期の正弦波=SIN波を畳のように重ねて図1のような波形が作れれば、「中の人のいない音源ができる」ということですね!!

手順1)解析
 「あ」の波形はどんな正弦波の組み合わせでできているのかを調べます。ツールはExcel。
あ 周波数 図3

こんな感じ。
要するに

344Hz   0.05
689Hz   0.10
1033Hz   0.22
1378Hz   0.18
1722Hz   0.05

くらいの構成になっているのです。

つまり

y=0.05×sin(344×2π)+
    0.10×sin(689×2π)+
  0.22×sin(1033×2π)+
  0.18×sin(1378×2π)+
  0.05×sin(1722×2π)

が「あ」の近似式なのです。

実際の合成には「私の好みの音源数種」の平均を用いて、しかもきれいな式になるように数値をいくつか改変して、息成分を少なめにした式を使いました

手順2)数式⇒波形
 1)で作った式をグラフに起こします。ツールはGRAPES。
sinple.png 図4

ずいぶんとシンプル。実際の合成ではもっと複雑な式でやりました。
このGRAPESはコマンドで波形を再生してくれる機能があるのでそれでWAVEファイルを作ります。

手順3)1周期切り出し&ループ
 できたWAVEから1周期分切り出してループ再生して再録音。ツールはAudacity。これでやっと聞ける感じになってきます。この行程がないととても聞けない。

手順4)ピッチ・ダイナミクスをつける
 できた波形は現在こんな感じ。
現状図5 

ピッチに適度な揺らぎを与えて、波形を人の声っぽくトリミングします。ツールはVocalShifter。
手書き 図6

黄色がピッチ線、緑がダイナミクスです。これは手書きしています。

結果。
キャプチャ図7
 
手順5)エフェクト掛け
 人らしさがないので、エフェクトでぽくします。ツールはModernExciter(エキサイター)。
人の声に聞こえるようになるまで調整します。これは好み。ここで差が付きます。

完成!!


あ、い、う、え、お、だけ作りました。


くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

VOCALOID・UTAU・CeVIO間のデータのやり取り

2016.11.10(20:45) 113

VOCALOID・UTAU・CeVIOの間でデータをやり取りする人がいたとして(私はよくする)、まず、

・パラメーターは受け継げないものとする
・MIDIでやり取りする

これが原則です。

VOCALOIDのDYNはUTAUのエンベロープには反映されないし、UTAUのフラグはCeVIOに受け継がれません。当たり前ですが。


1.VOCALOID → UTAU
 
  ・VOCALOID側でMIDIをエクスポートし、それをUTAUでインポートしたらとりあえず行けます。
  ・UTAUプラグインの「ImportVSQX」を使えばVSQXを読み込める。
 
 どちらにしても「-」の処理がめんどくさいです。これは一応UTAUプラグインがある(Vsqインポート後の伸ばし棒を、適切な母音に置換するプラグイン)ので、それで対応したりします。

2.VOCALOID → CeVIO

  ・VOCALOID側でMIDIをエクスポートし、CeVIOでインポート

 これも「-」の処理面倒ですが、もうこれは頑張るしかないです。ベタ打ちデータを取っておくのがベストです。あと、母音分割はいちいちノートを結合してピッチを書かないといけなくなります。

3.UTAU → VOCALOID
  
  ・UTAU側でMIDIをエクスポートし、VOCALOIDでインポート

 UTAUでのエクスポートの前にノートを単独音化しないとえぐい修正することになります。PIT情報が受け継がれます。VOCALOIDで読み込んだ時、歌詞は打ち込まれているのにずっと「あ」が鳴る場合、一回最初のノートの歌詞を書き直すとすべて歌詞通り歌ってくれるようになります。

4.UTAU → CeVIO
  
  ・3.と同じ。
 
 UTAUはノート分割すること少ないと思うのであまり問題は発生しないです。

5.CeVIO → VOCALOID

  ・CeVIO側でMIDIをエクスポートし、VOCALOIDでインポート

 ノート分割しながら反映されないPITを完成させる作業があります。CeVIOにはノートの中に2音節以上が書き込まれていることもあるのでそこは分割しないといけないです。あと「’」「※」が書かれたノートはいちいち修正が必要です。

6.CeVIO → UTAU

  ・5.と同じ

結論「超めんどいのでやらない方がいい」


くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
その他歌声合成
  1. VOCALOIDとUTAUとCeVIOを混ぜたような中国の歌声合成「Sharpkey」(02/15)
  2. 中国のHMMベース?歌声合成ソフト「MUTA」(01/28)
  3. リバーブで歌声を合成する実験 ソースフィルタモデルの歌声合成(12/13)
  4. 正弦波重畳方式(12/06)
  5. VOCALOID・UTAU・CeVIO間のデータのやり取り(11/10)
次のページ
次のページ