タイトル画像

日本の元祖HMM系歌声合成「Sinsy」

2017.08.16(18:15) 150

歌声合成にもさまざまなシステムがあって、それぞれ結構音や性質が違います。

そんな中でも今回取り上げる「Sinsy」はHMM(Hidden Markov Model)という統計何とかをベースにしたブラウザ上で動く歌声合成なのです。最近はDNNベース?のライブラリも出ました。

声を聴いてみましょう。

「CeVIOっぽいな」と思った人もいるかもしれません。どちらもHMMベースの歌声合成であるという点で一致しているのです。むしろCeVIOがSinsyっぽい。

SinsyはじめHMM系歌声合成のいいところは「打ち込んだだけで自然な歌声が再現できる」という点です。調声の作業をしなくてもそこそこ自然に歌います。

Sinsyでは
童謡唱歌を得意とする「謡子」さん
日中英の三か国語を操る「香鈴」
ポップスを得意とする「f005j」
UTAUからやってきた「波音リツ」
・Sinsy初の男声「松尾P」

などの歌声を使うことができます。5人なのに多様性すごい。

【使い方】
ざっくりいうと3つの工程です
1.楽譜データを作る
2.Sinsyで歌声合成
3.VocalShifterで調声

見ていきましょう。

1.楽譜データを作る。
他の歌声合成と同じく楽譜データを作る必要があります。ただし、Sinsy自体には楽譜データを作るためのUIは存在しないので他のソフトウェアで作ります

使えるのは
RenoidPlayer(Renoidの記事はこちら
あたり(他にもあります)。

ここではVOCALOIDの調声のようにノート分割をしたりピッチを描くのではなくできるだけ「楽譜通り」に入力するのがコツ。しゃくりは入れない。

2.Sinsyで歌声合成
できた楽譜データ(.xml)をSinsyのページで読み込み、ちょっと待つと音声データが返ってきます。

これをダウンロードしてから調声が始まります。

3.VocalShifterで調声
Sinsyは調声のためのUIを持たないのでこちらもVocalShifterで調声作業を行っていきます。



【まとめ】
ここまで見るとわかりますが、Sinsyの調声は

1.歌手に楽譜を渡して
2.歌ってもらい
3.エディットする

という、実際に人間の歌手に歌ってもらうのととても近い方法になっています。

スポンサーサイト

くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

2つの顔を持つ歌声合成「Renoid」

2017.08.14(01:18) 149

無駄にかっこつけた感じのタイトルになりましたが。今回取り上げるのは歌声ライブラリが自作できる歌声合成「Renoid」です。

とりあえず聞いてみましょう


Aquestoneと似たような印象を受ける人もいるかもしれないですね。

【使い方】
1)簡単バージョン
  A.RenoidPlayerのHPに行きます。
  B.その他の歌声合成と同様に楽譜を入力して合成することができます。

つまり
一つ目の側面は「ブラウザ歌声合成」です。

Webブラウザだけで歌声を合成することができます。

他にもVOCALOID/UTAU/CeVIOなどのシーケンスデータ(VSQ/VSQX/UST/CCS)などをD&Dで読み込めます。

歌声はもともとUTAU音源としてリリースされている音源のRenoid版をはじめ9個の中から選べます。

2)難しバージョン
  A.Renoidのダウンロードページから「SoundFont版」の音源をダウンロード
  B.DAWでSF2ファイルを読み込めるVST(sfz/TX16WX等)で音源ファイル(.sf2)を読み込む
  C.音源に付属しているキーマップ図を参考にMIDIを打ち込む
  D.ピッチ補正プラグイン(Kerovee/Gsnap等)で思うように音程補正をする

つまり
二つ目の側面は「サウンドフォント系歌声合成」です。

「系」とは言ったもののほかにサウンドフォントを利用した歌声合成があるかは不明。

各鍵盤に「あー」とか「とー」とかひらがなを割り当てていきベロシティーも駆使しながらMIDIで歌詞とリズムを打ち込みます。

MIDIを見ると音程があるように見えますが、実際は音程はずっと一定でピッチ補正プラグインで後からピッチを変えるという方法で歌声を合成しています。

合成結果はAquestoneに似ています。どちらもUTAUでいうところの単独音と類似の方式で、SoundFont版の音源は先行発声にも対応しにくいという点も似ています。

先行発声の話は頭を使って計算するとどうにかなります。が、「タイミングを見極めながら歌詞打ち込みトラックにMIDIで歌詞を入れ、ピッチ補正プラグインを差し、別トラックからピッチ補正用MIDIを送ってくる」のはDTM初心者にはかなりの高難度

そんなこんなでRenoidは「RenoidPlayer」の利用をお勧めします。



【音源の作り方】
基本的には本家様のHPで作り方が学べます。ここではRenoiseを使わない方法で。

1.音声を録音
 「あー」とか「こー」とか発音は1文字ずつ別ファイルに録音していきます。UTAU単独音と同じ方法で問題ない。ちなみに発音はあまり長くしても意味ないので。

2.SoundFontにする
 ここがなかなかの高難度。SoundFontというのは「音声素材を集めて一つのDTM用音源としてまとめたもの」ですが、比較的簡単に作れるSoundFont(SFZ形式)はRenoidPlayerさんうけつけてくれないっぽいので、SF2形式で作ることになります。

 SoundFontは私もたまに作りますがSF2は苦手なので説明は「SoundFont 作り方」で検索してくださいませ。「Vienna」というフリーソフトで作ります。一応ダウンロードページを。

完成。

頭の使いようでは連続音形式に対応できそうな気はしています。


まとめ
 ブラウザだけでも歌声合成で遊べるRenoidPlayerでブラウザDTMができる


くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

フリーライド歌声合成 Nakloid

2017.05.11(20:42) 141

UTAU音源はUTAU以外のソフトでも使えることがあります。今回はUTAUにフリーライドしている「Nakloid」という歌声合成ソフトを使ってみました。
歌声を聞いてみましょう。いい曲です。

【概要】
「Nakloid」はUTAU音源とUST/MIDIがあれば歌声を合成してくれるWinで動くソフトウェアです。

ソースコードがMITライセンスで公開されているようなので、いろいろいじれるみたいです。

【配布場所】
手っ取り早く歌声合成をしたいなら「Nakloid GUI」を使います。こちらのページでダウンロードできます。

【導入】
ソフトを動かすためにはJavaのランタイムが必要なので先にインストールしておきます。正直本家様の導入方法を読めば全部わかります。のでもう本家様にフリーライドさせていただきます。

【導入可能なUTAU音源】
Nakloidにはデフォルトで歌声ライブラリが付属していないので自分で導入する必要があります。

ここで注意するべきはUTAU音源には「UTAU以外のソフトで読み込んでいい音源」と「UTAU以外のソフトで読み込んではいけない音源」があるということです。

音源のReadmeや規約をよく読んで導入してもいいものだけ導入しましょう。


今回は私もかかわったのでその辺安心な「会長ロイド」を使います。

もろもろ導入できたらとりあえず起動してみます。

【操作画面】
起動直後はとてもシンプル
Nak01.png 

音符表示画面
ファイル>楽譜をインポート でUSTかMIDIを読み込みます
nak02.png 
ウィンドウ上部には合成波形が表示され、ピアノロールも表示されますが、グリッドは表示されません。また、ノートのタイミングはミリ秒で指定するようになっているのでゼロからの打ち込みは厳しいです。

ピッチ表示画面
F2キーでピッチ編集用の画面になります。
nak03.png

ピッチ曲線はフリーハンドで描けます。ちなみに元に戻すことはできないという男気仕様です。元USTでのピッチ情報は保持されないようです。 

ちなみに選択部分のみ合成&再生というのもないです。常に全部再生します。

設定
Nakloid GUIの細やかさはここに出ます。 オプション>設定 で歌い方の設定をすることができます。

特徴的な項目は

微細変動:ピッチのヒューマナイズ?
オーバーシュート:オーバーシュートを自動で入れたり入れなかったり調節できる
プレパレーション:プレパレーションを自動で入れたり入れなかったり調整できる
簡易コンプレッサー:簡単にコンプレッサーをかけてくれる

【その他の機能たち】
あまり詳しく調べられていませんが

・原音設定
・Nakloid特有のピッチマーカーの編集
・話し声合成

など、力の入れどころからしても実際にはこちらがメインな気がします。

【まとめ】
・歌声合成の勉強によい
・ピッチが手書きできる
・波形を編集中に見られる
・歌声合成部分はガチ




くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

VOCALOIDとUTAUとCeVIOを混ぜたような中国の歌声合成「Sharpkey」

2017.02.15(16:30) 128

中国の歌声合成ソフト「Sharpkey」が先日アップデートしてさらに機能が追加されました。この歌声合成は純粋にかなりすごいと思うし、とっても好きなので皆さん触ってみてください。

ちなみにVOCALOID・UTAU・CeVIOの配合率は6:2:2くらいです。

歌声を聞いてみましょう。

ホームページはこちら

表現力ありますよね。早速使ってみました。

【ファイルサイズ】
エディター自体はそんなに大きくないですが、音源サイズはばかでかいです。Huan Xiao Yiの音源インストーラーのサイズは1.4GBで、インストール後の音源本体とみられるファイルは1.91GBあります。後述しますが4音階音源のようなのでファイルサイズは妥当より少し大きいかもくらい。少なくともHMMベースなだけの音源ではないようです。

【音源】
現在配布されている音源は幻晓伊(Huan Xiao Yi)とサードパーティー?の琪亚娜(Kiana)のようです。Kianaはもともとあるゲームのキャラクターのようですね。

【操作画面】
楽譜(ノート入力)画面
SK01.png 
とってもVOCALOIDライクになっています。使い心地は良好で、中国語が読めなくても迷いなく操作できます。アタックやビブラートの編集窓(クリックで表示される)はVOCALOIDとほぼ一緒。

VOCALOIDと少し違うのは左のピアノロールは押しても音が出ないこと、ビブラートはツールで伸縮できないことあたりです。

歌詞の入力は中国簡体字かピンインでできます。音素の指定をしたい場合はピンインで入力します。TABキーで次のノートに移ったり、歌詞の流し込みができるのも大体同じ。

UTAUと同様にブレスはノートとして打ち込むことができます。

画面上の真ん中あたりにある「参数」をクリックすると編集モードになります。この時ピアノロールの左上に出る鉛筆マークの中から編集したい項目を選びます。

編集画面 音量
SK02.png 
純粋な音量調節で、声質は変わらない。VOCALOIDのDYNとほぼ同じ機能。上下の幅が結構広いのでかなり大きく動かしてるつもりでも思ったほど変化はない感じ。

編集画面 音調
SK03.png 
ピッチ編集モードです。これはCeVIOとほぼ同じ操作感でフリーハンドかラインツールでピッチを感覚的に手書きできます。ビブラートはついた状態で表示され、もろとも編集できる。

編集画面 亮度
SK04.png 
VOCALOIDのBRIと大体同じもの。声の明瞭度・明るさ・ハリをコントロールします。

編集画面 力度
SK05.png 
これはとてもいいパラメーターで、オリジナルのものと言えます。声の強さをコントロールすることができます。この時の「声の強さ」は音量の変化というよりも声質の変化、つまり「力強さ」です。

 力度0から徐々に上げていくとこうなる

編集画面 気声
SK06.png 
これはVOCALOIDのBREと同じもので、息っぽさをコントロールできます。割とノイジーというよりは自然な仕上がりになってくれました。

編集画面 声線
SK07.png 
今回はいじってませんがVOCALOIDのGENと同じものです。あげると男性的に・年齢が高くなり、下げると女性的に・年齢が低くなります。

編集画面 音素
SK08.png 
これはCeVIOのタイミング調整画面に近いもので、各ノートの発声タイミングをコントロールできます。子音の長さを変えたければ赤の区間をいじります。CeVIOの人は慣れている画面と近いですが、VOCALOIDの人はVELや母音分割で対応しているあたりで、UTAUの人は子音速度で対応している部分になります。

編集画面 音色
SK09.png 
この画面ではそのノートで使うサンプルの変更ができます。UTAU的な機能です。VOCALOIDやUTAUは中の人の声を録音して切り貼りしているわけですが、録音した音程から大きく離れた音を出そうとするとどうしても無理が出るので、高い声や低い声も同様に録音して対応しています。この画面を見た感じではHuan Xiao Yiは4音階音源のようです。

左の色分けはUTAUのプリフィックスマップと同じようなものでサンプルの対応範囲を示しています。フラグをクリックするとサンプルが選択でき、中域高めの音程(T3の対応範囲)を鳴らすときに低域のサンプル(T1)を鳴らすことも可。

UTAUの人はG4の音程で「- あ」と鳴らすときに、その音が気に入らなければ「- あC4」など別音程のサンプルを引いてくることがありますが、その感覚です。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━


と、このようにSharpkeyはいろんな要素を詰め込んだ歌声合成であることがわかります。

VOCALOIDのようなノート・パラメーター編集
UTAUのような音素選択・ブレス打ち込み
CeVIOのようなピッチ・タイミング編集
オリジナルの力度編集

さらに、噂によると歌声ライブラリの自作もできるようになるらしい(あくまで噂)ので今後UTAU音源制作勢の参入も期待です。

今回できた音声を一応置いておきます。




くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

中国のHMMベース?歌声合成ソフト「MUTA」

2017.01.28(17:30) 125

最近の中国の歌声合成は結構アツくて目を見張るものがあります。

そんな中出てきたのが「MUTA」です。

「MUTA」というのは歌声合成ソフトの名前で、デフォルトでついてくる歌声は「嫣汐(Yan Xi)」と言います。歌声を聞いてみましょう。


早速触ってみました。

【ファイルサイズ】
MUTAの音源部分は「yanxi.voice」というファイルになっていて、このファイルのサイズは215MB。UTAU日本語連続音2~3音階分くらいのサイズです。それなりのサイズではありますが「中国語ライブラリ」であると考えると小さめともいえるかもしれません。

【音源ライブラリ】
MUTAの音源部分は歌声ライブラリ一つと、話し声ライブラリ三つで構成されています。この構成はCeVIOとほぼ同じです。

【操作画面】
SONG機能 ノート入力画面
MUTA_SONG_STD 
あまり見ない感じのカラーリングですが、操作は別にフツーです。D&Dでノートが描け、ダブルクリックで歌詞入力ができます。歌詞入力は中国語簡体字とピンインでできるようです。読めない文字を入れるとすべて「あ」で発音され、「-」ノートがVOCALOIDと同じ挙動になります。

SONG機能 タイミング調整画面
MUTA_SONG_TMG.png

タイミング調整画面はCeVIOとほぼ同じですが、区切り線はCeVIOより少なめ。数も一定ではない模様。挙動は大体CeVIOと同じ。

SONG機能 ピッチ調整画面
MUTA_SONG_PIT.png 
CeVIOやSharpkey同様フリーハンドでピッチ曲線を描くことができます。打ち込んだままの状態でもしゃくりがついていたりします。しかし、デフォルトのピッチがCeVIOがピアノロールの1音階の真ん中あたりにラインがあるのに対してこちらは境目あたりにあるのが少し違和感あります。

SONG機能 ボリューム調整画面
MUTA_SONG_VOL.png

こちらも手書きでボリューム操作ができますが、CeVIOのダイナミクス調整とは違ってDAWのオートメーションやVOCALOIDのDYNくらいの感じです。 

SONG機能 ビブラート調整画面
これはCeVIOと同様、振幅を指定する「VIA」画面と周期を指定する「VIF」画面があり、操作もCeVIOと同じです。

【まとめ】
HMMベースの歌声合成っぽい?細かい違いはあるがCeVIOと似た点が多い

一応今回テストしてできた音声を載せておきますね。



くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
その他歌声合成
  1. 日本の元祖HMM系歌声合成「Sinsy」(08/16)
  2. 2つの顔を持つ歌声合成「Renoid」(08/14)
  3. フリーライド歌声合成 Nakloid(05/11)
  4. VOCALOIDとUTAUとCeVIOを混ぜたような中国の歌声合成「Sharpkey」(02/15)
  5. 中国のHMMベース?歌声合成ソフト「MUTA」(01/28)
次のページ
次のページ