去年の九月にMyTwitterに「我々も歌声合成の研究を行っています」というリプが来まして知りました。
【ボイスメイドプロジェクト とは】
東北大学の音声認識、音声合成などを行う研究室発のプロジェクトだそうで。
歌声合成を作ったり、ノベルゲームを作ったり、小さいロボットを作ったりいろいろしている模様。
今回は歌声合成に注目していきます。以下ボイスメイドプロジェクト=VMPと略記します。
【歌声合成】
とりあえずどんなものか聞いてみましょう。後半がVMPのもの。
すごかろ? VOICE TEXTを思い出すかなりの人間らしさ。実際VOICE TEXTの関係者さんとも会ってたりするようです。
DNNを活用しているらしく、VOCALOIDのような調声をすることなくこのように歌えるということなのです。そして公式Twitterによると音源やソフトを無料公開予定とかDAW連携・音声ライブラリ自作などへの対応を検討しているという話もあるようで期待値が個人的に爆上がりしているわけですが、その辺がどの程度実現できるかは「研究費次第」というところらしいので、期待しながらもプレッシャーにならない程度の感じで応援していこうかと思います。
GUIの開発自体予算的に厳しそうということもあるらしいのでひっそりと、合成エンジンを作って汎用歌声合成シーケンサー「Cadencii」にくっつけるとか、SinsyのようにXMLを受け取って音声を返すWebアプリくらいの感じでもいいんじゃないかとか思ってたりします。
なんにしてもPCで手元で使ってみたい欲が半端ない逸品。頓挫してしまうよりはそういう方法で出してもらった方がよっぽどうれしいのです。
デモ曲の制作なんかでもお手伝いしたいなとか思いつつVMPの未来に思いをはせています。
【ボイスメイドプロジェクト とは】
東北大学の音声認識、音声合成などを行う研究室発のプロジェクトだそうで。
歌声合成を作ったり、ノベルゲームを作ったり、小さいロボットを作ったりいろいろしている模様。
今回は歌声合成に注目していきます。以下ボイスメイドプロジェクト=VMPと略記します。
【歌声合成】
とりあえずどんなものか聞いてみましょう。後半がVMPのもの。
すごかろ? VOICE TEXTを思い出すかなりの人間らしさ。実際VOICE TEXTの関係者さんとも会ってたりするようです。
DNNを活用しているらしく、VOCALOIDのような調声をすることなくこのように歌えるということなのです。そして公式Twitterによると音源やソフトを無料公開予定とかDAW連携・音声ライブラリ自作などへの対応を検討しているという話もあるようで期待値が個人的に爆上がりしているわけですが、その辺がどの程度実現できるかは「研究費次第」というところらしいので、期待しながらもプレッシャーにならない程度の感じで応援していこうかと思います。
GUIの開発自体予算的に厳しそうということもあるらしいのでひっそりと、合成エンジンを作って汎用歌声合成シーケンサー「Cadencii」にくっつけるとか、SinsyのようにXMLを受け取って音声を返すWebアプリくらいの感じでもいいんじゃないかとか思ってたりします。
なんにしてもPCで手元で使ってみたい欲が半端ない逸品。頓挫してしまうよりはそういう方法で出してもらった方がよっぽどうれしいのです。
デモ曲の制作なんかでもお手伝いしたいなとか思いつつVMPの未来に思いをはせています。
スポンサーサイト
くろ州の合成音声備忘録
個人用の音声合成ソフトとしてリリースされてはいないですが、見逃すことのできないハイクオリティーな音声合成「VOICE TEXT」を紹介します。
HP=音声合成の声優事務所
※音が出ます
【VOICE TEXT とは】
法人向けが主な機械やアプリに組み込んで使うタイプの音声合成。話し声も歌声も合成できる。
ディープラーニングを使ったりもしている。今どきディープラーニングで音声合成というのは自然な流れではあるけどクオリティーが高い。
【特徴 話声合成】
所属するキャラは14に及ぶなかなかの大所帯。AI Talk同様多言語対応で、一部感情表現にも対応。
博多弁キャラ萌え。
というところはそこまで特殊でもないですが、クオリティーがやばい。
HP中ごろにディープラーニングのサンプルが置いてありますが、VOICE TEXTの一番の強みは「演技ができる」というところ。
「どれにしよっかなぁ」というセリフ。従来版では「どれにしよっかなあ」という感じで呼んでくれますが、ディープラーニングのほうでは「どれにしよっかなぁー?」と語尾にちょっとした表現力が!
単純に読むだけでなく音素の長さが変わっているし、ちょっと思わせぶりな感じも出ている。すげぇ。
「あぁー。そういうことなのね」というセリフ。従来版では「あぁあ。そういうことなのね」という感じだけど、ディープラーニングのほうでは「あぁー……そーゆーことなのね……?」くらいの!表現力が!
なんということでしょう。
声質は学習系音声合成っぽさがあまりない感じがしますね。
【特徴 歌声合成】
歌声合成もすごいです。学習系歌声合成で、無調整でも勝手に歌ってくれます。しゃくりやビブラートも息遣いも何もしなくてもこれだけ歌ってくれる。
公式オリジナル曲とか作っちゃってるんですよ。無調整でこれということは、曲作って楽譜渡しただけでこうやって歌って返してくれるんですよ。あとはちょっとリテイク出したり手を加えればよい。となるとまさに「バーチャルシンガー」という感じがしてきますね。
こっちのデモはより歌い方がわかりやすいですね。無調整とは思えない。
【まとめ】
誰かこれを組み込んだ歌声合成ソフト作ってくれませんか!買うので!
開発者さん向けにWebAPIが公開されていますよ
HP=音声合成の声優事務所
※音が出ます
【VOICE TEXT とは】
法人向けが主な機械やアプリに組み込んで使うタイプの音声合成。話し声も歌声も合成できる。
ディープラーニングを使ったりもしている。今どきディープラーニングで音声合成というのは自然な流れではあるけどクオリティーが高い。
【特徴 話声合成】
所属するキャラは14に及ぶなかなかの大所帯。AI Talk同様多言語対応で、一部感情表現にも対応。
博多弁キャラ萌え。
というところはそこまで特殊でもないですが、クオリティーがやばい。
HP中ごろにディープラーニングのサンプルが置いてありますが、VOICE TEXTの一番の強みは「演技ができる」というところ。
「どれにしよっかなぁ」というセリフ。従来版では「どれにしよっかなあ」という感じで呼んでくれますが、ディープラーニングのほうでは「どれにしよっかなぁー?」と語尾にちょっとした表現力が!
単純に読むだけでなく音素の長さが変わっているし、ちょっと思わせぶりな感じも出ている。すげぇ。
「あぁー。そういうことなのね」というセリフ。従来版では「あぁあ。そういうことなのね」という感じだけど、ディープラーニングのほうでは「あぁー……そーゆーことなのね……?」くらいの!表現力が!
なんということでしょう。
声質は学習系音声合成っぽさがあまりない感じがしますね。
【特徴 歌声合成】
歌声合成もすごいです。学習系歌声合成で、無調整でも勝手に歌ってくれます。しゃくりやビブラートも息遣いも何もしなくてもこれだけ歌ってくれる。
公式オリジナル曲とか作っちゃってるんですよ。無調整でこれということは、曲作って楽譜渡しただけでこうやって歌って返してくれるんですよ。あとはちょっとリテイク出したり手を加えればよい。となるとまさに「バーチャルシンガー」という感じがしてきますね。
こっちのデモはより歌い方がわかりやすいですね。無調整とは思えない。
【まとめ】
誰かこれを組み込んだ歌声合成ソフト作ってくれませんか!買うので!
開発者さん向けにWebAPIが公開されていますよ
くろ州の合成音声備忘録
VOCALOIDは約70種ほどいますが、そこからファンが作った(=ファンメイドの)派生キャラやオリジナルキャラを「FANLOID(ファンロイド)」という言い方が存在します。これにはいろんな種類があるので独自に類型を作ってまとめてみました。
・VIPPALOID系
・オリジナル系
・性転換亜種
・クリーチャー系
・クロスシンセシス系
以下目次
・デザイン系
・楽曲系
・二次創作系・VIPPALOID系
・オリジナル系
・性転換亜種
・クリーチャー系
・クロスシンセシス系
くろ州の合成音声備忘録
SugarCapeというのは、実に愉快な開発者さんによる2009年生まれのMac専用歌声合成です。
紹介動画をどうぞ。
できることは基本動画にあるので全部です。この人の解説動画ネタ仕込まれてて面白いですよね。
配布ページ
紹介動画をどうぞ。
できることは基本動画にあるので全部です。この人の解説動画ネタ仕込まれてて面白いですよね。
配布ページ
以下目次
・特徴分析
・SaltCase
・iPhone用SugarCape
くろ州の合成音声備忘録
これまで20近い歌声合成を触ってきたので、自分にしかできない(こともないけど私らしい)こととしてできるだけ多くの歌声合成でカバー曲を作ろうという話。
今までは初音ミク男声化亜種「ミクオ」の日=5月29日にミクオカバーで9種類40キャラ以上を「コールアンドレスポンス」要員に使っていましたが、今回やっと「ソロパートのある6種の歌声合成カバー」ができました。
【利用歌声合成】
一番左 Sharpkey:勇氣 ハモリ:幻曉伊
参考記事 http://km4osm.blog.fc2.com/blog-entry-172.html
私が日本語情報のほとんどを発信している中国のすごい歌声合成ソフト。無料。VOCALOIDのような連続的パラメーター、UTAUのようなサンプル切り替え、CeVIOのようなタイミング調声、独自の「力強さ」パラメーターに母音モーフィング機能など、既存の歌声合成のいいとこ煮詰めたみたいなもの。
今回のボーカルは最新音源「勇氣」とハモリに最初の音源「幻曉伊」。モーフィング機能とタイミング調声をフル活用して日本語を歌わせ、「力度」パラメーターで広いダイナミクスレンジを出しました。
左から二番目 CeVIO:ONE ハモリ:さとうささら
参考記事:http://km4osm.blog.fc2.com/blog-entry-202.html
HMMという統計的手法をベースに作られた歌声合成。ただ楽譜通り入力するだけでもそこそこ自然に人間らしいタイミングやピッチのズレを再現してくれる。
今回のボーカルは「ONE」とハモリに「さとうささら」。調声はあくまで表情をつける程度。一部グロウルさせてみた。
左から三番目 VOCALOID:初音ミク ハモリ:kokone
世界中の歌声合成ムーブメントを引き起こしたといってもいい歌声合成。歌声合成としてはたいして古くないが、ここをはじめとして「バーチャルシンガー」ブームが始まったといえる。
今回のボーカルは代名詞「初音ミク V4X Solid」とハモリにハーモニーの魔術師「kokone」。特に気張らずいつも通り。ミクはいじらない方がミクっぽい。
右から三番目:UTAU:朱音イナリ ハモリ:健音テイ
参考記事:http://km4osm.blog.fc2.com/blog-entry-171.html
私は主にここに生息している。日本の無料歌声合成筆頭。バーチャルシンガーを自分で作れるというのが大きな特徴。しかも音源制作可能な歌声合成の中でもクオリティーは最高レベル。世界で最も利用可能な音源の多い歌声合成ソフトでもある。
今回のボーカルは私の推し「朱音イナリ」とハモリに「健音テイ」。UTAUの特徴は語尾での息を抜くリリースや裏声へのシフトなど息遣いによくあらわれると思う。今回もそれは意識して調声した。
右から二番目 Sinsy:f00005j ハモリ:香鈴
参考記事:http://km4osm.blog.fc2.com/blog-entry-150.html
Webブラウザで動く無料のHMM系歌声合成。CeVIO同様何もしなくてもそこそこ自然に歌う。歌声の合成品質もCeVIOに迫る。打ち込み・調声用のGUIがない。
今回のボーカルは名前はまだない「f00005j」とハモリに「香鈴」。CeVIOでシーケンスを作りブラウザで合成しVocalShifterで表情をつけた。
一番右 Alter/Ego:MarieOrk ハモリ:Daisy
参考記事:http://km4osm.blog.fc2.com/blog-entry-178.html
DAW上でVSTとして動作する歌声合成。同類はディレイラマやAquestone。無料でも使えるモントリオールのソフト。リアルタイム合成に比較的強い。調声作業はVOCALOIDに近い。世界で最も調声用パラメーターが多い(数え方によりけど最大60いじろうと思えばいじれる)。
今回のボーカルは最新音源「MarieOrk」とハモリに最初の音源「Daisy」。今回のカバーで最も手間がかかった。大まかな調声はDAW上で行い、必要に応じてVocalShifterを使用。ビブラートが魅力的。
今までは初音ミク男声化亜種「ミクオ」の日=5月29日にミクオカバーで9種類40キャラ以上を「コールアンドレスポンス」要員に使っていましたが、今回やっと「ソロパートのある6種の歌声合成カバー」ができました。
【利用歌声合成】
一番左 Sharpkey:勇氣 ハモリ:幻曉伊
参考記事 http://km4osm.blog.fc2.com/blog-entry-172.html
私が日本語情報のほとんどを発信している中国のすごい歌声合成ソフト。無料。VOCALOIDのような連続的パラメーター、UTAUのようなサンプル切り替え、CeVIOのようなタイミング調声、独自の「力強さ」パラメーターに母音モーフィング機能など、既存の歌声合成のいいとこ煮詰めたみたいなもの。
今回のボーカルは最新音源「勇氣」とハモリに最初の音源「幻曉伊」。モーフィング機能とタイミング調声をフル活用して日本語を歌わせ、「力度」パラメーターで広いダイナミクスレンジを出しました。
左から二番目 CeVIO:ONE ハモリ:さとうささら
参考記事:http://km4osm.blog.fc2.com/blog-entry-202.html
HMMという統計的手法をベースに作られた歌声合成。ただ楽譜通り入力するだけでもそこそこ自然に人間らしいタイミングやピッチのズレを再現してくれる。
今回のボーカルは「ONE」とハモリに「さとうささら」。調声はあくまで表情をつける程度。一部グロウルさせてみた。
左から三番目 VOCALOID:初音ミク ハモリ:kokone
世界中の歌声合成ムーブメントを引き起こしたといってもいい歌声合成。歌声合成としてはたいして古くないが、ここをはじめとして「バーチャルシンガー」ブームが始まったといえる。
今回のボーカルは代名詞「初音ミク V4X Solid」とハモリにハーモニーの魔術師「kokone」。特に気張らずいつも通り。ミクはいじらない方がミクっぽい。
右から三番目:UTAU:朱音イナリ ハモリ:健音テイ
参考記事:http://km4osm.blog.fc2.com/blog-entry-171.html
私は主にここに生息している。日本の無料歌声合成筆頭。バーチャルシンガーを自分で作れるというのが大きな特徴。しかも音源制作可能な歌声合成の中でもクオリティーは最高レベル。世界で最も利用可能な音源の多い歌声合成ソフトでもある。
今回のボーカルは私の推し「朱音イナリ」とハモリに「健音テイ」。UTAUの特徴は語尾での息を抜くリリースや裏声へのシフトなど息遣いによくあらわれると思う。今回もそれは意識して調声した。
右から二番目 Sinsy:f00005j ハモリ:香鈴
参考記事:http://km4osm.blog.fc2.com/blog-entry-150.html
Webブラウザで動く無料のHMM系歌声合成。CeVIO同様何もしなくてもそこそこ自然に歌う。歌声の合成品質もCeVIOに迫る。打ち込み・調声用のGUIがない。
今回のボーカルは名前はまだない「f00005j」とハモリに「香鈴」。CeVIOでシーケンスを作りブラウザで合成しVocalShifterで表情をつけた。
一番右 Alter/Ego:MarieOrk ハモリ:Daisy
参考記事:http://km4osm.blog.fc2.com/blog-entry-178.html
DAW上でVSTとして動作する歌声合成。同類はディレイラマやAquestone。無料でも使えるモントリオールのソフト。リアルタイム合成に比較的強い。調声作業はVOCALOIDに近い。世界で最も調声用パラメーターが多い(数え方によりけど最大60いじろうと思えばいじれる)。
今回のボーカルは最新音源「MarieOrk」とハモリに最初の音源「Daisy」。今回のカバーで最も手間がかかった。大まかな調声はDAW上で行い、必要に応じてVocalShifterを使用。ビブラートが魅力的。
くろ州の合成音声備忘録
CeVIOの前身ともいえるSinsy。いわば無料のCeVIOともいえるわけですが、CeVIOソングエディター&シンガー=約1.2万円とSinsy=0円でどのくらい違うか見てみましょう。
以下目次
・基本:Sinsyの使い方基礎おさらい
・比較:同じ曲でCeVIOとSinsyを比較(サンプルあり)
くろ州の合成音声備忘録
同じシーケンス、同じMIXで比較できます。
・中国語 初嵐 DECO*27さん で比較
・日本語 いーあるふぁんくらぶ みきとPさん で比較
くろ州の合成音声備忘録
長かった。実に長かった。私がこれできるようになったのはついさっきです。
中国版CeVIOともいうべき歌声合成「MUTA」にはCeVIO同様トーク機能があるんですが、これ日本語PCでピンイン入力できるようになってるだけでは合成できないんですよ。プチプチノイズが鳴るだけ。
中国版CeVIOともいうべき歌声合成「MUTA」にはCeVIO同様トーク機能があるんですが、これ日本語PCでピンイン入力できるようになってるだけでは合成できないんですよ。プチプチノイズが鳴るだけ。
以下目次
・下準備:これがないと何もできない
・使い方:動画解説付き
くろ州の合成音声備忘録
中国の歌声合成Sharpkey・MUTAなどを操作しようと思うときに「歌詞入力」がありますね?
あれは基本、中国語のローマ字表記=ピンインを使うことで入力できます。
[ni][hao][wo][jiao][yan][xi]と打ち込めば普通に歌ってくれます。
が、たまに漢字(簡体字)で入力する場面があるかもしれません。私は特になかった。
キャラの名前を漢字で書きたいことはあるのでできて文句はない。
【流れ】
Windowsに中国語を追加する。以上。
【導入方法】
Windowsボタン→設定→時刻と言語→地域と言語→言語の追加→中文(中華人民共和国)
とやっていきます。
1.↓歯車マークを押す

2.↓時刻と言語を押す

3.↓地域と言語→言語の追加→中文(中華人民共和国)の順に進む

ここまででとりあえずOK
【入力方法】
「Windowsキー」+「スペースキー」同時押しで入力言語の切り替えができます

こんなのが出ればOK。
これでピンイン入力すれば変換できる。

こうなる。数字キーで選択できます。以上。
あれは基本、中国語のローマ字表記=ピンインを使うことで入力できます。
[ni][hao][wo][jiao][yan][xi]と打ち込めば普通に歌ってくれます。
が、たまに漢字(簡体字)で入力する場面があるかもしれません。私は特になかった。
キャラの名前を漢字で書きたいことはあるのでできて文句はない。
【流れ】
Windowsに中国語を追加する。以上。
【導入方法】
Windowsボタン→設定→時刻と言語→地域と言語→言語の追加→中文(中華人民共和国)
とやっていきます。
1.↓歯車マークを押す
2.↓時刻と言語を押す
3.↓地域と言語→言語の追加→中文(中華人民共和国)の順に進む
ここまででとりあえずOK
【入力方法】
「Windowsキー」+「スペースキー」同時押しで入力言語の切り替えができます
こんなのが出ればOK。
これでピンイン入力すれば変換できる。
こうなる。数字キーで選択できます。以上。
くろ州の合成音声備忘録
Sharpkey音源は基本的に配布場所に利用規約が書いてありません。インストール後のファイル群にもREADMEは付属していません。何なら音源ダウンロードしてもインストーラー単体ドーンだけなのでやっぱりREADMEはない。
しかし、一か所だけあるんですよね。利用規約が書いてある場所が。
インストーラー実行してる途中!
要するに確認したくなったらインストーラー立ち上げてインストール手前まで進めないといけないんですね。
しかも! 画面はこんな感じ

Sharpkeyの猛者ならこれでも多少読めますが、普通に考えて無理なので文字化けを直してみました。
書いてあるのは
・バーチャルシンガーのキャラ設定
・利用規約
・免責
・連絡先
の四つ
以下、利用規約のコピペ
’’’
文字化けの解消情報をいただきました、
・ソースコード、テキスト、画像ファイルの編集、変更は禁止
・再配布禁止
・カバー曲を作るときには楽曲側の権利・規約に注意
・法や規則に違反する曲、道徳性を欠く曲に使用することは禁止
・猥褻・暴力的表現のある作品を作るのに使うことは禁止
・音声、音源名を商用利用する場合にはそのことを音源制作者に報告し、同意を得なければならない
とりあえず日本の感覚でやってる分には大丈夫そう。
本家から出ている音源であれば内容は同じ。
しかし、一か所だけあるんですよね。利用規約が書いてある場所が。
インストーラー実行してる途中!
要するに確認したくなったらインストーラー立ち上げてインストール手前まで進めないといけないんですね。
しかも! 画面はこんな感じ

Sharpkeyの猛者ならこれでも多少読めますが、普通に考えて無理なので文字化けを直してみました。
書いてあるのは
・バーチャルシンガーのキャラ設定
・利用規約
・免責
・連絡先
の四つ
以下、利用規約のコピペ
’’’
【利用规约】 -禁止对音源文件,文本文件和图片文件进行修改,禁止再次发布。 -在制作翻唱时请注意歌曲的版权问题。 -禁止利用该音源制作违反国家法律法规或触犯道德底线的歌曲。 -禁止利用该音源制作包含猥亵,色情或暴力内容的歌曲。 -出于商业目的而利用该音源或音源名称时,有告知并征得音源制作方同意的义务。'''
文字化けの解消情報をいただきました、
・ソースコード、テキスト、画像ファイルの編集、変更は禁止
・再配布禁止
・カバー曲を作るときには楽曲側の権利・規約に注意
・法や規則に違反する曲、道徳性を欠く曲に使用することは禁止
・猥褻・暴力的表現のある作品を作るのに使うことは禁止
・音声、音源名を商用利用する場合にはそのことを音源制作者に報告し、同意を得なければならない
とりあえず日本の感覚でやってる分には大丈夫そう。
本家から出ている音源であれば内容は同じ。