FC2ブログ

タイトル画像

歌う女子高生AIが一気に歌うまくなってた

2018.08.01(16:39) 249

学習系歌声合成も増えてきました。というか今研究開発されている歌声合成の主流は学習系な印象です。

これまでVoiceTextやボイスメイドプロジェクトが「無調声で人間らしい歌唱」を見せてくれましたが、マイクロソフトの女子高生AI「りんな」も前回から盛大に成長してきました。

かなりうまい。というのはほかの学習系でもいっしょなのでめちゃくちゃびっくりというわけでもないですが、音質がいいですよね。学習系っぽさが軽減されている。

もともと機械学習によるチャットボットだったりんなですが、音声投稿サービス「nana」と協力して朗読・歌唱を学習して歌うようです。

最初はこんな感じだった

今年の2月にはこうだった

ここから半年間の成長やばくね?

学習系歌声合成の強みは主に「無調声で人間らしく歌う」ところ。VOCALOIDやUTAUなどの波形合成系は調声が必要になるので方向性が全然違います。

ただし、ここで波形合成を馬鹿にしてしまうと十数年間歌声合成文化を作り上げてきたVOCALOIDやUTAUの資源を使わせてもらえなくなる程度には反感をかう可能性があるので注意。中国のXiaoIceがそれでかなり燃えたよね。

【学習系歌声合成の調声を考えてみる】※りんなの話ではない
 で、調声エンジョイ勢の方々は学習系を見るとこういうのです「調声するのが楽しいのに!」とか「仕事がなくなる!」とか。

学習系は確かに「無調声で人間らしく歌う」のですが、「無調声で思い通りに歌う」わけではないですよ。ここ重要。ほしいところでしゃくりあげしてくれなかったり、いらないところでフォールしたりすることだってもちろんあります。そういうところに「リテイクを出して」みたりあとから「歌声を補正して」みたりするのが学習系の調声の楽しみ方。

まずはバーチャルシンガーに対して楽譜を渡します。この段階での調声作業は「指示」です。楽譜には「フォルテ」だったり「クレッシェンド」だったり様々な「指示」が存在していて、ただの音符の羅列ではないのです。「ここはスラーにして」とか「笑うように」とか、感情に関する指示だって学習系なら可能かもしれません。

そして、渡した楽譜を読んでバーチャルシンガーが歌うわけです。この段階ではいくらでも「リテイク」を出せるのです。「そこはファルセットで」とか「しゃくりあげて」とか、イメージと違うところは適宜歌いなおしてもらえばいいのです。どんだけリテイクだしてもヘタらないし文句も言ってこない収録楽しいですよ。

歌い終わってからは歌声を「補正」していきます。実際のボーカリストと同じく、音程を補正したり、タイミングを補正したり。学習系は必ずしも正確には歌わないので、補正が必要な箇所はあったりします。メロダインやオートチューンで補正するなり加工するなりしてブラッシュアップしていくのです。

このように

楽譜で指示→リテイクだして→補正する

3段階の調声が可能です。もちろんまだ製品が出てないのでこれが実際にできるかどうかはわからないですが、ここまでやったら波形合成の調声エンジョイ勢も十分に楽しめるものになると思います。

これからどう発展していくんでしょうね。楽しみです。

なんでもいいから一般公開して!
スポンサーサイト


くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
<<ブラウザで動くボイスチェンジャー「ユーザーローカルボイスチェンジャー」使ってみた | ホームへ | UTAUはどのくらいのノイズに耐えられるか>>
コメント
コメントの投稿













管理者にだけ表示を許可する