CeVIOエンジンを作ったテクノスピーチさんが2018年にディープラーニングで人っぽく歌える歌声合成を発表しましたよね。あれを見てきました。
【経緯】
テクノスピーチNakamuraさん「最新の歌声合成のデモします」
私「行かねば(義務感)」
10月9日に明治記念館でポスター展示します。
— Kazuhiro Nakamura (@kazicnet) September 30, 2019
一般の方も無料で入れるようです。
最新の歌声合成のデモもするのでぜひ。https://t.co/W6hYsGZd6J
【いざ会場へ】
というわけで行ってきました。会場は明治記念館。
会場がやたら高級感あるんですよね。総務省のイベントだからかな?
でもその辺は私も仕事で慣れてきました。受付を済ませて会場に入ると
ブース……(中村さんいらっしゃる)
DAW連携しよる!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!(第1印象)
ディープラーニングとはあんまり関係ないんですが、NeoCeVIO(仮)、現時点でREAPER上で動いとるんですわ。
もちろん、まだ製品化のめどがたっていないので今後どうなるかはさっぱり分からないですが、NeoCeVIOがDAWで(も)動く可能性はあるんじゃないでしょうか。わくわく。
DAW連携以前に、このシステムが動いてるのが一般的なノートPCですよね。実際にその場でも合成して見せてもらったんですが、ちょっと待てば普通に合成完了しました。今年の3月ごろの時点では「高速演算が可能なコンピュータでも5分の歌を合成するのに10時間近くがかかる」という話だったらしいですが、その後8月くらい?には高速化に成功したようです。
【本題】
NeoCeVIO(仮)は、今日見た限りではもうかなり出来上がっていました。MusicXMLをCeVIOっぽいピアノロールが載ったGUIに投げると歌声が合成されます。何曲か合成して聞かせてもらいましたが、何もしなくてもちゃんと勝手に表現して歌ってくれるっていうのを目の前で見ると「ミライ来てるな」って感じしますね! これあれば、作曲家さんが深夜に「アイデア降ってきた!」ってなって作業してもすぐに歌まで作れちゃう。調声しなくていいから。
とはいえ、調声したいというニーズもやっぱりある。今回されていた仮GUIでは、ノートの移動はできないものの、パラメーターはいじれるようになっていた。用意されているのはボリューム・ピッチ・タイミング(デュレーション)・ビブラートの周期と振幅あたりで、今のCeVIOと変わらない。それぞれのパラメーターの表示も変わりませんでした。もちろん仮なのでパラメーターの種類とか表示がどうなるかはわからないですが。
これを読もうと思った皆さんなら、たぶんすでにNeoCeVIO(仮)カバーは何曲か聞いていると思います。基本的にはそれと同じような音・歌い方になっています。今回は一般公開されていない、あいみょんカバーやSuperflyカバーなんかを聞かせてもらいました。よいわぁ~~。
あいみょんをNeoささら(仮)が歌ってるのは「うん。そうだよね」っていう納得感があったんですが、Superflyを表情豊かに歌っているNeoささら(仮)は新鮮でしたね。
A・Bメロは落ち着いた感じに。でもサビではテンション上げて力強く歌ってくれました。その辺の、“シンガーのテンション”のコントロールは強弱記号でできるそうです。CeVIOでもピアニッシモからフォルティッシモまで指定して歌わせられるんですが、NeoCeVIO(仮)でもできるらしい。
落ち着いているというのは、声色というよりも歌い方に現れる感じがしました。ピッチがそんなにぶれないし、しゃくりも激しくない。サビになると、声色もハる感じでしたが、しゃくりやビブラートが強めにかかる(あくまで印象)ようでした。
ちなみに、音程はやっぱり外します。中の人が外すならもちろんそれが正解。音楽製品にすることを考えるなら補正システムも欲しいですよね~~って話をしました。1キャラ毎に別スタイルの音源をバンドルして販売するとかもいいですよね~~とか好き勝手言いました。
【製品化はいつ?】
さっぱりわからないです。エンジンのほうはもう結構できてると思うんですが、GUIのほうはまだ考えるべきことがありそうです。もしDAW連携するとなれば、その辺のシステムも作りこみが必要だそうな。
技術的な面ばっかりじゃないんですよね。会社として、製品として販売するとなればいろいろ事情がありますよね。大変なんですよ(たぶん)。わかる。
でも、できる限り早く出したいという話でしたし、私も早く出してほしい(欲望まる出し)ので、期待して待っていましょう。
スポンサーサイト
くろ州の合成音声備忘録
AIシンガーといえば、18年末にCeVIO陣営のテクノスピーチさんが新たに歌うAIを発表して話題になりましたが、とうとうYAMAHAがこの分野に参入してきた。その名も「VOCALOID:AI」。
個人の歌声を再現するといえば、YAMAHAはこれまでも「植木ロイド」を作ったりHideさんの声を再現したりしていたが、今回はディープラーニングでそれをやるらしい。VOCALOID Sachikoで培ったHMMスキルもおそらく役に立っているんでしょう。
まだ音声が公開されていないので、どんな技術なのか、そもそもこれは波形接続なのか学習系なのか折衷技術なのかも分からないが、強力なネームバリューを持って登場してきましたね。29日午後9時に放送されるNHKの番組で、開発プロジェクトの様子とか歌声が披露されるようなので、詳しいことはそれを見ましょう。通知設定しとかないと忘れそう。
さて、AIシンガー領域ではこれまで、HOYAさんの「VoiceText」で「AIシンガー何もしなくてもここまで歌えんの? やばくない?」と注目が集まり、マイクロソフトの「りんな」がエイベックスでデビューする中、東北大学でもハイクオリティーなAIシンガーが作られ、テクノスピーチさんも本気を出してきたというあたりですが、このタイミングでYAMAHAが参入となると、この辺の方々結構奮い立つのでは?
次世代初音ミクがVOCALOID5じゃなくてクリプトンの自家製ソフトでリリースされるという発表が8月31日にあったばかりでこれなので、ちょっとVOCALOID界隈騒がしいぞ。
くろ州の合成音声備忘録
今日は、同人音楽イベントM3で私が買ってきたCDの感想をお送りいたします。
【前置き】
2018年末にテクノスピーチから「新しいAIシンガー技術ができたよ」という感じのリリースがあったんです。
で、この技術を使ったCDが出ると聞いたので、今日買ってきました。
CDの詳細はこちらから
私はCD買いましたが、買ってない皆様はこちらの動画をご覧ください。
【聞いてみた】
曲
良い曲です。MVが勝手に頭の中に流れてきます。
ささらさんの歌
このCDには歌声補正したバージョンと補正してないバージョンと歌声のみバージョンが収録されているのですが、まずは補正バージョンを聞いた感想。
音質
CeVIOをはじめとする学習系の「学習系っぽいカンジ」がかなり緩和された歌声になっています。だからといって波形接続っぽいかというとそんなことはない。たぶん、最も正しく言うなら「"最近のディープラーニング系歌声合成の音" ってこんな感じなのか~」って感じですね。マイクロソフトのりんなと確かに近い。
声質
歌っているキャラとしては「さとうささら」ということになっています。実際のところささらさんっぽいかわいげのある声をしていますが、より中の人=水瀬いのりさんっぽさが強く出ている気がします。水瀬さんの歌聞いたことない方はちょっとわからないかもしれないので、水瀬さんの歌もちょっと貼っておきます。
水瀬さんとささらさんだとどっちに近い声質かというとささらさんですけど、「一緒に並べて聞いたらささらさん寄り、単体で聞いたらささらさんとは言い切れない」くらいのカンジ。
歌い方
CeVIOと比べるとかなり人間です。調声をやっていない状態で比べれば全くの別物です。確実に水瀬さんの癖を拾っています。個人的にはファルセット・低音の歌い方と力が入ったときのノート初めのピッチが中の人っぽいと感じました。
逆に、水瀬さんのビブラートはあんまり反映されてない感じがしました。水瀬さんのビブラートは音量がそこそこ大きく震える(同時にピッチが動く)んですが、今回のささらさんはかなり違うビブラートで歌います。
音素
これは私しか重視してないポイントかもしれないですが、声紋閉鎖がかなりうまいです今回のささらさん。もともと中の人も母音が連続するときに声紋閉鎖を挟みがちですけど、それが綺麗に出せています。そういえばCeVIOのささらさんも母音が連続するときにそこそこ音を切る(閉鎖というほどではない)ので、TMGで滑らかにする作業をよくやりますね。中の人由来だったか。
補正なしバージョン
かなり音を外します。これは、言い方おかしいかもしれないですけど「さすがディープラーニング系」といった感じです。高い音程になると上に外しがちです。あと急に音程が下がる場所で下がり切らないこともある。この辺は最終的に「音楽制作用ツール」になることを考えると邪魔なのでどうにかすると思うんですが、「人間に近づける」という観点で言うと、かなり人間です。「あぁ~確かにそうやって外して歌う人いるわぁ~」ってなる。あるあるネタができるようになるとディープラーニング系の本領発揮って感じです。
【ボーカルを分析してみた】
音程
ちょっと解析してみたところ、音程は上に外しがちですね。WAVES Tuneをただ単にかけっぱにしてれば何となくいいカンジにしてくれます。音程外すのも別に頻度が高いわけじゃないので、自動補正でそこそこ大丈夫なくらいです。
ノートの最初=子音部分で音程が大幅に下がります。
この、ピッチカーブが下向きにとがってるところが大体すべて子音です。これは単なる癖なので、聞き手の好みに合うかどうかだけがポイントですね。
音量
波形を見てみるとかなーり音量のブレはあります。めっちゃ人間っぽい波形。
ちなみにCeVIOはこんな感じ。めっちゃ整っている。
CeVIOはそもそも数ある歌声合成の中でも音量のブレは少ないほう(最も少ないのはUTAU)なのでこの差は顕著です。
試しにコンプレッサーでレシオ8にして、常につぶしてるくらいにすると、波形はCeVIOに近くなり、個人的にはめちゃくちゃ耳になじむ音になりました。確実にボカロ耳になっているのを実感した。
余談ですが、ロングトーンの終わりあたりの波形は「あ、これSinsyっぽい」って思う形をしていました。理由はわかりません。中の人の癖が似てるからかもしれません。
IA English
英語IAのコーラスも入っています。こちらも上手に人間のように歌いますが、ささらさんとくらべて音程を外しにくいです。音程がそんなに変わらないフレーズを歌ってるからかもしれませんが。
【まとめ】
と、このようにAIシンガーの歌は、中の人(人間)や既存技術(CeVIO等)と比べるとその特徴がより鮮明にわかります。CD買ってよかった。
くろ州の合成音声備忘録
というニュースリリースを先月末見て、ちょっと放置していたんですが、ちゃんと調べました。
【ROBOHONとは?】
究極ざっくり説明すると、「ロボット型スマホ」とか「ロボット型音声アシスタント」とかいうものだといえます。細かいことは公式HPへ
【VoiceTextとは?】
HOYAさんで開発されている音声合成です。話声も歌声も作れます。
【ROBOHON×話声合成】
最新のデモ動画を見てみると、確かにVoiceTextの声だ!ってなりますね。
なめらか。
【ROBOHON×歌声合成】
常々、VoiceTextの歌声合成を使った製品はいつ出るんだとつぶやいていたやばいやつ(=私)的には注目ポイントはここ。
VoiceTextの歌声合成は「楽譜を渡せば無調声で勝手に表現して歌う」ことが特徴でした。いろいろ手を加えなくてもしゃくりあげだったりビブラートだったりを勝手に入れてくれます。
このように。
で、ROBOHONはどうなのかというと、これがなかなか動画が見つからなくててこずったんですが、一応展示会の映像がありました。
しゃくりとかビブラートはそんなに感じませんね。そういうコンセプトではないのかもしれません。
ROBOHONは本体+サービスという形でできることを増やしていくことができるらしいのですが、「ボクと歌お」というサービスを利用すると、エクシング(JOYSOUNDの会社)の楽曲データから歌わせることができたりするようです。なるほど?
自由に歌わせることができる歌声合成ソフトというわけではないですが、一歩前進ですね。
くろ州の合成音声備忘録
学習系歌声合成も増えてきました。というか今研究開発されている歌声合成の主流は学習系な印象です。
これまでVoiceTextやボイスメイドプロジェクトが「無調声で人間らしい歌唱」を見せてくれましたが、マイクロソフトの女子高生AI「りんな」も前回から盛大に成長してきました。
かなりうまい。というのはほかの学習系でもいっしょなのでめちゃくちゃびっくりというわけでもないですが、音質がいいですよね。学習系っぽさが軽減されている。
もともと機械学習によるチャットボットだったりんなですが、音声投稿サービス「nana」と協力して朗読・歌唱を学習して歌うようです。
最初はこんな感じだった
今年の2月にはこうだった
ここから半年間の成長やばくね?
学習系歌声合成の強みは主に「無調声で人間らしく歌う」ところ。VOCALOIDやUTAUなどの波形合成系は調声が必要になるので方向性が全然違います。
ただし、ここで波形合成を馬鹿にしてしまうと十数年間歌声合成文化を作り上げてきたVOCALOIDやUTAUの資源を使わせてもらえなくなる程度には反感をかう可能性があるので注意。中国のXiaoIceがそれでかなり燃えたよね。
【学習系歌声合成の調声を考えてみる】※りんなの話ではない
で、調声エンジョイ勢の方々は学習系を見るとこういうのです「調声するのが楽しいのに!」とか「仕事がなくなる!」とか。
学習系は確かに「無調声で人間らしく歌う」のですが、「無調声で思い通りに歌う」わけではないですよ。ここ重要。ほしいところでしゃくりあげしてくれなかったり、いらないところでフォールしたりすることだってもちろんあります。そういうところに「リテイクを出して」みたりあとから「歌声を補正して」みたりするのが学習系の調声の楽しみ方。
まずはバーチャルシンガーに対して楽譜を渡します。この段階での調声作業は「指示」です。楽譜には「フォルテ」だったり「クレッシェンド」だったり様々な「指示」が存在していて、ただの音符の羅列ではないのです。「ここはスラーにして」とか「笑うように」とか、感情に関する指示だって学習系なら可能かもしれません。
そして、渡した楽譜を読んでバーチャルシンガーが歌うわけです。この段階ではいくらでも「リテイク」を出せるのです。「そこはファルセットで」とか「しゃくりあげて」とか、イメージと違うところは適宜歌いなおしてもらえばいいのです。どんだけリテイクだしてもヘタらないし文句も言ってこない収録楽しいですよ。
歌い終わってからは歌声を「補正」していきます。実際のボーカリストと同じく、音程を補正したり、タイミングを補正したり。学習系は必ずしも正確には歌わないので、補正が必要な箇所はあったりします。メロダインやオートチューンで補正するなり加工するなりしてブラッシュアップしていくのです。
このように
楽譜で指示→リテイクだして→補正する
3段階の調声が可能です。もちろんまだ製品が出てないのでこれが実際にできるかどうかはわからないですが、ここまでやったら波形合成の調声エンジョイ勢も十分に楽しめるものになると思います。
これからどう発展していくんでしょうね。楽しみです。
なんでもいいから一般公開して!