CeVIOエンジンを作ったテクノスピーチさんが2018年にディープラーニングで人っぽく歌える歌声合成を発表しましたよね。あれを見てきました。
【経緯】
テクノスピーチNakamuraさん「最新の歌声合成のデモします」
私「行かねば(義務感)」
10月9日に明治記念館でポスター展示します。
— Kazuhiro Nakamura (@kazicnet) September 30, 2019
一般の方も無料で入れるようです。
最新の歌声合成のデモもするのでぜひ。https://t.co/W6hYsGZd6J
【いざ会場へ】
というわけで行ってきました。会場は明治記念館。
会場がやたら高級感あるんですよね。総務省のイベントだからかな?
でもその辺は私も仕事で慣れてきました。受付を済ませて会場に入ると
ブース……(中村さんいらっしゃる)
DAW連携しよる!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!(第1印象)
ディープラーニングとはあんまり関係ないんですが、NeoCeVIO(仮)、現時点でREAPER上で動いとるんですわ。
もちろん、まだ製品化のめどがたっていないので今後どうなるかはさっぱり分からないですが、NeoCeVIOがDAWで(も)動く可能性はあるんじゃないでしょうか。わくわく。
DAW連携以前に、このシステムが動いてるのが一般的なノートPCですよね。実際にその場でも合成して見せてもらったんですが、ちょっと待てば普通に合成完了しました。今年の3月ごろの時点では「高速演算が可能なコンピュータでも5分の歌を合成するのに10時間近くがかかる」という話だったらしいですが、その後8月くらい?には高速化に成功したようです。
【本題】
NeoCeVIO(仮)は、今日見た限りではもうかなり出来上がっていました。MusicXMLをCeVIOっぽいピアノロールが載ったGUIに投げると歌声が合成されます。何曲か合成して聞かせてもらいましたが、何もしなくてもちゃんと勝手に表現して歌ってくれるっていうのを目の前で見ると「ミライ来てるな」って感じしますね! これあれば、作曲家さんが深夜に「アイデア降ってきた!」ってなって作業してもすぐに歌まで作れちゃう。調声しなくていいから。
とはいえ、調声したいというニーズもやっぱりある。今回されていた仮GUIでは、ノートの移動はできないものの、パラメーターはいじれるようになっていた。用意されているのはボリューム・ピッチ・タイミング(デュレーション)・ビブラートの周期と振幅あたりで、今のCeVIOと変わらない。それぞれのパラメーターの表示も変わりませんでした。もちろん仮なのでパラメーターの種類とか表示がどうなるかはわからないですが。
これを読もうと思った皆さんなら、たぶんすでにNeoCeVIO(仮)カバーは何曲か聞いていると思います。基本的にはそれと同じような音・歌い方になっています。今回は一般公開されていない、あいみょんカバーやSuperflyカバーなんかを聞かせてもらいました。よいわぁ~~。
あいみょんをNeoささら(仮)が歌ってるのは「うん。そうだよね」っていう納得感があったんですが、Superflyを表情豊かに歌っているNeoささら(仮)は新鮮でしたね。
A・Bメロは落ち着いた感じに。でもサビではテンション上げて力強く歌ってくれました。その辺の、“シンガーのテンション”のコントロールは強弱記号でできるそうです。CeVIOでもピアニッシモからフォルティッシモまで指定して歌わせられるんですが、NeoCeVIO(仮)でもできるらしい。
落ち着いているというのは、声色というよりも歌い方に現れる感じがしました。ピッチがそんなにぶれないし、しゃくりも激しくない。サビになると、声色もハる感じでしたが、しゃくりやビブラートが強めにかかる(あくまで印象)ようでした。
ちなみに、音程はやっぱり外します。中の人が外すならもちろんそれが正解。音楽製品にすることを考えるなら補正システムも欲しいですよね~~って話をしました。1キャラ毎に別スタイルの音源をバンドルして販売するとかもいいですよね~~とか好き勝手言いました。
【製品化はいつ?】
さっぱりわからないです。エンジンのほうはもう結構できてると思うんですが、GUIのほうはまだ考えるべきことがありそうです。もしDAW連携するとなれば、その辺のシステムも作りこみが必要だそうな。
技術的な面ばっかりじゃないんですよね。会社として、製品として販売するとなればいろいろ事情がありますよね。大変なんですよ(たぶん)。わかる。
でも、できる限り早く出したいという話でしたし、私も早く出してほしい(欲望まる出し)ので、期待して待っていましょう。
スポンサーサイト
くろ州の合成音声備忘録
スペクトログラムというのは、音声のスペクトルに時間軸付け足してビジュアライズしたものです。これを見ると合成音声の性質がちょっと見えてくるぞ。
・人間の生声
これはUTAUの原音ですね。綺麗。
・VOCALOID
結構人に近い気もする。ピッチの整ってる感は人工な感じ。
・UTAU
かなり息成分が出ている。子音も見やすい。UTAUは全体的に息成分が生きやすい気がする。ちなみにエンジンはfresamp14。
・CeVIO
超低音域が結構出ている。ONEの特徴かと思いきや、CeVIOは大体この100Hz以下の低音が強め。
拡大してみると、息成分がだいぶ整っていることが分かる。
・VOICEROID(歌ボ)
息成分少な目。子音は明瞭。子音以外にたまに入っている縦線は歌ボ特有の「-伸ばし」によるもの。
・Sinsy
Sinsyも息成分が少なめ。案外高音域が弱め。
Sinsyのスペクトログラムはかなり特殊な感じ。息成分に「X」のような模様がよく出る。これのせいというわけじゃないだろうが、息成分だけ取り出すと結構ゴワゴワした音であることが分かる。
・SynthV
低音も含め息成分がまんべんなくしっかりと出ている。
・Alter/Ego
息成分あまりなし。高音はあんまり出てない。
・Aquestone(無印)
中域・中高域の息成分が案外ある。高音はさっぱり出てない。子音以外の縦線はシンセでいうところのアタック部分。
・LaLaSong
高音域は足りてないながらも結構健闘している。基本周波数と低めの倍音当たりの幅がなぜか広い。
・MUTA
システムやUIはCeVIOに似ているけど、音は別に似ていない。
・OpenUTAU
UTAUと同様、息成分がだいぶ正しく出ている感じ。
・Sharpkey
息成分はあんまりない。