もうだいぶ前の話になりますが、2人目の韓国ボカロ「UNI」が発売されました。
そしてまただいぶ前の話になりますが、VOCALOID公式サイトでも販売されるようになったので使ってみました。
夜もすがら君想ふUNI韓国語カバーできた。 pic.twitter.com/JglH29a1qD
— くろ州=歌声合成好き (@kM4osM_96s) 2019年4月29日
声質
とてもニュートラル。カワイめだけど大人っぽくしようとすればできる。汎用性が高い。
低音では優しく、高音ではちょっと張る感じに歌うので、とても使いやすい。
韓国語
パッチム込みで歌詞入力すると、パッチムの長さがちょっと長い感じもするので、発音記号編集とノート分割で細かく補正。パッチムは子音単体ノートで普通にきれいに行くのでとても扱いやすい。
日本語
ごぼうPさんの日本語化プラグインで日本語化できる。ラ行が「la」に変換されてつながりが悪くなるのを除けば文句なし。かなり歌えるほう。
ビジュアル
かわいい
動画素材
Vocaloid Studioがあるのでかわいい系ならどうにかなる。
スポンサーサイト
くろ州の合成音声備忘録
今日の2019春M3会場およびKindleで『ボーカロイド音楽の世界2018』という本がリリースされました。おめでとうございます。今回は私も記事を一本寄稿しています。
というわけでいただいてきました。
【私の記事】
私の記事は(ボーカロイドあんまり詳しくない)リスナーさん向けに「VOCALOID以外の歌声合成ソフトって何があるの?」という感じで歌声合成をたくさん紹介するものです。
【事の経緯】
本の編者さんである"しま"さんが、記事書ける人いないですかとTwitterで募集していたところ「いますよ」つって私が紹介されてアサインされました。
【裏話】
私自身はリスナーではなくて技術勢です。歌声合成の「技術」に興味があって、様々なソフトを収集して実際に使ってこうしてブログで記事にしている人間です。たまに開発してたりするくらいのどっぷり感。
そんな私がリスナーの気持ちになって記事を書くということで、かなり悩みました。正直な話、ボカロ曲を聞く分には使われてる歌声合成が何かとかどーでもいいと思うんです。
VOCALOIDが使われてても、CeVIOが使われてても、LaLaSongが使われてても、曲がいいなら「曲がいい」でいいじゃん? と。
もちろんそういうわけにもいかないので、記事で取り扱った歌声合成に関しては「歴史・音質・表現」の3点で説明しています(一部除く)。
歴史:何年に出てきたソフトかとかその程度
音質:聞く上では重要な「どんな音がするのか」という話
表現:「その歌声合成で作ったっぽい歌い方・曲」の話
技術の細かい話は重要じゃなくて、その技術を使ってどういう作品・音ができてるのかという観点で話が進んでいきます。
今までやってないことだったので、かなり悩みました。何回も前文書き直しを繰り返しながら過去最高に時間をかけて制作した文章です。
ですが、結局のところ言いたいことはシンプルです。
この記事では、読む人に対して歌声合成ソフトの「名前」を教えました。名前がわかれば「検索」できます。あるかないかもわからないものは検索できないですからね。ここが重要なんです。
今までの活動で、数多くの歌声合成ソフトの詳細情報はこのブログ内にたくさん用意しました。今なら「検索すれば情報がすでにある状況」が整備されています。
要するに
情報ならすでに用意した
今、歌声合成ソフトの「名前」を教えてやろう
さぁ、気になるものを好きに検索しな!
ということ。
以上、歌声合成情報整備士のくろ州でした。
くろ州の合成音声備忘録
今日は、同人音楽イベントM3で私が買ってきたCDの感想をお送りいたします。
【前置き】
2018年末にテクノスピーチから「新しいAIシンガー技術ができたよ」という感じのリリースがあったんです。
で、この技術を使ったCDが出ると聞いたので、今日買ってきました。
CDの詳細はこちらから
私はCD買いましたが、買ってない皆様はこちらの動画をご覧ください。
【聞いてみた】
曲
良い曲です。MVが勝手に頭の中に流れてきます。
ささらさんの歌
このCDには歌声補正したバージョンと補正してないバージョンと歌声のみバージョンが収録されているのですが、まずは補正バージョンを聞いた感想。
音質
CeVIOをはじめとする学習系の「学習系っぽいカンジ」がかなり緩和された歌声になっています。だからといって波形接続っぽいかというとそんなことはない。たぶん、最も正しく言うなら「"最近のディープラーニング系歌声合成の音" ってこんな感じなのか~」って感じですね。マイクロソフトのりんなと確かに近い。
声質
歌っているキャラとしては「さとうささら」ということになっています。実際のところささらさんっぽいかわいげのある声をしていますが、より中の人=水瀬いのりさんっぽさが強く出ている気がします。水瀬さんの歌聞いたことない方はちょっとわからないかもしれないので、水瀬さんの歌もちょっと貼っておきます。
水瀬さんとささらさんだとどっちに近い声質かというとささらさんですけど、「一緒に並べて聞いたらささらさん寄り、単体で聞いたらささらさんとは言い切れない」くらいのカンジ。
歌い方
CeVIOと比べるとかなり人間です。調声をやっていない状態で比べれば全くの別物です。確実に水瀬さんの癖を拾っています。個人的にはファルセット・低音の歌い方と力が入ったときのノート初めのピッチが中の人っぽいと感じました。
逆に、水瀬さんのビブラートはあんまり反映されてない感じがしました。水瀬さんのビブラートは音量がそこそこ大きく震える(同時にピッチが動く)んですが、今回のささらさんはかなり違うビブラートで歌います。
音素
これは私しか重視してないポイントかもしれないですが、声紋閉鎖がかなりうまいです今回のささらさん。もともと中の人も母音が連続するときに声紋閉鎖を挟みがちですけど、それが綺麗に出せています。そういえばCeVIOのささらさんも母音が連続するときにそこそこ音を切る(閉鎖というほどではない)ので、TMGで滑らかにする作業をよくやりますね。中の人由来だったか。
補正なしバージョン
かなり音を外します。これは、言い方おかしいかもしれないですけど「さすがディープラーニング系」といった感じです。高い音程になると上に外しがちです。あと急に音程が下がる場所で下がり切らないこともある。この辺は最終的に「音楽制作用ツール」になることを考えると邪魔なのでどうにかすると思うんですが、「人間に近づける」という観点で言うと、かなり人間です。「あぁ~確かにそうやって外して歌う人いるわぁ~」ってなる。あるあるネタができるようになるとディープラーニング系の本領発揮って感じです。
【ボーカルを分析してみた】
音程
ちょっと解析してみたところ、音程は上に外しがちですね。WAVES Tuneをただ単にかけっぱにしてれば何となくいいカンジにしてくれます。音程外すのも別に頻度が高いわけじゃないので、自動補正でそこそこ大丈夫なくらいです。
ノートの最初=子音部分で音程が大幅に下がります。
この、ピッチカーブが下向きにとがってるところが大体すべて子音です。これは単なる癖なので、聞き手の好みに合うかどうかだけがポイントですね。
音量
波形を見てみるとかなーり音量のブレはあります。めっちゃ人間っぽい波形。
ちなみにCeVIOはこんな感じ。めっちゃ整っている。
CeVIOはそもそも数ある歌声合成の中でも音量のブレは少ないほう(最も少ないのはUTAU)なのでこの差は顕著です。
試しにコンプレッサーでレシオ8にして、常につぶしてるくらいにすると、波形はCeVIOに近くなり、個人的にはめちゃくちゃ耳になじむ音になりました。確実にボカロ耳になっているのを実感した。
余談ですが、ロングトーンの終わりあたりの波形は「あ、これSinsyっぽい」って思う形をしていました。理由はわかりません。中の人の癖が似てるからかもしれません。
IA English
英語IAのコーラスも入っています。こちらも上手に人間のように歌いますが、ささらさんとくらべて音程を外しにくいです。音程がそんなに変わらないフレーズを歌ってるからかもしれませんが。
【まとめ】
と、このようにAIシンガーの歌は、中の人(人間)や既存技術(CeVIO等)と比べるとその特徴がより鮮明にわかります。CD買ってよかった。
くろ州の合成音声備忘録
社会人になって初めてのブログ投稿です。
今日、会社の先輩社員さんと「社長のAI作ってしゃべらせたら面白いよね」的な話をしたので、ふと「社長のUTAU音源作ったら経済効果とかあるんだろうか」とか思いまして、ちょっと考えてみました。厳密に実証したりはしていません。
【やること】
社長の声を録音して、UTAU音源にする。
宣伝目的で歌わせたりしゃべらせたりする。
社長をUTAU音源にして、宣伝するときにボカロ曲を歌わせたり案内音声を作ったりする。
【効果】
宣伝効果
最近では企業が宣伝目的で VTuberをやっていたりしますが、あれほどの効果は出ないでしょう。もしかしたら、有名企業さんが社長音源でボカロ曲歌わせたら「何してんのwww」みたいな反応がTwitterで起こるかもしれません。
会社説明や営業の場面でのインパクト
「社長歌わせたりしてるんですよ~」っていう営業トークで何を伝えたいのかはいまいちわからないですが、なんかの話の流れの中で言ったら食いついてくる企業さんもいるかも。それで案件を勝ち取れるか失注するかは保証できかねます。
【コスト】
音源制作にかかるコスト
録音機材・収録場所・人件費等を考えてみましょう。例えば、午前中の3時間を使って社長をスタジオに連れ込んで音源収録したとして考えられるのは
・スタジオ利用料
・社長/担当さんの人件費(平常通り)
そして、社長を3時間拘束することで生じる業務の滞り=プライスレス
です。スタジオ利用料は広告費的に見てそこまで大きくもないでしょうが、社長拘束によるマイナスがどれほどになるか次第ですよね。
加えて、収録後の音源構築作業です。
社内でやるなら人件費がいつも通りかかる内容ですが、これに関してはアウトソーシングとか言って外部に発注したほうが安上がりになる可能性は高いです。
原音設定:正確に歌うようにする作業
キャラクターデザイン・イラスト作成
あと、完成したUTAU音源を配布する場合には、そこにランニングコストがかかる可能性もないではありません。これだけのためにサーバー立てるとかクラウドサービス契約するとかいうことはないと思いますが。
UTAU音源を商業目的で配布するのがアリかナシかは本家様にお問い合わせください。
そしてコンテンツ制作料。
毎度社長の時間をとる必要がない分、社長をVTuberにするよりはランニングコストは低く抑えられそうです。
ただ、結局のところ毎度歌わせたりしゃべらせたりする作業が発生するのは確かなので普通にめんどいですよね。
社長を歌わせるのと他の広報手段をとるのとでどっちが費用対効果が良いかの勝負です。
多分ですけど、そこそこ多くの企業は社長をUTAU音源化した時に見てくれる層に別に遡及する必要もなさそうなので、結論「別にやらんで良くね?」って感じになってしまいます。
【まとめ】
期末に予算と人員が余ってしょうがない場合は社長音源作ってみるのもアリでは?
この辺、ちょっと(株)カルモアさんに話聞いてみたくもありますよね。生々しいので記事にはしにくいかもですが。