fc2ブログ

タイトル画像

ボカロリスナーと歌声合成技術の違い

2019.02.12(15:11) 350

最近、ボカロDJさんをはじめとする「ボカロリスナー」さんとの絡みが増えてきた私ですが、まだ、ボカロリスナーさんの思考というか傾向というか、そういうのがわかってないところがあるのです。

私は歌声合成全般を扱うユーザーでありライターです。ここでは「ボカロユーザー・ボカロライター」ということにしましょう。

※念のため。「ボカロ」=キャラクター付き歌声合成ソフト・音声全般を指すものとします。

さて、本題に入りましょう。技術系のボカロライターである私の興味関心は、ボカロの技術にあります。VOCALOIDは波形接続で、CeVIOはHMMベース、最近のトレンドはディープラーニングで全自動歌唱する歌声合成だとか、そういうところに興味があって、実際に使う=ボカロユーザーとなることで現実的な目線から記事を書いているわけです。

でも、そこってボカロリスナーさんからしたらどう見えるんでしょうか。

ボカロ曲を聴くという段階において「VOCALOIDの音声は波形接続によって生成されている」ってどの程度の関心を集める話題なんでしょう。これ知ってても知らなくても音は変わらないですよね。聞こえ方は感覚的に変わるかもしれないけど。私はそういう話を楽しく聞くけど、個人的には別に知らなくてもいいと思います。

ボカロ曲を聴くという段階において「この曲のボーカルはSinsyで作られている」ってどの程度重要なんでしょう。どのソフトを使っててもいい曲は良い曲だと思うのです。

多分、「使われているソフトの "名前" や "技術の詳細"」は別に聞く分には重要じゃないんじゃないかと思うんです。知ってれば楽しみが増えるかもしれないオプションくらいの立ち位置。

私はそういうところ知りたい派だし、知ってもらうのは普通に良いことだし、教えられることは教えたいですけどね。

例えば、

VOCALOIDは滑らかで落ち着いた出音、ハイトーンや早口に強い。
CeVIOは密度の高い埋もれにくい出音、人間らしさの出しやすさとトークに強い。
UTAUはLo-Fiから人間レベルまで多様な出音、息遣いにUTAUらしさがある。
Sharpkeyは硬めの出音、曖昧な発音やダイナミクスレンジの広い表現が特徴。
SynthVは滑らかでぬめりのある出音、多芸でダイナミックな強弱表現が特徴。
VoiceTextVoiceMaidProjectはアイドル風・同人歌手風に歌うことができる。
EmVoiceは透き通った出音、圧倒的な英語クオリティーが特徴。

みたいなところはリスナーさん向け情報として「アリ」だと思うのです。歌声合成ソフトの音声ソムリエ。

今挙げただけでも知らない歌声合成あったでしょ?
そういうものの中にはニコニコのVOCALOIDタグに載らないものもたくさんあります。載ってもよくわからないから見られないみたいなことはよくあるでしょう。

でも、そういうのの中にも名曲がたくさんあって、残念ながらほとんどのリスナーさんは見落としているのです。Aquestoneオリジナル曲とか、素朴なゆっくりボイスで哀し気に歌われるからこその哀愁が胸を打ちます。

SoundCloudで「VoiceText」や「東北大学ボイスメイドプロジェクト」を検索してみてください。
Youtubeで「マイクロソフト りんな」を検索してみてください。
「テクノスピーチ」でググってみてください。

あなたの好みかどうかは保証できないですが、驚くべきクオリティーの音声が出てきます。

「これボカロ?」というのは「この楽曲のボーカル音声はまるで人間が歌ったもののようで非常に驚き感動いたしました」という意味だけど、これによく「いや、UTAUだよ」とか「CeVIO」だよとかいうコメントがつく。

完全に正しい。たまにミスってたりするけど。
正しいけど、ここには非技術系と技術系の興味の差があるような気がしています。
どっちにも属しているからこそ、その真ん中で暗躍したいなとか考えているところです。
スポンサーサイト





くろ州の合成音声備忘録


未分類 トラックバック(-) | コメント(0) | [EDIT]
<<UTAUの音源形式 | ホームへ | MUTA に新男声音源「未央」が登場>>
コメント
コメントの投稿













管理者にだけ表示を許可する