FC2ブログ

タイトル画像

サイトマップ

2030.01.01(00:00) 233

このブログでは歌声合成/話声合成/声質変換/VRに関する情報を集めて自由に発信しています。モットーは「実際に触って記事を書く」

シュミなので誤字等放置。

メール→crossdominance4*yahoo,co,jp

【記事】
歌声合成1 主要な歌声合成
VOCALOID ・UTAU ・CeVIO

歌声合成2 Sharpkey

その他の歌声合成 約30の歌声合成ソフトを使ってみた記録

制作 UTAU音源制作等に役立ちそうな情報

話声合成 VOICEROIDやCeVIO等TTSの記事

声質変換 ボイスチェンジャーの記事

VR VRやVTuber関連ソフトの記事
VR

【実績】
調声 多種多様な歌声合成でカバー

イベント 過去の参加イベント

寄稿

対談 過去の対談企画

翻訳 外語→日本語のお仕事
・Sharpkey、DeepVocalのGUI翻訳
・DeepVocalのマニュアル翻訳

音源制作 歌声合成ソフト用の音源制作
・UTAU同志社音源群『会長ロイド』『Marine』
・Sharpkey初日本語音源『稲荷(Inari)』

配布物 過去の配布物(音源を除く)
・DeepVocal用資料

スポンサーサイト




くろ州の合成音声備忘録


未分類 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

NeoCeVIO(仮)見てきた

2019.10.09(18:29) 420

 CeVIOエンジンを作ったテクノスピーチさんが2018年にディープラーニングで人っぽく歌える歌声合成を発表しましたよね。あれを見てきました。


【経緯】
テクノスピーチNakamuraさん「最新の歌声合成のデモします」
私「行かねば(義務感)」


【いざ会場へ】
 というわけで行ってきました。会場は明治記念館。
NCEV01.png

 会場がやたら高級感あるんですよね。総務省のイベントだからかな?
 でもその辺は私も仕事で慣れてきました。受付を済ませて会場に入ると

NCEV02.png

 ブース……(中村さんいらっしゃる)

NCEV03.png

 DAW連携しよる!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!(第1印象)

 ディープラーニングとはあんまり関係ないんですが、NeoCeVIO(仮)、現時点でREAPER上で動いとるんですわ。

 もちろん、まだ製品化のめどがたっていないので今後どうなるかはさっぱり分からないですが、NeoCeVIOがDAWで(も)動く可能性はあるんじゃないでしょうか。わくわく。

 DAW連携以前に、このシステムが動いてるのが一般的なノートPCですよね。実際にその場でも合成して見せてもらったんですが、ちょっと待てば普通に合成完了しました。今年の3月ごろの時点では「高速演算が可能なコンピュータでも5分の歌を合成するのに10時間近くがかかる」という話だったらしいですが、その後8月くらい?には高速化に成功したようです。


【本題】
 NeoCeVIO(仮)は、今日見た限りではもうかなり出来上がっていました。MusicXMLをCeVIOっぽいピアノロールが載ったGUIに投げると歌声が合成されます。何曲か合成して聞かせてもらいましたが、何もしなくてもちゃんと勝手に表現して歌ってくれるっていうのを目の前で見ると「ミライ来てるな」って感じしますね! これあれば、作曲家さんが深夜に「アイデア降ってきた!」ってなって作業してもすぐに歌まで作れちゃう。調声しなくていいから。

 とはいえ、調声したいというニーズもやっぱりある。今回されていた仮GUIでは、ノートの移動はできないものの、パラメーターはいじれるようになっていた。用意されているのはボリューム・ピッチ・タイミング(デュレーション)・ビブラートの周期と振幅あたりで、今のCeVIOと変わらない。それぞれのパラメーターの表示も変わりませんでした。もちろん仮なのでパラメーターの種類とか表示がどうなるかはわからないですが。

 これを読もうと思った皆さんなら、たぶんすでにNeoCeVIO(仮)カバーは何曲か聞いていると思います。基本的にはそれと同じような音・歌い方になっています。今回は一般公開されていない、あいみょんカバーやSuperflyカバーなんかを聞かせてもらいました。よいわぁ~~。


 あいみょんをNeoささら(仮)が歌ってるのは「うん。そうだよね」っていう納得感があったんですが、Superflyを表情豊かに歌っているNeoささら(仮)は新鮮でしたね。

 A・Bメロは落ち着いた感じに。でもサビではテンション上げて力強く歌ってくれました。その辺の、“シンガーのテンション”のコントロールは強弱記号でできるそうです。CeVIOでもピアニッシモからフォルティッシモまで指定して歌わせられるんですが、NeoCeVIO(仮)でもできるらしい。

 落ち着いているというのは、声色というよりも歌い方に現れる感じがしました。ピッチがそんなにぶれないし、しゃくりも激しくない。サビになると、声色もハる感じでしたが、しゃくりやビブラートが強めにかかる(あくまで印象)ようでした。

 ちなみに、音程はやっぱり外します。中の人が外すならもちろんそれが正解。音楽製品にすることを考えるなら補正システムも欲しいですよね~~って話をしました。1キャラ毎に別スタイルの音源をバンドルして販売するとかもいいですよね~~とか好き勝手言いました。

【製品化はいつ?】
 さっぱりわからないです。エンジンのほうはもう結構できてると思うんですが、GUIのほうはまだ考えるべきことがありそうです。もしDAW連携するとなれば、その辺のシステムも作りこみが必要だそうな。

 技術的な面ばっかりじゃないんですよね。会社として、製品として販売するとなればいろいろ事情がありますよね。大変なんですよ(たぶん)。わかる。

 でも、できる限り早く出したいという話でしたし、私も早く出してほしい(欲望まる出し)ので、期待して待っていましょう。


くろ州の合成音声備忘録


AIシンガー トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

合成音声のスペクトログラムを見てみよう

2019.10.06(10:34) 419

 スペクトログラムというのは、音声のスペクトルに時間軸付け足してビジュアライズしたものです。これを見ると合成音声の性質がちょっと見えてくるぞ。

・人間の生声
SPEHuman.png

 これはUTAUの原音ですね。綺麗。

・VOCALOID
SPEVocaloid.png

 結構人に近い気もする。ピッチの整ってる感は人工な感じ。

・UTAU
SPEUtau.png

 かなり息成分が出ている。子音も見やすい。UTAUは全体的に息成分が生きやすい気がする。ちなみにエンジンはfresamp14。

・CeVIO
SPECeVIO.png

 超低音域が結構出ている。ONEの特徴かと思いきや、CeVIOは大体この100Hz以下の低音が強め。

SPECeVIO2.png

 拡大してみると、息成分がだいぶ整っていることが分かる。

・VOICEROID(歌ボ)
SPEVoiceroid.png

 息成分少な目。子音は明瞭。子音以外にたまに入っている縦線は歌ボ特有の「-伸ばし」によるもの。

・Sinsy
SPESinsy.png

 Sinsyも息成分が少なめ。案外高音域が弱め。

SPESinsy2.png

 Sinsyのスペクトログラムはかなり特殊な感じ。息成分に「X」のような模様がよく出る。これのせいというわけじゃないだろうが、息成分だけ取り出すと結構ゴワゴワした音であることが分かる。

・SynthV
SPESynthV.png

 低音も含め息成分がまんべんなくしっかりと出ている。

・Alter/Ego
SPEAlterego.png

 息成分あまりなし。高音はあんまり出てない。

・Aquestone(無印)
SPEAquestone.png

 中域・中高域の息成分が案外ある。高音はさっぱり出てない。子音以外の縦線はシンセでいうところのアタック部分。

・LaLaSong
SPELala.png

 高音域は足りてないながらも結構健闘している。基本周波数と低めの倍音当たりの幅がなぜか広い。

・MUTA
SPEMuta.png

 システムやUIはCeVIOに似ているけど、音は別に似ていない。

・OpenUTAU
SPEOpenUTAU.png

 UTAUと同様、息成分がだいぶ正しく出ている感じ。

・Sharpkey
SPESharpkey.png

 息成分はあんまりない。


くろ州の合成音声備忘録


その他歌声合成 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

どんな歌声合成でも囁かせられるツール「ToWhisperTone」

2019.09.28(00:33) 418

 歌声合成ソフトで「囁き声が作れる」って、VOCALOID5、UTAU、SynthVくらいで、結構特殊技術なんですよね。でも、表現として囁かせたいことありますよね?

 Editor側で作るのには限界があるし、こういうのは外部ツールを使うべきポイントなんですよね。どんな歌声合成ソフトでも一回音声書き出してしまえば全部WAVEファイル。実は、音声を読み込んで囁き声に変換できるソフトがあるんです。「ToWhisperTone」って言うんですけど。

 これは、音声を読み込んで範囲選択してボタンを押すと囁き声に変換してくれるツール。めっちゃシンプル。私のオススメ設定は↑の画像のとおり。

 ポイントは「LPFの強度」です。LPFってローパスフィルターです。数値を小さくすると低音が削れて行きます。数値がでかいとデスボイスっぽくなりやすいので、囁かせたいのであれば小さめに設定するのがいい。

 音声→音声なので、歌声合成ソフトの違いには左右されない。音質によって相性はあるけど。なのでV3ボカロもボイロもCeVIOもささやかせられる。幅が広がるね!


くろ州の合成音声備忘録


制作 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

UTAUの人も歌ボの人もとりあえずOzoneは持っとこう

2019.09.25(22:19) 417

 いま(2019/09/25)、iZotopeのマスタリングプラグイン「Ozone elements」が無償配布されています。便利なので持っておこう。UTAUの人や歌ボの人はDTMツールあんまり持ってなかったりするけど、これを機に沼に足を踏み入れてみようよ。

【Ozone elementsとは】
 自動でマスタリングしてくれるエフェクト。当たり前だけど、AviUtlやAudacityでは使う意味がないので素直にDAW使おう。

 マスタリングって、コンプやイコライザーやリミッターを使って、全体を見ながら音圧やなんやを整える作業です。慣れるとそんなに手間のかかる作業じゃなくなるんですが、慣れないと激ムズ。

 Ozoneはマスタリングをほぼ自動化してくれる。「ストリーミング向け?CD向け?」って言う質問に1個2個答えるだけで、何となくいいカンジにしてくれる。

 何がいいかというと、簡単なのはそうなんだけど、それ以上に「時間が浮く」ということ。「メッサ時間かけても自分的にいいものができるかどうかわからない」くらいなら、「ボタン1個で無難」のほうがいい。技術が身に就けば「数手でとてもいいもの」ができるんだろうけど。

 Ozoneの自動マスタリングは無難というか「普通にいい」くらいの仕上がりになる。ベース結構増やす癖がある感じもするけど、安心して任せられる。気に入らなければ自分で手直しすればいいし。

※ちょっとわかる人向け
 「CD・MID(CD向け音圧中)」「CD・HI(CD向け音圧高)」はリミッターで結構つぶす感じになって個人的には好みじゃないので、私は「ストリーミング向け」にしてシーリングを0.1~0.3くらいにしてる。これが正しいかどうかは知らない。

 時間が浮けば、もっとUTAUやボイロと触れ合う時間を増やせる。限られた時間の中であなたは調声とMIXどっちにリソースを割きたいの?という話。MIXに割きたいなら全力でMIXすればいいし、調声に割きたいなら全力で調声すればいい。残ったほうは自動化すれば、割きたいことに割ける時間が増える。

 制作にかかる時間が短くなるので、作品をたくさん生み出すという方向で考えてもいいかも。

 なので、持っとこう。1万円以上のものが無料で手に入るって普通にお得だし。


くろ州の合成音声備忘録


制作 トラックバック(-) | コメント(0) | [EDIT]
最近の記事
  1. サイトマップ(01/01)
  2. NeoCeVIO(仮)見てきた(10/09)
  3. 合成音声のスペクトログラムを見てみよう(10/06)
  4. どんな歌声合成でも囁かせられるツール「ToWhisperTone」(09/28)
  5. UTAUの人も歌ボの人もとりあえずOzoneは持っとこう(09/25)
次のページ
次のページ