FC2ブログ

タイトル画像

サイトマップ

2030.01.01(00:00) 233

このブログでは歌声合成/話声合成/声質変換/VRに関する情報を集めて自由に発信しています。モットーは「実際に触って記事を書く」

シュミなので誤字等放置。

メール→crossdominance4*yahoo,co,jp

【記事】
歌声合成1 主要な歌声合成
VOCALOID ・UTAU ・CeVIO

歌声合成2 Sharpkey

その他の歌声合成 約30の歌声合成ソフトを使ってみた記録

制作 UTAU音源制作等に役立ちそうな情報

話声合成 VOICEROIDやCeVIO等TTSの記事

声質変換 ボイスチェンジャーの記事

VR VRやVTuber関連ソフトの記事
VR

【実績】
調声 多種多様な歌声合成でカバー

イベント 過去の参加イベント

対談 過去の対談企画

翻訳 外語→日本語のお仕事

音源制作 歌声合成ソフト用の音源制作
・UTAU同志社音源群『会長ロイド』『Marine』
・Sharpkey初日本語音源『稲荷(Inari)』

配布物 過去の配布物(音源を除く)


スポンサーサイト

くろ州の合成音声備忘録


未分類 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

N種の歌声合成ソフトのテストシーケンス配布

2019.02.18(05:12) 353

いろんな歌声合成ソフトのシーケンスデータをまとめて配布しようかと思います。

ダウンロードはこちら

【どういうこと?】
16種くらいの歌声合成で作成したシーケンスを集めました。
どれを使っても大体同じ音声が書き出せるようにできています。

歌声合成ソフトの動作チェック
音源の性能チェック(音域・滑舌等)
研究開発

なんかに使えると思います。

ちなみにこんなフレーズです。
Test.png

約1オクターブ半で、16分音符から付点4分音符まで入ってます。
使いやすいようにテキトーに移調してください。

長いノートが劣化するようだとロングトーンに超弱い
短いノートがエラーだらけだと早口に弱い
上から下まできれいに出ないとJ-POPがカバーしきれず、ボカロ曲は厳しい

みたいなことがわかる。

【内容】
VSQX:VOCALOID3, 4用
VPR:VOCALOID5用
UST:CV=単独音用 VCV=連続音用 CVVC=CVVC用 UTSU用 いずれもベタ打ち
CCS:CeVIO用
MTP:MUTA用 日本語音源がないため一部歌詞操作あり
NAR:Nakloid用 単独音形式のみ
NN:NiaoNiao用 日本語音源用カタカナベタ打ち
SK:Sharpkey用 日本語音源用ひらがなベタ打ち
SNG:LaLaSong用 音域の関係で+4キー
S5P:SynthesizerV用
USTX:OpenUTAU用 単独音形式のみ
XML:Sinsy用 RenoidPlayer用
MID:Aquestone用 Alter/Ego用 DelayLama用 いずれも歌詞データなし


くろ州の合成音声備忘録


制作 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

くろ州式リストのでき方

2019.02.15(22:33) 352

くろ州式7モーラリストがどうやってできたのか解説します。

1.とりあえず全部網羅できるようにする

aa-ia-ua-ea-oa

となるように並べます。めっちゃ規則的

_かかきかくかけかこか

これを母音一個ずつずらして複製

_かかきかくかけかこか
_ききくきけきこきかき
_くくけくこくかくきく
_けけこけかけきけくけ
_ここかこきこくこけこ

2.ダブりを消す

後半ダブっているので削ります。

_かかきかくか
_ききくきけき
_くくけくこく
_けけこけかけ
_ここかこきこ

3.「ん」を挟む

挟み方はいろいろ

_かかきかくか _かかきかくか _かかきかくか
_かかきかくか _かかきかく

正直どれでも良いけど、「かかんきかくか」が結果的に一番きれいになりそうだった。

_かかんきかくか
_ききんくきけき
_くくんけくこく
_けけんこけかけ
_ここんかこきこ

4.足りないものを追加

足りてないのは「かき」「きく」「くけ」「けこ」「こか」なので、これで1行作ると

_かきくけこか

になる。これは「ん」を挟む段階で仕組んだ。「一番きれいになりそうだった」の正体。

この足りないやつを各行の最後に仕込むと8モーラリストになる。

5.仕込み

これで

_かかんきかくか
_ききんくきけき
_くくんけくこく
_けけんこけかけ
_ここんかこきこ
_かきくけこか

1文字空きがある。空きがあっても何の問題もないが、ここに「ん」をはめると、

_かかんきかくか(a)
_ききんくきけき(i)
_くくんけくこく(u)
_けけんこけかけ(e)
_ここんかこきこ(o)
_かきくけこかん(N)

というように、各行の最後に「あ、い、う、え、お、ん」が並ぶので、UTAU音源に仕込みを作りたい場合につかえそうになる。


くろ州の合成音声備忘録


制作 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

UTAUの音源形式

2019.02.13(17:01) 351

UTAU音源は、その仕組みによっていくつかの種類に分かれます。主要なものは以下の通り。

単独音
CVVC
連続音

これはどう違うのかという話。それぞれの技術的な部分は全部すっ飛ばして説明するとこうなる。

【歌わせる人向け】
ただ歌わせるだけなら

単独音→CVVC→連続音

の順で簡単。

単独音は「こ ん に ち わ」って打ち込めば "とりあえず歌う"
CVVCは「こ o ん に ち わ」って打ち込めば "とりあえず歌う"
連続音は「- こ o ん n に i ち i わ」って打ち込むと歌う

まぁ、どの音源形式でも「こ ん に ち わ」と打ち込んで、形式変換器でワンクリックすれば勝手に↑のように変換してくれるんでただ歌わせるだけなら別に難しさは変わらない

上手に歌わせようと思うと

連続音→CVVC→単独音

の順で簡単。 ※個人の見解です

単独音は、滑らかに歌わせようとするとそこそこの技術が必要
CVVCは、上手に歌わせようとすると作りこみ要素が多い
連続音は、素の状態で大体うまい

【中の人向け】

単独音→CVVC→連続音

の順で楽

単独音は量が少ない(秒で終わる)※過言
CVVCも量は少なめ(数分で終わる)
連続音は最低でもアニメ1本分は歌い続けないといけない

体力や喉の耐久力で選ぶ

【原音設定他向け】

量の面では 単独音→CVVC→連続音
難易度の面では 連続音→単独音→CVVC ※個人の見解です

の順で簡単。

量は中の人の項目と同じ

難易度で言うと

連続音はシビアにやらなくてもなんとなく歌ってくれる
単独音は上手に歌うようにするには結構経験が要る
CVVCは子音の処理がシビアだし、中の人がうまくないとちょっと作れない

という感じ。


くろ州の合成音声備忘録


制作 トラックバック(-) | コメント(0) | [EDIT]
タイトル画像

ボカロリスナーと歌声合成技術の違い

2019.02.12(15:11) 350

最近、ボカロDJさんをはじめとする「ボカロリスナー」さんとの絡みが増えてきた私ですが、まだ、ボカロリスナーさんの思考というか傾向というか、そういうのがわかってないところがあるのです。

私は歌声合成全般を扱うユーザーでありライターです。ここでは「ボカロユーザー・ボカロライター」ということにしましょう。

※念のため。「ボカロ」=キャラクター付き歌声合成ソフト・音声全般を指すものとします。

さて、本題に入りましょう。技術系のボカロライターである私の興味関心は、ボカロの技術にあります。VOCALOIDは波形接続で、CeVIOはHMMベース、最近のトレンドはディープラーニングで全自動歌唱する歌声合成だとか、そういうところに興味があって、実際に使う=ボカロユーザーとなることで現実的な目線から記事を書いているわけです。

でも、そこってボカロリスナーさんからしたらどう見えるんでしょうか。

ボカロ曲を聴くという段階において「VOCALOIDの音声は波形接続によって生成されている」ってどの程度の関心を集める話題なんでしょう。これ知ってても知らなくても音は変わらないですよね。聞こえ方は感覚的に変わるかもしれないけど。私はそういう話を楽しく聞くけど、個人的には別に知らなくてもいいと思います。

ボカロ曲を聴くという段階において「この曲のボーカルはSinsyで作られている」ってどの程度重要なんでしょう。どのソフトを使っててもいい曲は良い曲だと思うのです。

多分、「使われているソフトの "名前" や "技術の詳細"」は別に聞く分には重要じゃないんじゃないかと思うんです。知ってれば楽しみが増えるかもしれないオプションくらいの立ち位置。

私はそういうところ知りたい派だし、知ってもらうのは普通に良いことだし、教えられることは教えたいですけどね。

例えば、

VOCALOIDは滑らかで落ち着いた出音、ハイトーンや早口に強い。
CeVIOは密度の高い埋もれにくい出音、人間らしさの出しやすさとトークに強い。
UTAUはLo-Fiから人間レベルまで多様な出音、息遣いにUTAUらしさがある。
Sharpkeyは硬めの出音、曖昧な発音やダイナミクスレンジの広い表現が特徴。
SynthVは滑らかでぬめりのある出音、多芸でダイナミックな強弱表現が特徴。
VoiceTextVoiceMaidProjectはアイドル風・同人歌手風に歌うことができる。
EmVoiceは透き通った出音、圧倒的な英語クオリティーが特徴。

みたいなところはリスナーさん向け情報として「アリ」だと思うのです。歌声合成ソフトの音声ソムリエ。

今挙げただけでも知らない歌声合成あったでしょ?
そういうものの中にはニコニコのVOCALOIDタグに載らないものもたくさんあります。載ってもよくわからないから見られないみたいなことはよくあるでしょう。

でも、そういうのの中にも名曲がたくさんあって、残念ながらほとんどのリスナーさんは見落としているのです。Aquestoneオリジナル曲とか、素朴なゆっくりボイスで哀し気に歌われるからこその哀愁が胸を打ちます。

SoundCloudで「VoiceText」や「東北大学ボイスメイドプロジェクト」を検索してみてください。
Youtubeで「マイクロソフト りんな」を検索してみてください。
「テクノスピーチ」でググってみてください。

あなたの好みかどうかは保証できないですが、驚くべきクオリティーの音声が出てきます。

「これボカロ?」というのは「この楽曲のボーカル音声はまるで人間が歌ったもののようで非常に驚き感動いたしました」という意味だけど、これによく「いや、UTAUだよ」とか「CeVIO」だよとかいうコメントがつく。

完全に正しい。たまにミスってたりするけど。
正しいけど、ここには非技術系と技術系の興味の差があるような気がしています。
どっちにも属しているからこそ、その真ん中で暗躍したいなとか考えているところです。


くろ州の合成音声備忘録


未分類 トラックバック(-) | コメント(0) | [EDIT]
最近の記事
  1. サイトマップ(01/01)
  2. N種の歌声合成ソフトのテストシーケンス配布(02/18)
  3. くろ州式リストのでき方(02/15)
  4. UTAUの音源形式(02/13)
  5. ボカロリスナーと歌声合成技術の違い(02/12)
次のページ
次のページ