配布するよ。
【DeepVocalのリスト】 ・CVVCならぶっちゃけなんでもいいぞ ・BPM100~120くらいで録ろう ・ハ行は連続音にしてもいいぞ【入ってるリスト】 ・4mora_Aren :4モーラCVVC(ア行が連続音) ・4mora_AHren :4モーラCVVC(ア行とハ行が連続音) ・8mora_Aren :8モーラCVVC(ア行が連続音) ・8mora_AHren :8モーラCVVC(ア行とハ行が連続音)【原音設定ファイル】
・テキストエディタで開いて「フォルダ名」を原音が入ってるフォルダの名前に変換(ショートカットCTRL+H)
・↑文字コードがUTF-8になるように保存(UTF-8 BOMはダメ)
・同じく「XN」を原音の音階名に変換
・8mora_Aren用のが入ってるよ ・BPM120で作ったやつの流用 ・ハ行とテュデュ以外は一応合わせてある ・4mora_Aren用のも入ってるよ ・設定自体はかけらも合わせてない 【規約】 ・私に都合の悪い展開になる使い方は禁止
スポンサーサイト
くろ州の合成音声備忘録
制作
トラックバック(-) |
コメント(0) |
[EDIT]
今日、EmVoiceのアップデートが公開されて、歌える音域が大幅に広がりました。やったね。特にアプデ作業しなくても勝手に切り替わります。サーバー側をちょっといじればいいからかな?
【音域】
今まではF#2-C4=1.5 オクターブだったんですが、
新バージョンではE2-A4=2.5 オクターブになりました。
実際に人間が歌う曲って大体、歌いやすいように1オクターブ半でメロディーが作られてるかと思うんですが、音域が1.5オクターブしかない歌声合成だと、とりあえず移調が必要になったときに音域足りなくなりますよね。調子乗ったボカロ曲とかだと音域2オクターブ越えとか言ってくるので、とにかく1オクターブ半じゃ厳しかった。
それが、下に2上に9 も伸びてくれたんです。高音域が大幅な伸びですね。メロが1オクターブ半に収まる曲ならすべての調に対応できるようになったし、音域の広いボカロ曲もそこそこ歌えるようになりました超うれしい。
【発音プレビュー】
発音プレビュー機能が付きました。歌詞を打ち込んで右クリックすると、発音一覧が表示されるので、プレビューしてどっちの発音がいいか聞きながら選べます。「of」って書いて右クリックすると「オブ寄りのof?」か「アブ寄りのof?」か選べます。耳で聞いてちょうどいいほうを選びましょう。
これまではプレビュー以前に発音一覧が表示されなかったので、「of」と書いたときに「アブ寄りのof」があるかどうかわからなかったんですよね。はかどるわー
それ以外は特に変更なし。
くろ州の合成音声備忘録
1日かけてDeepVocal音源「具体音レイ」作ったので配布します。音源制作資料にどうぞ。
【概要】 DeepVocal用の音源です。1音階だけど、今後増えるかも。「DVG-Lay」フォルダをDeepVocalの「singers」フォルダに入れれば使えます。
録音環境が残響だらけなのが合成音聞くだけでもわかってしまうほどで残念ですが、参考になれば、ということで、原音設定ファイルや原音なども同梱しました。辞書ファイルの類はコピペしてほかの音源に使ってもらっても構いません。
DeepVocal参考資料もよろしくです。
【中身】 ・音源フォルダ「DVG-Lay」 -SKC
-SKI
-voice.sksd
-DVG-Lay ver0.02-dict.txt
・README ・原音ファイル等「Resource」 -D3(原音ファイル・原音設定ファイル)
-BRE(ブレス原音・原音設定ファイル)
-発音辞書G-Lay
-発音辞書標準
資料にどうぞ。
・UTAU最強プラグイン用置換TEXT「2DeepVocal.txt」 DeepVocalはUST読み込めないのでMIDIを書き出して読み込みます。このとき、そのままでもいいですが、歌詞をローマ字変換しておくとちょっと便利。2DeepVocal.txtを「UTAU\plugins\iroiro2\Replace\Tikan」の中に入れて、最強プラグインで歌詞変換するといいです。
【特徴】 ・ひらがな入力に対応 ローマ字でもひらがなでも入力できます。事前に音源を指定したうえでVSQXやMIDIを読み込んだ場合も自動で対応します。
・「ん」の打ち分けに対応 N=鼻母音?
Nn=歯茎鼻音
Nm=両唇鼻音
Ng=軟口蓋鼻音
・ハ行の子音のばらつきに対応 ハ行は「は、ひ、ふ、へ、ほ」それぞれ子音の音が違うが、正しく対応させました。
「あは」と歌うときには[-a][a_h1][ha]、「あほ」と歌うときは[-a][a_h5][ho]とつなぐようになっています。
・一部の特殊音素に対応 「yi」「wu」はローマ字入力で呼び出せます。「hiとhyi」「huとfu」はそれぞれ別の子音です。
・ブレスに対応 br1=「あ」
br2=「い」
br3=「う」
br4=「え」
br5=「お」
br6=「ん」
っぽいブレス。おすすめはbr3。というかそれ以外は音質がダメ。
・語尾息に対応 [H]ノートを語尾に付けると語尾息になります。
・原音ファイルと原音設定ファイル、発音辞書を同梱 これがあれば音源の中身を確認できます。参考になるかは置いといて、参考にしてもよいです。
「発音辞書G-Lay」はこの音源で実際に使った辞書で、「発音辞書標準」は、標準的に使われるだろう辞書です。「発音辞書標準」はコピペしてほかの音源に使ってもいいです。
・歌詞辞書「DVG-Lay ver0.02-dict.txt」同梱 これでひらがな入力を実現しています。コピペしてほかの音源に使ってもいいです。コピペするときは、ファイル名を「キャラ名-dict.txt」に変えてください。
・原音設定は私式 原音設定の仕方は公式推奨ではなくて「くろ州式」です。公式と比べて「小さい“っ”」の再現率にこだわった作りになってます。
【禁止事項】 ・私に都合の悪い展開になるような使い方禁止
くろ州の合成音声備忘録
制作
トラックバック(-) |
コメント(0) |
[EDIT]
Googleで検索するときに便利な「マイナス検索」。「Sharpkey -くろ州」と検索すれば「くろ州」を含まない情報だけがヒットします。
今回は「歌声合成ソフト名 -くろ州」で検索かけてみましょう。
【VOCALOID】
私は特にVOCALOID分野の情報を出してないので、変化なし。
【UTAU】
こちらも、もともと情報が結構多い分野なので私はそもそもそんなにヒットしない。
【CeVIO】
私はまーヒットしない。
【歌うボイスロイド】
20件目に出てきました。マイナス検索すればもちろんそれが消えるだけ。
【Alter/Ego】
同名のモノが多すぎて私どころか歌声合成ソフトのページに当たりにくい。 【Aquetone】
90件中2件私の。マイナス検索すれば消える。
【Cadencii】
私の記事ヒットしない。
【DeepVocal】
トップ2件が私関連。マイナス検索すると日本語情報がほぼ消える。
【ディレイラマ】
私の記事ヒットしない。 【EmVoice】
1ページ目に出てきました。マイナス検索すると日本語情報がほぼ消える。 【HANAUTAU】
1ページ目に出てきました。マイナス検索すれば消えるだけ。
【LaLaSong】
私の記事ヒットしない。
【MikoVoice】
そこそこ出てくる。マイナス検索すれば消えるだけ。
【MUTA】
牟田さんのFacebookがいっぱいヒットするからそもそも出てこない。
【My MidiVocalist】
3ページ目に出てきた。マイナス検索すれば消えるだけ。
【Nakloid】
そこそこ出てくる。マイナス検索すれば消えるだけ。
【なめうぇーぶ】
2ページ目に出てきた。マイナス検索すれば消えるだけ。
【NIAONIAO】
私の記事ヒットしない。
【OpenUTAU】
冒頭から結構出てきます。マイナス検索すると日本語情報がほぼ消える。
【PiaproStudio】
私の記事ヒットしない。
【Renoid】
私の記事ヒットしない。
【Sharpkey】
大分私。マイナス検索すると、リリースを伝える古めの記事が残ります。
【Sinsy】
たまに出てくる。マイナス検索すれば消えるだけ。
【SugarCape】
1ページ目に出てくる。マイナス検索すれば消えるだけ。
【SynthV】
そこそこ出てくる。マイナス検索するとほとんど動画検索みたいなことになる。
【UTSU】
半ば「鬱」の検索。
【VOCALINA】
1ページ目に出てきました。マイナス検索すれば消えるだけ。
ここから私の影響力をはかると「Sharpkey、DeepVocal、EmVoice、OpenUTAUに関してはそこそこある」くらいかな!
くろ州の合成音声備忘録
未分類
トラックバック(-) |
コメント(0) |
[EDIT]
【原音設定】
発音辞書ができたら次は原音設定です。この作業「簡単だがかなりめんどい」ので覚悟するように。
メニューの「function」から「Build Voice Config」を選ぶと原音設定画面が出る。ここで
1.原音があるフォルダを指定
2.原音設定したいWAVEファイルの名前を書き込む
3.エイリアスと音階名を書き込む
4.「New markers」ボタンを押すと音声表示ウィンドウが出る
5.原音設定
6.確定ボタンを押す
7.次へ
の繰り返し。特にめんどいのが2番。「ああんいあうあ.wav」の設定が一通り終わったら次は「いいんういえい.wav」という風に、いちいちファイル名を書かないといけない。手書きするにしてもコピペするにしてもまぁめんどい。
そこで、私が使ってるこのリスト。
_k
_-k
_s
_-s
……
これなら打ち込みの手間がかなり省略される。全然違うぞ。
・作るべきエイリアス
基本的にはUTAUのCVVCと同じように作っていけばOK。CVVCとはいっても「母音単独音切り出し済みCVVC」です。
「_きかくけこかんか.wav」からは[-ki][i_k][ka][a_k][ku][u_k][ke][e_k][ko][o_k][N_k]が切り出せます。
「あ」のエイリアスは
[-a]
[a]
[a_x]
[x_a]
が必要。[a]エイリアスは[-a]と全く同じ設定でいいのでコピペで。単独音を切り出さないと絶対に母音が鳴らない音源になります。
・実際の設定「持続性の有声音」
DeepVocalの原音設定には主に「持続性の有声音」か「それ以外」の2種類のメソッドしかない。
・実際の設定「その他」
・実際の設定「母音連続音」
前の母音の安定終わりに1番
後ろの母音の安定始まりに2番
・実際の設定「語尾息」
前の母音の安定終わりに1番
息を吐き切ったあたりに2番
・実際の設定「ブレス」
ブレスが始まる少し前に1番
ブレスが終わる少し後に2番
・「ん」
「ん」のエイリアスは「N」が基本。「n」でも動くが、ナ行の子音と混同する恐れがあるので私は「N」を使う。「ん」は母音と同じ扱いなので、切り出すエイリアスは
[-N]
[N]
[N_x]
[x_N]
となる。
「ん」にこだわる人には、ナ・タ行につながる「Nn」、マ・バ行につながる「Nm」、カ・ガ行につながる「Ng」などを設定することをおすすめする。こうすると「じゃーんけーんぽーん」と歌わせようと思ったときに[ja][Ng][ke][Nm][po][N]という風に「ん」の打ち分けが可能となる。
発音記号リストには「Nn,Nn,N」「Nm,Nm,N」「Ng,Ng,N」を追加。母音リストには「Nn,Nn」「Nm,Nm」「Ng,Ng」を追加。
[N_x]系のエイリアスは「Nn_x」「Nm_x」とする必要はない。発音リストに「Nn,Nn,N」と登録するので実際に接続するときは[x_Nn][Nn][N _x]とつながることになる。「N_x」系エイリアスはたいてい自然と「Nn」や「Nm」になってるので特に問題が発生しない。というか、これをやってしまうと、正しく「ん」の発音を選ばないと鳴らない音素クイズ音源になってしまう。
・他音階音源での原音設定の使いまわし
UTAUでいうところの「oto.ini」にあたるのは「voice.dvcfg」ファイルです。本体には原音設定の使いまわし機能がないので絶望する他音階勢もいるようですが、メモ帳を使えば何とかなる。
【音声モデルの生成】
原音設定が終わったら、UTAUでいうところの周波数表にあたる「音声モデル」の生成を行う。
メニューの「function」から「Build Voice Bank」で出てくるウィンドウで操作する。
原音が入っているフォルダを指定して、とりあえず「All setted......」のほうにチェックを入れておく。音声モデルを保存する場所を指定したら「Build Voice Model Files」ボタンを押す。ログファイルを保存するように言われるので「Log1」とかテキトーに名前を付けて実行。
しばらく待てば出来上がり。エラーが出たら原音設定か、音階名を確認する。原音設定のときに音階名を間違って入力していると、音声モデル生成で盛大にエラーを吐くことになるので注意。
原音設定の修正でエラーが消えることもなくはないが、たいていの場合は原音がしゃくってるとか発音がおかしいとかの問題なので、おとなしく再収録するのがいい。
修正したら、もう一度音声モデルを生成する。今度は「Please input......」のほうにチェックを入れて、修正した=エラーが出てたエイリアスを書き込む。「Overwrite......」にチェックを入れて同じく実行。
実はエラーが出てても歌えたりする。
【音源のビルド】
同じ画面で音源のビルドもできる。「A3,D4,G4,C5」という風に音階名を書いて、音源の名前を書いて、書き出す場所を指定して「Build Voice Bank」ボタンを押す。ログファイルの保存先をテキトーに指定すればビルドが始まる。こっちはマジで一瞬なのでほぼ待ち時間はない。
こちらも結構エラーが出るが、無視して問題ない。
出来上がった「SKC」「SKI」「voice.sksd」の3つが音源ファイル。これだけ配布すればとりあえず歌ってもらえる。原音や音声モデルを配布する必要はない。
【配布ファイル】
・SKC
・SKI
・voice.sksd
だけ入れてZIPにすれば最低限OKだが、このほかに
・キャラ画像.png
・README.txt
とか、UTAUでもよく入れるやつを入れておくとよい。
加えて、入れておくと便利なのが「歌詞辞書」ファイルだ。
「キャラ名.dict.txt」というただのテキストファイルだが、これを入れておくと、DeepVocalで歌詞入力をするときにひらがなが使えるようになる。もちろん、辞書に書き加えればカタカナも行ける。VSQX読み込みのときに便利な機能なんかを付け加えることもできる。
ここまで触れていなかったが、基本的にDeepVocalはひらがなでの歌詞入力に対応していない。発音辞書のほうで「か,k,a」のようにひらがなを指定することでひらがな入力に対応させることもできるが、これをやってしまうと、MIDIやVSQXを読み込むときに「全歌詞を手作業で打ち直さないといけない」事態になるのでおすすめしない。ひらがな対応は歌詞辞書で。
この歌詞辞書も作るのはちょっとめんどいのでテンプレートを借りてくるのが手っ取り早い。
これはSharpkey用音源ですが、この中に「キャラ名.dict.txt」がいくつか入っているので、参考にするなりコピペして使うなりしましょう。稲荷(Inari)を使ってくれてもいいのよ。
とまぁ、こんな感じでDeepVocal用音源は作れます。噂ではそのうちUTAU2DeepVocal音源コンバーター的なものも登場するかもしれないので、めんどいわーという方はそれを待ってみてもよいのでは。
くろ州の合成音声備忘録
制作
トラックバック(-) |
コメント(0) |
[EDIT]
今週初めにDeepVocalの音源制作ツール「DeepVocalToolBox」が公開されて、UTAU各所で話題になったりならなかったりしていますが、マニュアル読んでも音源制作に必要な情報はそろわないので一回まとめてみましょう。
この記事では「私式」の音源制作を解説します。たまに公式情報とは違う部分も含まれるので、「絶対に公式じゃないと嫌」という人はブラウザバック推奨です。
【用意するモノ】
DeepVocal音源を作るのに必要なモノは以下の通り
・DeepVocal:作るのに入らないがチェックに必要
・DeepVocalToolBox:音源作るソフト
・OREMO:UTAU用録音ソフト
・録音リスト:後で解説
・ガイドBGM:後で解説
・マイクとかとか:用意して
これらに加えて、ノイズ除去ソフトとか波形編集ソフトを用意しといてもよいと思う。
【音源制作の流れ】
録音:声を録ります
→発音辞書作成:どんな音素が使える音源なのか教えます
→原音設定:頑張れ
→音声モデルの生成:周波数表みたいなものを作ります
→音源ビルド:配布できる形にします
→ファイル整備:READMEとか歌詞辞書とかを詰めてZIP
【録音】
UTAU音源制作の経験があればまず問題なくできるでしょう。ただ、マニュアルにはどんなリストを使えばいいとか細かいことは書いてないのでここで示しておきましょう。
・リスト
CVVCリストを使います。CVVCリストなら大体なんでも大丈夫。肺活量と相談して何モーラリストにするか決めてください。
個人的には「_あR」「_いR」……みたいな母音単体のセクションがあったほうがいい気がする。なくてもかけらも問題ないけど。あと、DeepVocalは頑張ればCVVCでハ行の子音の打ち分けが完璧にできるので、ハ行が連続音になっているリストを使うのも一つの手だと思う。
結果、私のおススメは「くろ州式4モーラあは連CVVC」「くろ州式8モーラあは連CVVC」です。「くろ州式8モーラあは連CVVC」に関しては、DeepVocalと大体同じエンジンを積んでいる「Sharpkey」唯一の日本語音源でも使われた実績があるので安心。唯一の日本語音源主導して作ったの私だけど。
ちなみに私はこんなリストで収録した。
_a
_aR
_i
_iR
……
_k
_-k
_s
_-s
……
「_a」と書いて「ああんいあうあ」と読み、「_k」と書いて「きかくけこかんか」と読む。リストが完全に頭に入ってる人向け。こっちを使うと後々ちょっと楽になる。
・ガイドBGM
テンポは100~120程度がよさげ。原音が長ければいいというわけでもないので、これ以上遅くする必要はない。速くしてもいいが、推奨はしない。
・収録
録音はUTAUをとるときと一緒。ただし、音声モデル生成のときに失敗しやすくなるので、しゃくりやビブラートをつけたりするのはNG。安定した綺麗な波形になるように歌ってください。波形を見て「何このきれーな波形? うち天才か?」って思えるくらいを目指そう。
【発音辞書】
DeepVocal用の原音がそろったら、いよいよDeepVocalToolBoxを立ち上げる。メニューの「function」から「Phonetic Dictionary」を選ぶと「発音辞書ウィンドウ」が出てくる。
ここではひたすら「音源が歌える対応音素」を書き連ねていく。
1番のタブは発音記号リスト。例えば「ka,k,a」という風に書き込むと、「この音源では『ka』と歌詞入力すると、子音=k、母音=aを発音するよ」という意味になる。これを全発音分指定していきます。
a,a,a
i,i,i
u,u,u
e,e,e
o,o,o
N,N,N
ka,k,a
ki,ky,i
ku,k,u
ke,k,e
ko,k,o
……
ぶっちゃけめんどいので私のほうでテンプレート用意しておきました。使ってやってください。
これ「歌詞,子音,母音」という並びになっているという理解で別にいいんですが、正確には「歌詞,直前のVCの子音,直後のVCの母音」だという風に考えると応用が利かせやすくなります。
例えば「ki,ky,i」歌詞は「ki」なので、子音は「k」だと思うかもしれないですが、「ky」が正しいです。
仮に「あきた」と歌わせたいとしましょう。このとき、UTAUのCVVCなら[- a][a ky][ki][i t][ta]という風に音素を繋ぐでしょう。この[- a][a ky ][ki ][i t][ta]太字部分。これを発音記号リストに連ねているのです。
実質的に「ky」は子音だし「i」は母音だけど「kiと歌わせるときは直前に『x_ky』が来て直後には『i_x』が来るよ」ということを規定していると考えるといろいろ応用できるようになります。
「あした」と歌わせたいとしましょう。しかもただ「あした」と歌わせるのではなくて「a sh ta」と無声化を起こした歌い方にしたいとしましょう。これを「a」「shta」という2音節だととらえてやると、発音辞書は「shta,sh,a」になります。なぜでしょう。
[- a][a sh ][shta]とつなぐからです。あとは頭の使いよう。
2番目のタブは母音リスト。これは特にめんどくさくないし難しいところもないので解説はスルー。
3番目は無声子音リスト。無声子音を書くだけです。これもスルー。
4番目は有声子音リスト。もちろんスルー。
無声音有声音はわかるよね? と思っているが、わからなかったらググってください。
ここまでが基本の4リストです。音源制作するときには絶対に書き込まないといけないところ。
5番目は独立発音リスト。ブレスやセリフといった小ネタを仕込むのに使います。独立撥音リストに登録した音素は、実際に使うときにピッチシフトをしないで再生されます。
br1
br2
br3
br4
br5
という風に書き込んで、それぞれにブレスを1個ずつあてはめれば、ブレスをノートとして打ち込めるようになります。
6番目は語尾記号リスト。語尾息や喉切りを作るのに使います。
H
T
という風に書き込むと、[a][H]とノートを打てば語尾息に、[a][T]と打ち込めば喉切りにすることもできます。
5,6番目のリストはオプションなので作らなくてもOK。
辞書を作り終わったら画面下の「Check Dictionary」を押すこと。エラーが出たら適宜修正。
くろ州の合成音声備忘録
制作
トラックバック(-) |
コメント(0) |
[EDIT]
Sharpkeyを作っていた「Boxstar」さんが新しく出した歌声合成「DeepVocal」がいよいよ公開となりました。
Sharpkeyと大体同じGUIで機能を軽量化したDeepVocalですが、専用の音声ライブラリが作れるということで中国をはじめとして一部のUTAU民からの注目がアツくなっています。
ただ、音源制作をしようにも情報が少ない。参考にできる日本語ネイティブ音源もなかなか見当たらないし。というわけでとりあえず、私版DeepVocal音源制作の日本語マニュアルを張り付けておきます。
【手順】
1.収録
2.発音辞書作成
3.原音設定
4.音声モデルの生成
5.音声ライブラリのビルド
【収録】
収録自体はOREMOでやってしまうのが楽です。基本的にはUTAUと同じお作法でできる。注意点とすれば
・音声ファイルは「WAVE,44.1kHz,16bit,モノラル」
・ビブラートとか音程の揺れは極力ないようにする(音声モデルの生成に失敗する)
くらい。
収録リストはCVVC。公式情報ではBPMは100くらいがちょうどいいらしい。
【発音辞書作成】
すべての発音をリストアップする必要があります。以下のように。
a,a,a
i,i,i
u,u,u
e,e,e
o,o,o
ka,k,a
ki,ky,i
ku,k,u
ke,k,e
ko,k,o
……
「ノートに打ち込む歌詞,VC音素の子音を指定,母音」
例えば、「き」だと、
「ノートに打ち込む歌詞=ki,VC音素の子音を指定=ky,母音=i」
となる。こうすると「ki」と打ち込めばシステム側で[a ky][ki]みたいな感じでつないでくれる。
このほかにも、母音リスト、無声子音リスト、有声子音リスト、語尾音リスト、ExVoice用リストがある。作るのはめんどいと思うので、近いうちにリストのプリセット配布します。
【原音設定】
割と説明することが多いので詳細は上に貼ったマニュアルを参照してほしい。
CV音素はUTAUでいうところの左ブランク以外の4ポイントを指定していく。
VC音素(DeepVocal式に書くとVX音素)は2ポイントしかない。UTAUのVCで言うと、オーバーラップともう一つ「先行発声と子音固定範囲の間くらい」に設定するやつがある。
「発音設定」のウィンドウを開いて
1.原音がある位置を指定
2.設定したい原音のファイル名と音階名を入力
3.CV音素なのかVX音素なのかそれ以外なのか選ぶ
4.音素名を入力する
5.マーカーを作成
6.出てきた原音設定用のウィンドウで設定
7.確定ボタンを押す
の、2から7をひたすら繰り返すと音源ができる。
【音声モデルの生成】
UTAUでいうところの周波数表作成みたいなもの。DeepVocalは原音ではなくて、原音から作った音声モデルをいじって音声を合成する。
音声ライブラリビルダーのウィンドウから作成できる。
1.原音があるフォルダを指定
2.書き出す場所を指定
3.全部作るか、一部ほしいところだけ作るかを選択
4.すでに作った音声モデルを上書きするか否かを選択
5.生成ボタンを押す
6.ログファイルの保存先を指定
7.生成
という流れ。エラーが出たらそのエイリアスを原音設定で直して、3からやり直し。
【音声ライブラリのビルド】
ビルドは、保存先と名前と音階名を入力してビルドボタンを押せば一瞬でできる。ログファイルはテキトーに。ここで出てくるエラーはほぼすべて無視してOK。
生成された「voice.sksd」「SKC」「SKI」の三つをフォルダにまとめれば配布ファイル完成。
フォルダごとDeepVocalの「singers」フォルダに投げれば使えます。
Twitterで観測してなんか躓く部分があるようなら、また記事にして解説します。
くろ州の合成音声備忘録
音声合成にもいろいろあって、VOCALOIDみたいに音素を切り貼り加工するものやCeVIOみたいに歌い方をまねするものなど手法は様々。
その中でも原始的な方法として「収録した音声をそのまま再生する」 というのもある。例えばカーナビ。あれはよく「300。メートル先。右。方向です」といった感じで不自然に区切ってしゃべるが、「300」「メートル先」「右」「方向です」と収録したものをそのまま並べて再生しているようなイメージだ。
そんな原始的な音声合成の中でもひときわ異彩を放ってやがるのが「JP Idol Call」 というKONTAKT用音源。ドルオタがライブでやってるオタ芸の音声を収録した音源 。すでにコンセプトが謎過ぎる。
VIDEO
4人のドルオタ×3チームで合計12人のコール音声が作れる。チームごとに音量調整もできるので、4人のコール、8人のコールというのも可能。
で、この音源なんかやたらエフェクトが載っている。
・ピッチ :音程を変えられる。フォルマントは維持しないので、音程を高くすると「ドルオタ(ショタ)のコール」 という謎音声が出来上がる。
・ステレオ :音声の広がりを変えられる。モノから100ワイドステレオまで。
・サチュレーション :ディストーションに近い。「デスボでコールするドルオタ」 という演出ができる。いつやるのかは知らない。
・リバーブ :アイドルがどんなステージに上ってるのか知らないのでわからないが、このリバーブはたぶんアリーナではない。
ちなみにこの音源シリーズには「JP Animesong Call」 という、声優/アイドルっぽい音源もあって、「JP Animesong Call」と「JP Idol Call」を組み合わせると腹がよじれるほど笑える音声が作れるのでおススメ。
VIDEO
なんか、「ここが地獄か……」って感じしてよいよね。
くろ州の合成音声備忘録
学生時代は論文検索サービスCiNii(サイニー)をよく使った。無料で日本でリリースされた論文の一部を検索でき、場合によっては中身を閲覧することもできる。
じゃあ、CiNiiで「VOCALOID」や「UTAU」、「CeVIO」を検索すると何がどれだけ出てくるのか、検証してみよう。
ちなみに、過去の「検索してみたシリーズ」はこんな感じ
【VOCALOID】 ヒット数
80 さすがの文献数で、バリエーションにも富んでいる。剣持さんの論文やインタビューがやはり多い。文化系の他にも、ニコニコ技術部で見たような話やVOCALOIDの歴史に関わるような技術系の話も多くて、結構余韻に浸れる。
時間がなくて読めていないので、とりあえず面白そうな論文のタイトルだけ羅列してみよう。
・伊藤博之「音楽制作ソフトウェアのディストリビューターから見た世界の音声合成、音声編集技術」
・浅見吏郎「ボーカロイドを使用した授業例」教育系
・末吉優「音楽のジャンルと印象を用いたVOCALOID クリエータの検索」
・渡辺恭子「VOCALOID音楽聴取による印象とストレス度の変化に関する一考察」面白かった
・川﨑悠圭「舞台上に降り立つVOCALOID : 「女優」としての初音ミクは存在しうるか」
・王杲「"VOCALOID CHINA PROJECT"の事例分析による中国のキャラクタービジネス環境の可能性と現状報告」やばそう
・的場達矢「歌唱のグルーブ感の構成要因の分析」
・西村綾乃「conteXinger : 日常のコンテクストを取り込み歌うVOCALOID (知的環境とセンサネットワーク)」
・佐々木あすか「ボーカロイドの人気曲における歌詞とメロディの関係の解析」
・辰巳直也「ロックボーカルレゾネータVocaloid歌唱をロックボーカリスト風の歌い方に変換するシステム」
・鈴木誠司「ニコニコ動画の動向に見るネットサービス進化論」
・田中雄二「初音ミクという福音--VOCALOIDの半世紀 (総特集 初音ミク--ネットに舞い降りた天使)」有名なやつ
【UTAU】 ヒット数
16 半分はUTAU関連で、もう半分は「歌う」のローマ字表記に引っかかった感じ。森勢先生の論文が多め。森勢先生以外なら、福岡工業大学総合研究機構研究所所の「継続評価ベース対話型進化計算による声質の最適解探索」という論文がヒットした。ぱっと見ではよく分からないし、専門知識もないので読んでもよく分からないが、とにかく「UTAUの研究」ではなくて「UTAUで人間の声を加工したり何だりして、“ユーザーが理想とする声”を探索する研究」らしく、まとめ部分を読むとIECの有効性が云々という話をしていた。
【CeVIO】 ヒット数
1 さすがに少ない。ヒットしたのは電子情報通信学会の刊行物に収録された「合成音声による解説付き映画の比較評価 (福祉情報工学)」という論文。
残念ながらぱっと中身を見ることはできなかったが、内容としては以下の通り。
・「合成音声が音声ガイドをする映画」と「人間が音声ガイドをする映画」を比較
・映画の雰囲気とガイドの声や話し方が一致すれば、合成音声でも人間と同レベルの評価になる
・声質の好みによって結果は分かれる
・音声ガイドに「作品性」を求めるタイプと「情報伝達性」を求めるタイプがいる
・音声ガイド製作の効率化ができてよい
ふつーに面白そう。気になったものがあったら、CiNiiで検索をかけてみよう。
くろ州の合成音声備忘録
未分類
トラックバック(-) |
コメント(0) |
[EDIT]
PiaproStudio というのは、基本的にDAW上で動くプラグインタイプの歌声合成ソフトです。作曲をするユーザーはこのプラグインタイプが好きな傾向が強い気がするんですが(DAW上で動くので他の楽器をいじるのと同じレイヤーで作業できるため)、それ以外のユーザーからすると「DAWをかまさないといけなくて難しい/めんどい」 という理由で嫌厭されがち。
PiaproStudioはクリプトンボカロに付属していて、「最安でボカロ触るならPiaproStudioを触らない手はない」ようになっているので、難しかろうがめんどかろうが触らないといけないけども。
そんなこんなで、一部のボカロユーザーはPiaproStudioの単独起動版(=スタンドアローン)を欲しがっていたわけですが、今から約2年前にそれが登場したのです。PiaproStudioスタンドアローン 。
数年単位で話題に乗り遅れていますが、この度スタンドアローン版を手に入れたのでレビューします。
【PiaproStudioスタンドアローン】
正確には
「piapro studio Standalone」 。初音ミクの中国語音源「初音ミク V4 CHINESE」に
のみ 同梱されています。つまり、
初音ミクの中国語音源を買わないと手に入らない というわけですね。日本からなら、クリプトンの「
SONICWIRE 」からダウンロード版を買うのが一番簡単かな? V4C自体は1万円なので、初音ミクのライブラリの中では安いほう。ただ、
日本人は普通V4C買わない よね。私は普通じゃないから買うけど。
というわけで、V4Cを買って、もろもろインストールして使ってみよう。
【プラグイン版PiaproStudioユーザー的な視点】
基本的に操作自体はほぼ変わらない 。触っててちょっと気になった違いは3点くらい。一つは「リージョンを描かない」 というところ。以下、めんどいのでプラグイン版をP版、スタンドアローン版をS版と呼ぶことにする。P波とS波みたいになってるけど気にしないこと。
P版では、ノートを描く前に「リージョン」を描く必要がある。ノートを置くための皿みたいなものだ。VOCALOID Editorでいうところの「パート」のこと。S版ではそもそもリージョンを描くことができない。直接ノートを置けばいいだけ。慣れるのにちょっと時間がかかるかもしれないが、これは別に良くも悪くもない。その仕様変更要る?って感じ。リージョンのカットや削除、ミュートなんかは普通にできる。
二つ目は「リバーブがついている」 ということ。P版はDAW上で動くので、リバーブなんてのは機能として必要ない。DAW側に任せればいい。S版は右下の「AMBIENCE」ボタンを押すと、リバーブがかかる。結構深め。逆にかけられるエフェクトはリバーブのみ。基本的には書き出した後にDAWでMIXすることを想定しているのかな?
三つ目は「オーディオトラックがある」 こと。これもスタンドアローンだからこその違い。P版はDAW上で動くので、オケやブレスは別トラックで扱えばいい。S版は別のトラックなんてのはないので、エディター内でオケやブレスを扱うことになる。これはVOCALOID Editor(スタンドアローン)と同じ仕様だといえる。
【中国語音源ユーザー的な視点】
中国語はピンインで入力する。漢字入力に対応していないのはVOCALOID Editorと変わらない。そういう細かいところは別に変らんのでいいんだが、とりあえず「初音ミク V4 CHINESE」しか歌わせられない というところがでかいんだな。S版で読み込めるのはV4Cだけ。ほかの中国語音源やその他の言語の音源は一切読み込み不可。これはでかい。俺はミクV4C以外には興味ねぇ という方なら、特に問題はないかも。
でも、これ何が問題かというと「ほかの中国ボカロで作ったVSQXが使いまわせない」 ということなんだな。もちろん、S版デモVSQXは読み込めるし、V4C自体にはほかの中国ボカロ用に作ったVSQXで歌う能力はあるんだが、S版には「歌手を変更する」機能がなく て(私だけのバグ?)、洛天依で作ったVSQXを読み込んで歌わせようとすると「歌手変更しないと歌わないのに歌手変更できない」 ということになる。結果、VOCALOID EditorやP版でミクV4Cに歌手変更してから読み込むという無駄ムーブをかますことになる。それだったらEditorかP版使うくない?
そもそもS版を使う人ってどういう人なのかと考えてみよう。プラグインタイプが好きな人ならP版を使うだろうし、ほかの音源をすでに持っててVOCALOID Editor持ってる人なら慣れてるEditorを使うよね。となると、S版使う人は「P版で挫折したクリプトンボカロユーザー」か「VOCALOID Editor for Cubaseで挫折したCubaseユーザー」だろう。
この人たちはEditor持ってなくてプラグインタイプが苦手なので「それだったらEditorかP版使うくない?」に対しては「できればやりたくない/できない」派なんだろう。歌手変更だけならまだ許せるのかも。
【ミクユーザー的な視点】
ミクV4XやV4EとV4Cを併用したい場面がどのくらいあるかは不明だが、とりあえず、S版ではV4Cしか読み込めないので、併用するなら絶対にP版を使うことになる。使い分ける必要性は多分感じないだろうので、結局P版しか使わないという未来が見える。
【結果】
PiaproStudioスタンドアローンは「プラグインタイプの歌声合成が苦手な、中国語ミク単推し専用」 歌声合成みたいなものだと私は理解した。とりあえず「スタンドアローンのPiaproStudioが欲しい」という理由なら、買っても何も起きないので注意。
くろ州の合成音声備忘録