30以上もある歌声合成ソフトにはそれぞれ機能に大きな違いがあります。かなり多機能ですべての機能を把握することすら難しいものから、ボタンを押したら音が出る以上の機能が全くないものまで実に様々。
機能が多いソフトは「多機能すぎて難しい」と言われ、少ないソフトは「やりたいことができない」と言われます。ネガティブな面ではね。
確かに、多機能なソフトはUI(UX)がかなり優れていないと使いこなしにくいし、少ないソフトは当然できることが限られるんですが、それはソフトに使わされてるからだと私は思うのです。
機能は使うものだけ使えばいい
多機能というのは、ただ単に機能が多いっていうだけで、その機能をできるだけ使わないといけないなんて決まりは特にありません。
たいていのソフトは、楽譜を打ち込んで再生すれば最低限歌います。それで満足ならそれ以外の機能は一切使わなくても問題ありません。
楽譜を打ち込んで再生ボタンを押すだけなら、ソフトの難易度はほとんど変わりません。せいぜい気が利いたUIをしているかどうか程度の違いだけ。
使いたいときに使いたいものを使いたいだけ使えばいい。
今ある歌声合成ソフトの中でも特に機能が多いのはVOCALOID5やPiapro Studio NTあたりです。これらも打ち込んで再生すれば歌います。簡単ですね。
やりたいことさえ分かっていれば、機能を使い裁くのも簡単です。
私は大体、子音の長さ、ピッチ、声のハリしかいじらないタイプなんですが、そういう意味ではVOCALOID5はVEL、ノート分割、Exciterだけいじればいい。アタック&リリースエフェクトや自動調声機能、その他10個近くあるパラメーター、オーディオ編集機能などは一切使っていません。
NTの場合もConsonant、Voltage、手描きピッチだけ使います。それ以外の機能はまーーじで使わない。
いらない機能ではないんですよ。他の人はたぶん使っている。多機能というのは、いろんな人の需要に対応できるということなのです。
ほしい機能がないなら拡張すればいい
逆にほぼ何も機能がないソフトは、シンプルで簡単と思いきや、シンプルすぎて逆に難しかったりもします。Sinsyとか楽譜を打ち込む機能すら持ち合わせていないので。
ほしい機能がないなら拡張すればいいんです。例えば
・打ち込みツール
各種歌声合成ソフト、MuseScore、Finale、Cadencii、DAW、RenoidPlayerなど
・ピッチ編集ツール
VocalShifter、WAVES TUNE、Auto-Tune、Melodyne、DAW付属のピッチ編集ツール(ABILITYとか)
・タイミング編集ツール
VocalShifter、Auto-Tuneなど
・グロウル
VocalScreamer、手作業
・パワー系パラメーター
EQプリセット、エキサイター
・音量編集
DAWオートメーション
・モーフィング
KotonoFader、VocalShifter
・ピッチ転写
VocalShifter、MikuMikuVoice
・倍音編集
EQ、エキサイター、WAVES Vitamin、VocalShifter、ピッチ追従型EQ(Nectarとか)、ひずみ系VSTe
・ジェンダー
フォルマントシフト系VSTe、VocalShifter
こんな感じ。歌声合成ソフトなんて書きだしちゃえば全部音声波形なんだから、あとの編集作業は全部一緒。これらのツールを必要に応じて適用してやれば、VOCALOID4くらいの機能は一通り網羅できる。
スポンサーサイト
くろ州の合成音声備忘録
スペクトログラムというのは、音声のスペクトルに時間軸付け足してビジュアライズしたものです。これを見ると合成音声の性質がちょっと見えてくるぞ。
・人間の生声
これはUTAUの原音ですね。綺麗。
・VOCALOID
結構人に近い気もする。ピッチの整ってる感は人工な感じ。
・UTAU
かなり息成分が出ている。子音も見やすい。UTAUは全体的に息成分が生きやすい気がする。ちなみにエンジンはfresamp14。
・CeVIO
超低音域が結構出ている。ONEの特徴かと思いきや、CeVIOは大体この100Hz以下の低音が強め。
拡大してみると、息成分がだいぶ整っていることが分かる。
・VOICEROID(歌ボ)
息成分少な目。子音は明瞭。子音以外にたまに入っている縦線は歌ボ特有の「-伸ばし」によるもの。
・Sinsy
Sinsyも息成分が少なめ。案外高音域が弱め。
Sinsyのスペクトログラムはかなり特殊な感じ。息成分に「X」のような模様がよく出る。これのせいというわけじゃないだろうが、息成分だけ取り出すと結構ゴワゴワした音であることが分かる。
・SynthV
低音も含め息成分がまんべんなくしっかりと出ている。
・Alter/Ego
息成分あまりなし。高音はあんまり出てない。
・Aquestone(無印)
中域・中高域の息成分が案外ある。高音はさっぱり出てない。子音以外の縦線はシンセでいうところのアタック部分。
・LaLaSong
高音域は足りてないながらも結構健闘している。基本周波数と低めの倍音当たりの幅がなぜか広い。
・MUTA
システムやUIはCeVIOに似ているけど、音は別に似ていない。
・OpenUTAU
UTAUと同様、息成分がだいぶ正しく出ている感じ。
・Sharpkey
息成分はあんまりない。
くろ州の合成音声備忘録
この記事では、私がSinsy(f00005j)を調声する過程を事細かに記録していきます。作業を進めるたびに更新していくので、最初のうちは分量少ないし、何回も更新かかるしで見るのめんどいかと思いますが、見たい場合は頑張ってください。
【1.打ち込んで仮MIXまで】
・打ち込みます
CeVIOでベースとなるシーケンスを組み立てます。基本的にベタ打ちですが、歌詞コントロールに細かいテクニックがあります。
仮歌ボーカリスト
ONEと歌い方が近いので、打ち込みではONEを使います。ささらさんは結構違うのでイメージが離れやすい。
「’」と「っ」と「ー」
Sinsyでは「’」と「っ」と「ー」が使えるので必要に応じて使いまくります。Sinsyの「’」は母音脱落。「っ」は破裂音の前でだけ使います。歯擦音や摩擦音の類は「っ」ではなくてVocalShifterのTMGで伸ばすので、ここではスルー。鼻音はVSで引き延ばすとやぼったくなってしまうので、直前に「ん」を長めに入れておいて、あとで必要に応じて短くします。
母音を母音で分割するのと「ー」で分割するのとは一応使い分けます。f00005jの場合、この二つにはそこまで差がないですが、母音が連続するときでもあんまり言い直さない歌い方をするので、大体母音で分割していいです。気になったら「ー」で生成しなおす。
「ー」分割は、長めのしゃくりあげやフォールをするときに使います。基本的にVSやWAVES TUNEといったピッチ系ツールで調声するので、派手にいじると音声の劣化が目立ってしまう。長めのしゃくりがある場合は、初めからVOCALOIDと同じように「ー」分割してしゃくりを作っておいた方が劣化が抑えられる。
スラーとブレス
スラーもブレスも使えます。スラーは使えてもほぼ効かないので気休め程度に。「ー」を使うときに一つ前のノートとまとめてスラーを掛けたり、鼻音を伸ばすときに直前の「ん」とまとめてスラーを掛けたり、二重母音を作りたいときに使います。
ブレスは音量が小さいので、息を吸ってる音を出したいときというより、細かい無音を作りたいときに使います。声紋閉鎖(のど切り)をやりたいときに使えたりします。
語尾息
VOCALOID的に考えて「あは’=ah」という風にしても語尾息は作れますが、あんまり音質が良くないので、ノートをちょっとだけ伸ばして放置します。これは、あとで囁き化ツールを使って語尾息を作るため。
・Sinsyページにアップロード
XML書き出し
CeVIOでXML書き出し。特に注意点ナシ。
ボーカル設定
私のお気に入りはf00005jで、声質が0.50です。ピッチシフトは、発音が気に入らなかったときに-2キーとかにして発音が変わるか試すときに使う。気に入った発音になったらピッチシフトして使う。
XMLをUP&ダウンロード
XMLを指定して送信ボタンを押せば、サーバー側で合成が始まる。出来上がったら「wav」リンクを右クリックして「名前を付けて保存」でダウンロードする。
・仮MIX
私はここで簡単にMIXします。で、発音や音程が気に入らないところを探す。相性のいい曲だと、この時点でもう大体完成で良くね? ってなる。
【今日はここまで】
結構考えることありますな。この後は
・KotonoFaderでクロスシンセシス(二重母音作ったり)
・VSでタイミング調声(促音作ったり)
・ToWhisperでブレシネス調声(語尾息作ったり)
・DAW、UTAUでパワー調声(裏声や力み作ったり)
・WAVES TUNEでピッチ調声
・DAWでボリューム調整、ジェンダー調声、グロウル調声
という順で、歌声合成に関する知識と経験とツールを全力で投入していきます。
くろ州の合成音声備忘録
皆さんの好きな歌声合成ソフトは何ですか? その歌声合成ソフトでピッチを描くとき、どうやって書きます?
ピッチの描き方には結構好みが出るので、ソフトによって好き嫌いが激しく分かれます。個人的には、「歌声合成ソフトの使いやすさ」はほぼピッチで決まると思っている。
好みが出るということは、普段使っているソフトと似た操作方法のソフトは手になじみやすく、似てないソフトはなじみにくい可能性が高いということでもある。今回は大体3系統に分けてみようと思います。ちなみに複数カテゴリーにまたがるソフトもある。
【タイプV】
VOCALOIDのようなMIDIっぽい書き方をするもの。ピッチカーブを直接いじることはできず、ノートごとにピッチベンドをいじって間接的にピッチを描いていく方式。ピッチベンドを使う以外に、複数のノートを組み合わせてピッチをコントロールする「ノート分割」を使うことも多い。
VOCALOID、Alter/Ego、Aquetone、Cadencii、ディレイラマ、NIAONIAO、PiaproStudio、Renoid、SynthVなど
ピッチベンドがなく、ノート分割のみでピッチをコントロールするものもこのカテゴリーの内部グループかも。
EmVoice、SugarCapeなど
【タイプU】
UTAUのような制御点を打ってピッチをコントロールするもの。調声スピードは出しにくいが、最も綺麗なピッチカーブが描ける。基本的にはUTAUとUTAUリスペクトの歌声合成ソフトのみが対応している。
UTAU、OpenUTAU、UTSUなど
【タイプC】
CeVIOのようなピッチカーブを直接手描きするもの。感覚的にピッチが描けて、大分自由度が高いが、タイプUの人は特に苦手意識を持ちやすい。マウス操作との相性が悪い。まずもってノート分割はしない。
CeVIO、MUTA、Nakloid、なめうぇーぶ、NIAONIAO、Sharpkey、・SynthVなど
調声機能を持たないため、ピッチ調声をVocalShifterなどでやる場合、VSがピッチ手描き系なので、このカテゴリーの下位カテゴリーとしよう。すべての歌声合成でVSは使えるので全部入るといえなくもない。
LaLaSong、MikoVoice、Sinsy、歌うボイスロイドなど
くろ州の合成音声備忘録
Twitterで「全部まとめとる奴おらんな?」みたいなトークを見かけたので「おっしゃやったろうこのやろう」と思って書きました。30選とは書いたけど数字はテキトー。
・VOCALOID3、4
めっちゃ普通の歌声合成ソフト。標準的すぎてどう表現すればいいのか悩む。キャラクター歌声合成に限っていえば、ユーザー数と知名度はおそらく世界最多。音源数もだいぶ多い。
・VOCALOID5
最新版VOCALOID。ワンクリックでしゃくりが作れたりするので省エネ調声向き。これまでのVOCALOIDと比べてプロDTMERむけっぽさがすごい。V4慣れしてるとこれじゃない感する。
・VOCALOID SDK for Unity
ゲームとかに組み込む用VOCALOID。使える音源は「ランタイム版Unity-chan!」。しばらく無料配布されていたが、正式にはもう配布されてない。
・Mobile VOCALOID Editor
iOS上で動くVOCALOID。本体も安いし音源も安いのでiPhoneとかiPad持っている場合は結構おすすめ。ただ、iPhoneは画面がちっさすぎるのでiPad推奨。
・UTAU
自分で音声ライブラリを作れる歌声合成筆頭。多様性がすごすぎて一言では言い表せない。一言で言うなら「多様性の塊」。世界で最も音声ライブラリが多いソフト。2位との差は数千個。
・CeVIO
ベタ打ちでもそこそこいいカンジで歌うので初心者向けなソフト。歌声合成ソフトの中でも最も音素の長さを細かくいじれる。音源によってはしゃべれる。
・Alter/Ego
DAW上で動くプラグインタイプの歌声合成。英語音源が多いが、日本語も歌えるし、フランス語音源もある。実は歌声合成ソフトの中でも最も声質パラメーターが多いものだったりする。たぶん。
・Aquestone
プラグインタイプの歌声合成。MIDIキーボードを使ってリアルタイムに歌わせるのに特化している。こういう原始的な歌声合成ソフトを本気でいじり倒して神調教を施すのが最強に楽しい。
・Aquestone2
Aquestoneの2号機。声はだいぶ違うし、よりシンセサイザーらしい機能が増えている。かなり楽器寄りのソフトなので、デチューンが搭載されてたりポリフォニックに対応してたりする。
・Cadencii
汎用歌声合成エディター。これ自体はあくまでエディターなので、エンジンや音源を入れないと何にもならない。Aquestone、Aquestone2、VOCALOID2、UTAU等いろんな歌声合成が使える。
・DeepVocal
したーのほうにあるSharpkeyの後身。機能は減ってしまっているが、音源制作ソフトとセットで放出されているので、アグレッシブUTAU音源制作ピープルの餌食になっている。
・ディレイラマ
プラグインタイプの歌声合成ソフト。母音しか歌えない。使い方によって毒にも薬にもなる。オランダ製。歌わせているとGUIの僧侶が微妙に動く。めっちゃうざい顔する。
・EmVoice
プラグインタイプの歌声合成。英語の発音があまりにも良すぎる。透き通る神秘的な声。声はすごく良いが、操作性が息していない。操作性はアレだが、なんにしても声がいい。
・HANAUTAU
歌声合成? リアルタイム特化型歌声合成ソフト。ピッチ調声は自分の喉で行う。歌声をマイクで拾い、ピッチを抽出。それを音源に適用して歌わせる難しい奴。
・LaLaSong
東芝の古いソフト。世にも珍しい五線譜で入力するタイプ。発音タイミングは若干危ういが、若干なのでマシ。30くらい触ってればかわいいほう。調声はVocalShifterやWAVES TUNEでやる。
・MikoVoice
トークもできる歌声合成ソフト。世にも珍しい文字で入力するタイプ。古も古のMIDIシーケンス手打ち文化圏。その時代のソフトというわけではない。基本アプリに組み込む形で使う。
・MUTA
中国のCeVIOっぽいソフト。ちょっと前まではしゃべる機能付いてた。ピッチカーブがほかのソフトと違う位置に描画されるのでちょっと混乱する。エディターの色がエグイ。
・My MidiVocalist
2000年より前からある歌声合成ソフト。MIDI読み込みでオケを鳴らすこともできるし、音源制作もできる。ただしフォルマントフィルターがないので超多音階音源にしないといけない。
・Nakloid
UTAU音源を読み込める歌声合成。基本はUTAUのようなソフトで、出音が結構硬い。ちなみに「元に戻す」がないので超がんばって。打ち込みは基本UTAUでやってUSTを読み込んだほうがいい。
・なめうぇーぶ
人力用歌声合成ソフト。UTAU音源も読み込めるが、WAVEファイル群から音素を切り出しまくる機能もある。MIDIキーボードを使えば、おそらく世界で最も高速でベタ打ちができるソフト。
・NIAONIAO
中国のUTAUっぽいソフト。GUIが超オレンジ。「人声模倣」というすごい機能があるが、私も含めあまり知られていない。今知ったナニコレやばくね? たぶん録音した音声からピッチ録れる。
・OpenUTAU
UTAU音源が読み込めるソフト。GUIがPOPでカワイイ。複数トラック作れるしオケの同時再生もできる。操作性もいいし音も普通にいいけど、再生ボタンを押すと98%くらいの確率で落ちる。
・PiaproStudio
クリプトン製のVOCALOIDに付属している歌声合成ソフト。プラグインタイプ。VOCALOID Editorと比べるときれいにパラメーターを描けるので気分がいい。
・PiaproStudioStandalone
初音ミクV4Cを買うと付いてくる歌声合成ソフト。PiaproStudioの単独起動版。機能も大体同じ。PiaproStudioは好きだけどDAWを立ち上げるのはめんどい人向けかと思いきやV4Cしか使えない。
・RenoidPlayer
ブラウザで動く珍しい歌声合成。基本的にはUTAU単独音みたいな出音。ブラウザで動くので、PCでもMacでもスマホでも余裕で動く。スマホ普及時代にこういうSaaSっぽいのは期待できる。
・SF2Renoid
オフラインでも動く歌声合成。と思いきや実はSF2Renoidは歌声合成ではなく、RenoidPlayerで使える音源のこと。RenoidPlayerがなくてもDAW+ピッチシフト系エフェクトで歌わせられる。
・Sharpkey
中国の歌声合成ソフト。公式配布はもう終わった。世界で唯一別々の母音間でモーフィングができる。VOCALOIDっぽさとUTAUっぽさとCeVIOっぽさとオリジナル成分でできている。
・Sinsy
ブラウザで動く珍しい歌声合成。CeVIOと同じ技術でできているが無料で使える。ノートの打ち込み機能も調声機能も一切ないけど、VocalShifterやWAVES TUNEが使えるので何も問題ない。
・SugarCape
Mac専用歌声合成ソフト。なんだかんだMac専用アプリってないのでこれも珍しい。UTAU同様に自作音源を読み込んで使える。開発者の解説動画が面白いというどうでもいい情報。
・SaltCase
SugarCapeの後身ソフト。後進だが、割と早い段階で開発が止まっているので、現状SugarCapeのほうが機能が多く安定しているような印象。調声できなくはないが外部ソフト使うと楽。
・SynthV
英語のクオリティーめちゃ高い歌声合成。最近は商業中国語音源が量産されておる。それももうそろそろ出し尽くした感があるので、次はどんな展開になるのか読めない。
・歌うボイスロイド
歌わないVOICEROIDをなんやかんやで無理やり歌わせたものを「歌うボイスロイド」という。手作業で気の遠くなる作業をしないといけないが、支援ソフトで50倍くらい作業が楽になる。
・UTSU
UTAUのようなソフト。基本的な機能はUTAUにほぼ準拠している。単独音形式の歌詞入力でも自動で連続音に対応できたりする。音源制作機能がある。対応言語がやたら多い。
・VOCALINA
韓国の歌声合成ソフト。VOCALOID4をのぞいて唯一外部エフェクトを読み込めるソフト。珍しいサブスクリプション形式の有料音源がある。専用でもないが動画投稿プラットフォームがある。