そもそも発想としてGitHubで「UTAU」を検索するというのがなかったわけですが、探してみたら「OpenUTAU」というのを見つけました。見てみたらいいカンジだったのでまとめてみます。
複数トラック行けて、オーディオも同時再生可能。
— くろ州=歌声合成ライター (@96s_kM4osM) 2018年6月30日
ただし割と落ちる。実装は結構済んでないらしくて、ボタンはあるけど効かないとかは結構ある。 pic.twitter.com/qK2oD28QA1
音源は私が権利を持っている会長ロイドです。
【概要】
中国で結構前からマイペ~スに開発されていたらしい。まだα版で、見た目は一通りそろってるけど実装はされてないボタンとかそこそこある。そしてかなり落ちる(個人的には許容範囲だった)。
【入手経路と導入】
こちらのページからうまいこと落としましょう。落としたZIPを開くと中にSLNファイルがあるのでVisualStudioで開いてビルドしてEXE作れば起動できます。
プログラマなら普通にできるけど、VisualStudio触らない人には厳しい。エラーは数にすんなりとビルドされてくれました。
【機能】
・GUI
POPな感じのGUIです。カラーはクリアとダークが選べますが、ダークにしても変わりません。メニューは英語。
見るとわかるように一般的なDAWのような形式になっていて、複数トラック・BGMの同時再生が可能です。
音量フェーダーは効きますが、パンとミュート・ソロは効きません。
かつ、最初へ戻るボタンも効きません。
ちなみにこの辺もバグってて1小節ずれて再生されたりします。
MIDIトラックのほうをダブルクリックするとエディット画面が出てきます。
これもまたPOPな感じの画面ですが「UTAUで見た!」って感じですね。
フリーハンドでピッチを描くことはできないですが、「ADD POINT」で制御点を増やしていってピッチを作っていきます。
音程の遷移は
・EaseIN/OUT(UTAUのS形っぽい)
・EaseIN(UTAUのJ形っぽい)
・EaseOUT
・Linear(直線)
から選べます。ショートカット欲しい。
中段に映ってるのはUTAUでいうところのエンベロープで、下段に映ってるのはパラメーターです。
・VEL:UTAUでいうところの子音速度。エンベロープが連動してリアルタイムにウニウニ動く
・VOL:音量。かなり効きがいいので一気に音量が変わる
・GEN:gフラグのようなもの。実装されてないのか聞いた感じ変わらない
・LPF:ローパスフィルター
・HPF:ハイパスフィルター
・ACC:アクセント。エンベロープの子音部分を上下できます
・DEC:ディケイ。伸縮部分の音量を右肩上がりにしたり右肩下がりにしたりできる
エディット画面から再生することができず、一回トラック画面のほうに戻らないといけないのはちょっと残念。
歌詞打ち込みは全部ノートを毎回ダブルクリックしてやります。連続音もCVVCも手打ち。
・設定
パスの項目でUTAUのVoiceフォルダを読み込むと一気に全部選択可能になります。UTAU音源をそのまま使うことができるわけですね。
プライバックの項目では再生ドライバを指定できますが、WASAPI/DS/ASIOとかそういうざっくりした感じです。が、たぶんほとんどの音源は再生することができずに落ちると思います。
レンダリングの項目では合成エンジンの選択ができることになっています。ここまでスルーしてきましたが、デフォルトだとどうしても落ちるっぽいので本体EXEのある場所の「Resamplers」フォルダにUTAUのエンジンをとりあえず入れるだけ入れておいて、設定画面でエクスターナルのほうにチェックを入れます。
すると、その設定ガン無視でインターナルのエンジンで合成してくれます。たぶんバグ。
音自体は結構好き(主観)
・ファイル読み込み
独自規格のUSTXに加えてVOCALOIDのVSQX(読み込みはできるが再生はうまくいかない)とかUST(ANSI)/UST(UTF-8)/UST(GB2312)/UST(Shift-JIS)などやたらにUSTに対応している。
音声はWAV/MP3の読み込みが可能。
ここまで来てぶっちゃけると、ゼロから打ち込むと(私の環境では)うまく歌わなくて、読み込んだUSTだったら行けたとかある。
【まとめ】
音もUIもいいカンジだけど致命的に落ちるので使えない音源はほぼ全く使えないです。運良く使えたらかなりいい。
スポンサーサイト
くろ州の合成音声備忘録
前回に引き続き秋PさんにインタビューしてUTAU無生物音源記事書きました。今回は使い方と作り方。
【使い方基礎 ※くろ州】
基本的に、プロパティーから「No Formant Filter」にチェックを入れて使います。チェック外したほうがいい音源もあるので、いいカンジになるほうにすればOK・エンジン
無生物音源はエンジンによって声がまったく変わってきます。通常音源以上にエンジンを変えていろいろ実験してみるのが良いでしょう。秋Pさんのおすすめは「resampler5」。No Formant Filterとの相性が抜群だそうです。
通常音源でもfresampのver11とver14で声が違うとかありますが、無生物ではresamplerのバージョンでも声が違うらしいです。
で、旧式のresamplerはどこで手に入るのか? 実はUTAU互助会wikiにも載ってないのでほぼ誰も見つけられないのですが、ここにあります。
http://utau2008.xrea.jp/oldversions.html
これはなかなか見つけられなさそう。今回の記事の最重要ポイントの一つですこれ。
・プラグイン
「歌詞を母音化」プラグインや「僕の考えた最強のry」があると既存のUSTを使いまわすことができるようです。
無生物音源はエイリアスが母音のみになっているのでこれらで歌詞を母音のみにしてやる。
※余談
最新のResamplerで規制音シンゴにwフラグをかけて再生するとサイン波がバリッバリののこぎり派になるとのこと。「えっ、シンゴ!? お前……誰やねん!!」ってくらいには別人になるので試してみてください。
・通常音源と考える
通常音源に使えそうな無生物的アプローチとしてWフラグかける、逆再生、グリッチ、スロー再生風にするNo Formant Filter、ひずみサウンド、重音テト楽団(検索してみてね)声は楽器シリーズなどいろいろ。無生物音源をバックにして通常音源と絡ませたり、デュエットさせるというのも。
【音源制作】
・録音
録音対象が無限に存在するので録り方も多様。マイクをセッティングして録音するのもありだが、ボイスレコーダーはもっておいたほうがいい。機動性が違う。スマホの登場により録れる音源の種類や数が大幅にUPした面もある。君のスマホやPCにも何かしら眠ってるんだろう?
・原音設定
これに関してはとても情報が少ない。今回聞いてみて最も簡潔で最もわかりやすい答えが出ました。
秋Pさん「伸ばしたいところがどこかを考える」
伸ばしたいところを伸縮範囲にして、あとは固定。伸ばしたくないなら固定範囲にすべて入れてしまう。
ちなみにエイリアスは「あ、い、う、え、お、ん」にしておくと母音化プラグインで既存USTを使いまわせます。・キャラは必要か
あったらうれしいけどなくても使うしたぶん誰かが二次創作して書いてくれるだろうからあんまり気にせずに配布してもらっていいとのこと。人気音源「柚子音ぽん」にはキャラがあるけど、同じく人気音源物音サシにはキャラがないので要するにそういうこと。
そろそろ無生物の声が聞こえてきたんじゃないだろうか。
・いろんな無生物
子音が人間で母音が無生物なキメラ音源、原音を母音っぽい音に加工するエフェクター「Vocalizer」を使ったものもなんでもあり、あれがいけるならこれも行けるという勢い。
【これからの普及に向けて】
「無生物は今はまだ草をはやされる存在であって、それはそれでいいので広まってほしい。それで人をつかんでガチ作品で殴る」
無生物音源ってつかみばっちりで面白いんですよね。でも、ネタだけじゃなくて、コンピCDを聞いてみてもわかるように無生物音源ってスゲーかっこいいんですよね。
秋Pさんは海外勢もっとにアプローチかけたいご様子。言語の壁もないし面白い音源も録れそうですね。
「もっといろんなアプローチで作品を作ってもっと知ってもらう」
「投稿祭で広く知ってもらう」
「広報・エゴサ・いざない・頭のチャンネルを合わせる。確保。洗脳? 回収? 意識改変!」
「もっといろんなアプローチで作品を作ってもっと知ってもらう」
「投稿祭で広く知ってもらう」
「広報・エゴサ・いざない・頭のチャンネルを合わせる。確保。洗脳? 回収? 意識改変!」
あまたのアプローチで仕掛けてきますよこのお方! 今後にも期待ですね!
くろ州の合成音声備忘録
今回は”無生物過激派”こと”秋刀魚@秋P”さんにインタビューを行いまして、UTAUの中でも異彩を放っている「UTAU無生物音源」についてのお話を聞きまくってきました。
今回の記事は2回シリーズで、第1回は文化面強め。
【UTAU無生物とは】
人間の歌声・話声によらないUTAU音源です。とはいえこれも定義としては微妙。「鈍歌フィヨードッ」とかとかいるので
じゃあどこまで無生物でどこまでが通常音源なのかというと、結論としては
秋Pさん「無生物の定義は”あなたの心の中に”」
楽器だったりノイズだったり、ボイスパーカッションだったり星だったり本当に何でもありです。
最近は更新が止まってしまっていて秋PさんのVoiceフォルダのほうが網羅率高いということらしいですが、無生物Wikiがあっていくらかここにまとまっています。
インタビュー中「無生物じゃない音源」のスマートな言い方がわからなかったので聞いてみたところ、秋Pさんは「通常音源」という言い方をしているとのこと。「無生物がUTAUのメインストーリムだとはさすがに思ってない」という意味の呼び方だそうです。
【無生物音源の魅力】
・ピッチのいじりやすさ
楽器音源でもシンセ音源でもなんでも、一般的なDTM用音源と比べたときに圧倒的にピッチが書きやすい。視覚的だし自由度高い。
・管楽器との相性がいい
これはくろ州の感想。DTM用音源と比べたときにこれが一番強いので、作曲の面でも普通に無生物使いたい場面は結構多い。
・音なら何でも無生物になる
ほんとに音なら何でもいいんです。「マーシャルのアンプにPCからクリップ音流した音」でも音源になる。ポテトチップスを食べる音でもギャルのヒールの音でもいい。とにかく楽しみ方が広大なのです。
・バックとボーカル行ったり来たり出来るの面白い
楽器音源なんかでは、場面によってはBGMに引っ込み、また別の場面ではメインのリードボーカルになれるという無生物にしかない音楽表現がある。現代音楽的にも楽しい。
・楽
調声に凝らなくていい分リソースをほかに避ける。考える余裕ができる。音量ブレでクロスフェード最適化とか考えなくていい。逆に人間的こだわりアプローチのこのカバーはT-SQUAREみたいでこれもかっこいい。めちゃくちゃアツい。こういう幅広さも無生物の魅力。
ちなみに秋Pさんの口癖は「世界が歌に包まれてるなぁ」
【文化】
・よくつくタグ
「人類には早すぎる動画」というタグ。かの有名なこの動画にもついてます。
秋Pさん「むしろお前らが遅すぎる」
・つけられると微妙なコメント
個人差もあるでしょうが、「UTAUじゃなくていいのでは」「サウンドフォントでいいのでは」あたりはむっとされるとのこと。それ以外は大体OK。
・MMD
実はUTAU全体を見てもこれだけオリジナルのMMDモデルが出ている分野はないというくらいに、無生物クラスタはMMDが活発です。造形が簡単だからなのかMMDモデルにも恵まれるしイラスト描きやすいしで動画を作りやすいというのは結構な利点。
最近一気に増えましたね。無生物MMDモデル。
・無生物音楽祭
年に一回開催される無生物音源作品を投稿しまくる週間です。今年は11月3日からの1週間の予定だそうで。一大イベント。秋Pさんの誕生日に無生物音源動画があふれるように仕組まれているらしい……
・HANASU
無生物音源もHANASUあるらしいですよ。めっちゃほのぼのします。かわいい。HANASUする人ならわかる。イントネーションもしっかりついてるし、表情も豊か。
次回は音源の使い方と作り方をまとめていきます。
くろ州の合成音声備忘録
UTAUの日本語音源収録リストってよくよく考えるとひらがなで記述されてますよね。もちろん日本語人向けの日本語だからなんですが、日本語音源を作るのは日本語人だけじゃないんですね。
日本語じゃないOSで日本語音源を収録したときのポイントは
・収録リストが正しく開けない(文字化け)
・収録リストが読めない(言語)
・収録した原音のラベルが正しく表示できない(文字化け)
海外で使える日本語音源収録リストを考えるときにこの辺は注意したいです。
ものすごくざっくりした答えを出すなら、リストをローマ字化してしまえば大体OKです。文字化けしないしローマ字式に読める。
日本語じゃないOSで日本語音源を収録したときのポイントは
・収録リストが正しく開けない(文字化け)
・収録リストが読めない(言語)
・収録した原音のラベルが正しく表示できない(文字化け)
海外で使える日本語音源収録リストを考えるときにこの辺は注意したいです。
ものすごくざっくりした答えを出すなら、リストをローマ字化してしまえば大体OKです。文字化けしないしローマ字式に読める。
ただこれをやると新たな問題が出てきます。
以下目次
・大文字にするか小文字にするか
・拗音行のい段は「Ki」か「Kyi」か
・「ん」の扱い
くろ州の合成音声備忘録
UTAU音源というと古来より宅録(自室で録音)が一般的かと思われます。それゆえ音楽用の空間ではない部屋において「いかにいい音を録るか」という技術論が飛び交うわけです。
でも今回は収録用のスタジオを借りてUTAU音源収録をやってみました。
以下目次(スタジオは関西にある)
・概要:場所と金額(810円/hとかなり安い)
・機材:借りれるものと持ち込むもの
・セッティング:機材の使い方
・気づき:忘れやすいことや注意したほうが良いこと。割と失敗する。
くろ州の合成音声備忘録
UTAU音源制作初心者がマイクについてツイートすると、UTAU界隈のあちらこちらでマイク解説がたくさん立ちます。ちなみに初心者がつぶやかなくてもたまに立ちます。
というのはよくあることで私も何回か見ました。
ちょっとまとめてみたくなったので簡単に記事にします。
【接続方法】
マイクとパソコンは直につなげないと思います。つながるマイクはUTAU音源収録に向かない可能性高そう(予感)
では、どうつなげるかというと
マイク→オーディオインターフェース→PC
ですね。間にコネクタ(接続ポート)を挟みます。これがないとつながらない。
【オーディオインターフェース】
もちろん、コネクタというのはオーディオインターフェース(以下AIF)の機能の一つであって、ほかにもいろいろ機能があるのです。
パソコンは基本的に音楽用機器ではないので(Macは音楽用も視野に入れてるっぽいけど)、基本音声を扱うのは苦手。
なので、専門機器AIFに音声処理を任せてしまえば、クオリティー(音質とか)高く、PCへの負荷も少なくできる。
パソコンわかる人向けに言うなら「外付けのサウンドカード」みたいな。
ともかく、これを買わないことにはまともなマイクがつなげないので買うわけです。
究極雑に選び方を教えましょう。
1.仕様を確認して「48V」か「ファンタム」って書いてあればOK
2.製品の写真を見て「∵」こんな見た目の穴が開いてればOK(マイクケーブルつなぐところ)
もしくは「コンボジャック」とか言ってればOK
3.使ってるパソコンの種類に対応してるって言ってればOK
4.7千円くらい以上ならいいんじゃないですか(たぶん)
5.bitとかkHzとかは数字大きめのやつで
雑でもない。
【マイク】
マイクは大きく2種類。
ダイナミック
ライブとかでよく見るやつ
ノイズは載りにくい(ひどけりゃのる)
パワー系の声向き(でもこれは好み)
お安め(ピンキリ)
乱暴に扱っても多少大丈夫(やめてね)
コンデンサ
声優さんの収録現場とかでよく見るやつ
音取れすぎてちょっと恥ずかしい
ノイズはその分のりやすい
息っぽい声向き(好みだ)
お高め(ピンキリ)
湿度に厳しい
お好みで。
【マイクケーブル】
正直音質が変わるとかはわかる耳を持ってないですが、サウンドハウス(音楽系の特に問題ない安い通販サイト)とかで「CANARE マイクケーブル」「BELDEN マイクケーブル」検索して出てくるやつは軽音とかそこら辺の練習スタジオでもよく見るやつなのでたぶん安心だと思うんですよね。オーディオマニアではないので詳しいことはわからないですが。
【マイクスタンド】
座って収録するんであれば卓上スタンドでもいいと思いますが、ノイズは載りやすいかも。
立って収録するなら「標準ブームスタンド」でいいと思います。私はベットに寝ながらでも収録できるようにしてたりします。それはそれとして、脚の部分が骨だらけで難しい感じになってるやつのほうがヘタりにくいです。3本脚がピっと出てるだけのやつはよくヘタってるの見る。
【オプション】
・ポップガード
ニチャニチャ言ったりボフボフ言うノイズを抑えてくれるぞ!
割とほしい。ファ行がボフボフ言う人は必須
・リフレクションフィルター
いらん残響を抑えてくれるぞ!
玄人は欲しがる。Dryな音をとりたいときに
※マイクケーブルとスタンドは当然持ってると思っている
くろ州の合成音声備忘録
世の中には様々な話声合成ソフトが存在します。VOICEROIDだったりCeVIOだったり。これらは操作方法も大体に通っているんですが、今回触ってみたMegpoidTalkは結構異質。アプローチが大きく違いました。
体験版3日しか動かないのでインストールは計画的に。
【基本操作】
基本的には、文字を打ち込めば何となくしゃべってくれます。ここはほかの話声合成と大差ない。
発話スピードや声の高さはあらかじめ設定ウィンドウで大まかに決めておくことが可能です。
設定できる項目はVOICEROIDと似たような感じ。
発話させる中でスピードやピッチを随時変更するときは記号を使います。
<高さ>音声の高さ
<速さ>音声の速さ
<音質>なんか劣化します。声質とは違う
<抑揚>音声の抑揚
ちょっと差があるのはExVoice的な音声の使い方。
VOICEROIDには、発話とは別に咳だったり掛け声だったり、エディターで作るのは無理あるような音声が別途音声ファイルとして付属していたりします。
そういう音声は発話した音声と後々AviUtlだったりDAW上でぺたぺたしながら音声を作っていきますが、MegpoidTalkはソフト内部で処理しちゃいます。
↑を再生するとこうなる
セリフを書き込むゾーンに直接<くしゃみ>と打ち込むことで、くしゃみの音声が発話されます。
結果としては普通にくしゃみのサンプル音声が再生されます。タイミングはかるのムズイ。
ちなみに<定型音14>で規制音(ピー音)が鳴ります。
【ピッチ・タイミング編集】
これがMegpoidTalkの大きな特徴。よくある話声合成ソフトのアクセント編集機能はこんな感じ
丸い点を上下させて音の高さをいじります。
対してMegpoidTalkは
ピアノロールにノートが打ち込まれています。明らかにDTMERというかVOCALOIDユーザー向けな設計といった感じ。
このノートを上下左右にD&Dすることでトークを調声していきます。
時間軸でスナップしてくれないのすごく不安感ある……(スナップする意味ないけど)
細くピッチカーブが表示されていますが、これも一応手書きで修正することが可能です。
これで鍛えればトクロとかHANASUがうまくなりそう
【VSQX書き出し】
MegpoidTalkにはここで作ったデータをVSQXにして書き出す機能があります。
書き出したVSQXにほかのVOCALOIDあてればほかのキャラを簡単にしゃべらせることが可能だという算段ですね。
書き出し方にはいくつか種類があります
1.ピッチに合わせたノート&PIT を書き出す
2.一定の音程のノート&PIT を書き出す
1.の場合はこんな感じ
VOCALOIDをやってる方ならわかるでしょうが、ピッチが破綻します。直すのめんどい。
2.の場合はこんな感じ
こっちならピッチの破綻なく編集ができます。PBSが12固定になっているのでいじりにくい人もいるかも。
ピッチのほかに、うまく発音できていないノートの発音記号を修正したり、MegpoidTalk本体のほうでは無声化されるけどVOCALOIDに持ち込むと無声化されないノートの無声化をしたり、ちょっと修正が必要。
【音声トレース機能】
このソフト、マイクからの音声やWAVEファイルから音声を認識してトレースする機能があります。
1.文字は自分で入力する
2.マイクで録音する OR WAVを読み込む
3.画面上に解析結果が出る
という流れ。
試しにボイロとCeVIOをしゃべらせたものを読み込んでみたら何となく似た感じになりました。
ちなみに歌を読み込ませた結果はボロボロだった。
くろ州の合成音声備忘録
私がずっとすごいすごい言ってる割に日本ではやっぱりユーザーがあんまり増えないSharpkeyですが、思うに日本でのお楽しみ企画が足りないんじゃないかと。
やはりネックは「日本語対応してない」ってところだと思うので「日本語でボカロ曲とかカバーする祭」りがあっていいんじゃないかと思ったわけです。
【概要】
内容:みんなでSharpkeyを使って日本語でボカロカバーを投稿して遊ぶ
別にボカロオリジナルでなくてもUTAUオリジナルでもCeVIOオリジナルでもSharpkeyオリジナルでも可
時期:6月24日(日)~6月30日(土)
【参加方法】
1.Sharpkeyで何かしらのボカロカバー曲を作成
2.Niconico、MQube、クレーフーガにタグ「Sharpkey日文投稿祭」をつけて投稿
だけ
【放送】
投稿しっぱなしでは面白みに欠けるので、交流の意味も含め投稿された動画や音声は後日ツイキャスやらなにやらでタグ巡回の放送をしようかと思います。
【日本語で歌わせる方法】
日本語で歌わせる方法は一通りこのブログで解説しきったのでこちらを参考にしながら調声していけば何となくできると思います。