自分が今持ってる機材を自慢したいだけ。
マイク:ゼンハイザー e835
ダイナミックマイク。音質は普通に良くて音を拾い過ぎないのがGood。1万円を切るリーズナブルなお値段感。スイートスポットが結構狭い感じする。
モニターヘッドホン:FOSTEX T50RP
セミオープンのヘッドホン。コードが片出しなので邪魔じゃないし、何ならコードを取り外したりできる。ほんとはオープンタイプのモデルが欲しかったけど販売終了したっぽいのでセミオープン。ちょっと音圧低めに聞こえやすい? 長時間のリスニングもつらくない。セミオープンなので音はもれる。収録には向かない。
オーディオインターフェース:YAMAHA AG06
オーディオインターフェース機能付きのミキサー。イオライザーやリバーブを掛けられたりする。楽器を繋いだりデュアルマイクにしたり、DTM作業配信をしたりと大体のことには対応できる。
MIDIキーボード:ローランド A-49
鍵盤が軽すぎない4オクターブ。フルサイズの鍵盤だけどピアノのリアルなタッチがあるわけでもない。ピアノ慣れしてない人にはちょうどいい。
エレピ:YAMAHA RefaceCP
みんな大好きRefaceCP。3オクターブのコンパクトなキーボード。鍵盤は小さいけど弾きにくくない。4種のエレピとクラビコード、トイピアノの音が出せる。エフェクトも搭載していて、コーラス/ディストーション/ワウ/フェイザー/ディレイ/リバーブなどを物理つまみでぐりぐりいじりながら調節できる。リバーブの質が良い。単体でも音が出るけどMIDIキーボードとしても使える。
スポンサーサイト
くろ州の合成音声備忘録
この前、Sharpkeyを作っていたBoxstarさんが「DeepVocal」という歌声合成ソフトを発表しました。一般公開はまだですが、私も先ほど早めに手に入れたのでレビューします。
【DeepVocal】
パターンA Sharpkeyさわったことない人向け DeepVocalは比較的シンプルな作りの歌声合成ソフト。詳しいことはこのSharpkeyの説明ページを見てください。歌声合成ソフト「Sharpkey」大体同じソフトだが、ちょっと重要な機能が減ってたりする。ノートを打ち込んで歌詞を流し込んだら大体歌う。出音は硬め。
音量や息成分のコントロールパラメーターはVOCALOIDやSynthVのパラメーター同様に描ける。ピッチカーブはCeVIOのように直接手描き可能。UTAUのように音素の差し替えができたりもする。
個人的には子音や母音の長さや遷移スピードをグラフィカルにいじれるところがおすすめポイント。CeVIOのTMG機能の荒い版/VOCALOID5の音素引き延ばしみたいな機能。
#HTU_Sharpkey
— くろ州の記事と作品 (@96s_kM4osM) 2018年9月25日
タイミング/Phoneme
子音の長さや母音のアタックリリースをグラフィカルにエディット可能 pic.twitter.com/W4r1lBJZyk
パターンB Sharpkeyユーザー向け
基本的にSharpkeyと同じだが、エディットできる項目は「ボリューム/ピッチ/ブレシネス/タイミング/サンプル」に減っている。パワーとモーフィングが落ちちゃってるのはかなり残念。シーケンスデータの拡張子は「.dv」でSKファイルやVSQXも読み込める。もちろんSharpkeyでDVファイルを読み込むことはできない。
実は一部のSharpkey用音源が利用できる。とりあえず確認できたのは幻晓伊/Kiana/元筱と勇気。稲荷(Inari)と索韻リラはできなかった。
【DeepVocalToolBox】
DeepVocalで使える音声ライブラリを作るツール「DeepVocalToolBox」も試しました。
音声ライブラリの作り方
1.音声を録音します
OREMOで録音すればOK。DeepVocalもおそらくは伸縮範囲(UTAUでいうところの子音固定範囲-右ブランク)が長いほうが好みだと思うので、4モーラくらいのCVVCリストを遅めのBPMのガイドBGMで録音すればいいんだと思われる。この辺はまた触りながらチェックしていく。
2.原音設定します
基本的にはCVVCと似た感じの設定。CVはUTAUでいうところのオーバーラップ/先行発声/子音固定範囲/右ブランクが設定できる。VCはDeepVocalの場合「VX」と表記されるが、オーバーラップと先行発声っぽい何かの2つだけ設定するようになっている。
UTAU音源の自動コンバートはとりあえずできなさそう。エディターはスペクトル表示が綺麗でいいけど、SetParamと比べると、タイミングを耳で聞いて合わせる機能がなかったりしてもろもろ親切ではないので、慣れてもかなり時間かかりそう。波形とスペクトルだけで原音設定できないとちょっと厳しい。
原音設定のメソッドはUTAUと近いような遠いようなという感じ。そもそも設定するポイントの数が違うので何とも言い難い。
「さ(先頭じゃないサ行ア段)」の設定はこう。大体わかる。
「a_s(サ行につながるVX)」の設定はこう。
1.SPはなんとなくわかる。オーバーラップのようだ。2.EPはいったい何をやっているんだ? よくわからないが、とりあえず子音の始まるポイントや子音が終わるポイントに移動させてみたら、合成した時に子音がダブってしまってダメだった。大体CVの1.CPと同じ位置に置いておくのが無難っぽい。
エイリアスは基本ローマ字で命名する。ひらがな命名できた方が何かと便利なので方法を探っているが、今のところ発見できてない。
そんなこんなで原音設定をやっていく。VCVに対応できないのか? という問いに対しては「おそらく不可能ではないが現状正式には対応してないため、すげぇ頭を使って裏技的なことをしないとできない」という答えになる。
3.発音辞書を作る
この音源にはどんな子音があって、どんな母音があるのかを全部記述する。Presamp用の音素設定みたいなもの。余裕があったらそのうちテンプレート作って配布するかも。
4.音源をビルドする
一通り設定が終わったら音源をビルドします。周波数表の作成みたいなことをやってDeepVocalで使えるようにパッケージ化する作業。ボタンを数回ポチポチするだけなので難しくない。
ちなみに、音源制作すると、制作データが入ったDVTBファイルがテキトーに生成される。これがなければ音源編集できないし、これがあれば音源編集できる。つまり、DeepVocal用音源を配布するとき「音源編集を許すならDVTBを同梱する、編集されたくないなら同梱しない」ということができる。一種のプロテクト。
これで完成です。UTAU音源制作技術勢がこの制約のなかでいかに能力を発揮してくれるか楽しみです。
【関連資料】
DeepVocalは大体Sharpkeyと同じなのでSharpkeyの資料が使いまわせたりする。
くろ州の合成音声備忘録
何となくデュアルモニターにしたかったので、液タブを買いました。
なぜ液タブなのかというと
・デュアルモニターにしたかった
・そういえば液タブってあったよね
・最近の安液タブは超安いらしい
・じゃあ液タブをサブモニターにすればよくね?
ということです。
せっかくなので、液タブで歌声合成ソフトを使ってみて相性を探ってみました。
【液タブ】
今回使ったのは「XP-PEN Artist12」。
・12インチ
・筆圧は8192段階。そんな要る? 歌声合成ソフト操作には要らない
・PCとはUSB×2+HDMI×1でつなぐ。別途電源は必要ない
・ペンは電池不要。充電も不要
・単独起動はしない=OSは載ってない
・安い。3万を切る。今回はセールをやっていたので約2万だった
・当たりはずれはありそう。ワコムのほうが安心なのは確か。不安なら選ばないほうがいいかも
・今回は初期不良とかなく普通に動いてる
・ファンクションキーは6個+タッチ式のスライダー付き
【基本】
歌声合成の場合、イラストと違ってキーボード操作が複雑なので(歌詞入力があるから)液タブ単体で作業を完結させるのは無理。
今回、VST系歌声合成ソフトはREAPER上で動かした。REAPERとの相性がめちゃんこ悪かったのでほぼすべて全滅です。
ノートを描くときとパラメーターを描くときが使いどころ。ピッチカーブを直接描く系エディターなら結構相性がいい。
【相性】
1~3:(まともに)使えない / 不要
4~6:使える / 普通
7~10:快適
多分厳しめ
VOCALOID Editor:3
ノートを描くなら別に問題ない。ただ、パラメーターはすっと描けないので相性は良くない。
UTAU:4
ノート描きは超スムーズ。拡張エディターシリーズのフリーハンドとは相性がいい。ただ、UTAUはそれ以外にもやることが多く、液タブでできる作業が多いわけでもないのでそんなに要らないかな感。
CeVIO / MUTA / Sharpkey / SynthV / VocalShifter:8
ノート描きは普通。ピッチ描くのは最強に良い。画面上で絵を描くようにピッチカーブが描ける。CeVIOやMUTAはUTAUと逆でそれ以外にいじる機能がそんなに多くないので大体どうにかなる。
ファンクションキーは、CTRL+S/CTRL+Z/CTRL+Y/SPACE/右クリック/ダブルクリックにしている。特に文句がない。
ノートプロパティの類(ビブラートやブレス挿入、アタックリリース等)はあんまり得意じゃない。
AlterEgo / Aquetone / ディレイラマ / EmVoice:1
REAPERさんとの相性が悪かったので手描き作業がほぼ全滅。そもそもそんなにいじりどころがないので特に必要ない。中でもEmVoiceはノート描きや歌詞入れもうまくいかなかった。
Cadencii:3
パラメーターの手描きはすっとできる。ノート描きはあんまりうまくいかない。
LaLaSong:2
特にいじりどころがなく必要がない。ノート描きは快適じゃない。
Nakloid:1
ピッチがすっと描けない。
なめうぇーぶ:7
ピッチの手描きが普通に快適。音素をピアノロールに引っ張ってくる作業がマウスでやるよりも素早くできる。
NIAONIAO:4
ピッチの手描きができる。ノート描きは普通に快適。
OpenUTAU / UTSU:1
UTAU - 手描き作業みたいなソフトなので使いどころがない。
PiaproStudio:8
VOCALOIDと比べてパラメーターの手描きが圧倒的に快適。ノート描きは普通。
Renoid:1
手描き作業がないし、ノート描きもほぼできない。
くろ州の合成音声備忘録
ニコニコ動画は6月13日、投稿者向けに「シリーズ」機能を追加した。機能自体は名前のまんまだし使い方も特に難しくないので、その辺は本家を参照してください。今さっきパッとシリーズ機能使ってみたのでちょっと見てください。あわよくば再生数を伸ばす魂胆。
【閲覧者側】
シリーズが設定された動画ページに行くと、上のほうにシリーズ名が表示されて、同じシリーズの動画一覧に飛ぶことができる。
使い勝手はマイリストとあまり変わらない。
実は動画右のコメント欄がちょっと変更されていて、「コメントリスト」の隣に「動画リスト」のタブができている。
ここを開くとあら不思議。
Youtubeかな?
お勧め動画とシリーズ動画が並びます。シリーズ動画の自動再生はもちろんシャッフルもできる。
こんな感じの機能です。
【投稿者側】
投稿者からすると、マイリスに近いけどこまごま違うところがある感じ。
動画管理ページ「ガレージ」に行くとシリーズが編集できる。UIはわかりやすい。
「シリーズを作る」ボタンを押して、右のカラムから中央のスペースにシリーズに追加したい動画をD&Dするだけ。
マイリストとシリーズの違いは公式が表にしてくれてるのでそちらを参照してください。
【お知らせ/ニコニコ動画】
— ニコニコ窓口担当 (@nico_nico_talk) 2019年6月13日
本日6月13日(木)より、ニコニコ動画にて『シリーズ』機能の提供を開始しました。
機能の詳細につきましては、引用ツイートと画像をご確認ください。
また、本機能についてのご意見ご要望につきましては、下記フォームにて受け付けております。https://t.co/BqO50H7Uz0 https://t.co/Xps3xAs0rx pic.twitter.com/InxmkfbQcm
基本的には「自分でシリーズものとして作ったものをまとめて見せる用」ですね。マイリスの動画並べ替えはいろいろ種類があるけど、シリーズの場合は「VOCALOID→UTAU→CeVIOの順番で並べよう」とか「N種の歌声合成動画をNの数が大きい順に並べよう」みたいな謎こだわり配置ができるのが個人的には良いと思った。
くろ州の合成音声備忘録
Sharpkeyを開発していたBoxstarさんが6月7日、新しい歌声合成ソフト「DeepVocal」を発表した。同時にSharpkeyがある種の終わりというか区切りを迎えた形となった。
私はこれについて事前にお話をいただいていたので、ちょっと説明する。ただ、具体的な情報はさっぱりもらってないので、全体的に超絶ふわっとしていることは覚悟して読むべし。
音源制作の話とかが知りたい人はこちらの記事を参照するべし
【話の流れ】
なんやかんやあって、Sharpkeyの開発をやっていたBoxstarさんがStarBox社を抜けることになったらしい。StarBox社自体は存続するらしいが、Sharpkeyが今後どうなるかはぶっちゃけ私にもわからない。何ならBoxStarさんもよくわかってない。めんどくさそうなのであんまり深く聞かないことにしてる。
で、BoxStarさんはStarBox社を抜けてどうするのかというと、なんと新しい歌声合成「DeepVocal」というのを作ったらしい。
【DeepVocal】
Boxstarさんが作った新しい歌声合成ソフトだ。細かいことはわからないけど、とりあえずSharpkeyっぽいものになるらしい。というかデモを聞いた限りでは99%Sharpkeyで名前が違うだけでは? デモ動画をちょっと見た限りでわかるのは、機能がちょっと少ない「SharpkeyGalaxyEditor」と同程度のソフトっぽいということ。
そして「DeepVocalToolBox」だ。むかーしむかし「SharpkeyではそのうちUTAUのように音源を自作できるようになるかもしれないという噂がある」という話をしたことがあるが覚えている人はいるだろうか。あれがようやく現実になりかけている段階にある。BoxstarさんはDeepVocalToolBoxというソフトを新たに開発したらしい。これはDeepVocal用の音源ライブラリを作る機能をメインとしたソフトなのだ。UTAUでいうところのSetParamみたいなものだと思われる。OREMOのように録音機能があるかどうかは不明。
UTAU音源をコンバートできるのかどうかも不明。SharpkeyEditorならともかく、SharpkeyGalaxyEditor程度の機能であることを考えると、UTAUの人がわざわざDVで音源制作したくなるようなメリットは個人的にあまり感じてない。ノートに依存しない声質パラメーターが使えるくらいかな?
これらのソフトに関しては、私もまだ触っていないのでどういう機能があるのか、どんなソフトなのかということはさっぱりわからない。とりあえず、ディープラーニング系の歌声合成ソフトではないことは確かだと思う。
【Sharpkeyの今後】
BoxstarさんがSharpkeyの開発から手を引くことは確かだが、今後Sharpkeyに機能追加や変更が加わるかどうかは定かでない。ただ、とりあえず今出ている音源やEditorに関しては公開停止要請などは特に出ていないため、しばらくは普通に使うことができる。
とりあえず、現状最も機能が多いバージョンのEditorが付属しているのは稲荷(Inari)なので、もしこれから新しくSharpkeyを始めようということなら稲荷(Inari)を使えばいいんじゃないかなと思う。というか公式サイトがアクセスできなくなっているので日本からだとほぼ稲荷以外の選択肢がない。日本語が歌える音源は実はもう一つある。「索韻リラ」という音源なんだが、これに付属するEditorはSharpkeyの中でも最も機能が少ないバージョン(SharpkeyGalaxyEditor)になる。キャラを絶対に使いたいということであれば特に用事はない。
くろ州の合成音声備忘録
UTAUに限らず、長いことやっているとガチの初心者だったころの記憶って思い出せないもので、私も初心者の気持ちはわからなくなってしまいました。なので、たまに実験としてガチ初心者捕まえて説明なしに音源収録させる生体実験をやってみたりするマッドサイエンティストみたいなことをやったりもします。
UTAU界隈ではよく、単独音/CVVC/連続音のメリットデメリットみたいな話が出ます。TLに流れてるので、確かにねーそうだねーと思いながら見てるんですが、「初心者にとってのメリットデメリット」と「熟練者にとってのメリットデメリット」って別モノなんですよね。立場によって「良い」が変わるのです。
なので、熟練者の方々もどうにか初心者目線に立ち返って(もしくは熟練者の目線から)初心者に録音形式の説明をするとすれ違ったりもするんですね。
私はもう初心者の頃を忘れて「もうあの頃のピュアな私は居なくなったんだ……」って感じにけがれてしまったので(最初からけがれてた説もあるが)、初心者向けに熟練者が考えていることを開設しようと考えた。
【単独音】
単独音といえば、「_あ」から始まるリストが特徴的。実にシンプル。そう簡単に読み間違えないし、読み間違えてもすぐ治せる。原音設定も少ないし、パッと歌わせようと思うと簡単で便利。
正直なことを言うと、超絶単独音大好きじゃなければ、長らくUTAUやってる多くの人はもうしばらく単独音を録音してないと思う。私も実験でしか使わない。基本的に連続音形式で録音して、特殊な発音を追加したい場合に単独音音源を作るというパターンならたまに見る。
多分、熟練者の思う単独音のいいところは「短時間で収録できる」ところにある。これがどう良いかというと「無茶な発音ができる」ということなんだと思う。無茶な発音を長時間続けるのは難しいが単独音なら耐えきれる。ということで癖のある表現をしたいときに有効だったりする。
音源ごとに違うし、好みもあるから全員がそうとは言いにくいが、単独音での調声は案外むずい。私が思うのは「この音源のいいところを十分に引き出す力が私にはない」という感じ。
初心者にとっては最も「見やすい」形式だと思う。
【連続音】
連続音といえば、「_あんああいあうあ」から始まるリスト。収録時間はかかるが、滑らかに歌わせるのが簡単だ。物量で殴るタイプなので初心者には優しくなく、熟練者も最初から初心者に連続音を勧めることはそんなにない。私は鬼畜なのでやるけど。
今の時代、連続音が正義みたいな風潮は普通にある。なぜかというと「使うとき簡単だから」なんだな。「初心者向けの録音形式」って言って説明するときは大体「録音/原音設定」の話になりがちなんだけど、連続音はこの点ではメリットがない。読みにくくて時間がかかって原音設定量が多い。
重要なのは「目線がどこなのか」だと思う。「作る人目線」なのか「使う人目線」なのか。
連続音は「プラグインが使える」「UTAU上で作曲しない」という条件の中で非常に「簡単」に「使える」音源形式だ。素の状態でもそこそこ人間っぽく聞こえる。
ただまぁ作るときのことを考えると、連続音は本当にむずい。「_てぃてぃんとぅてぃててぃとぅ」を初見でスラスラ読める人なんて見たことないし、「_あんああいあうあ」を正しく読み上げられる人もそうそういない。
原音設定量は多いけど、熟練者からすると「最も簡単」だと思う。シビアに設定しないといけないポイントが特にないので、何となく設定してもちゃんと使えるものが出来上がる。ほかの形式は案外そうもいかない。初心者からすると原音設定は等しくすべてわけわからんので、量が少ないのが正義なのだ。
【CVVC】
CVVCは単独音張りに収録時間が短くて、連続音に近い滑らかさを実現する音源形式だ。熟練者が音源制作初心者にお勧めしたい録音形式の一つでもある。
初心者だとCVVCわからないという人も多いと熟練者は考えている。実際に多いのかは統計を取ってないのでわからないが、まぁ多分多いんだろう。「初心者に嫌厭されがち」「作る労力は単独音+α」「単独音と比べて拡張性がある」みたいなところからお勧めしたくなる心理が働くんだと思う。
CVVC音源は熟練者にとって「単独音と同じくらいの労力で録音できる」形式だといえる。場合によっては「単独音より楽かも」という人もいる。私も収録時間という点では同じ意見だ。慣れてくると、「CVVCって5分アニメ見ながら録音してたらなんかできてた」ばりに楽。
ただ、初心者がそうとは限らない。初心者に易しくないCVVCリストを見てみよう。
「_てぃたとぅてとたんた」
「連続音やんけ!」ってなる。連続音ではないんだけど。実は「収録時間」だけが簡単さの指標というわけではないんだな。次に比較的初心者に易しいCVVCリストを見てみよう。
「_たた」
「これは読めるわ」ってなる。熟練者からするとわざわざこのリストを使うメリットはあんまり感じないけど、これなら全然読める。ちなみに「2モーラCVVC」リストだ。
CVVCリストで収録した音源って単独音音源にすることもできる。そのうえ、しばらくたってから「音源をパワーアップさせたいなー」とか思ったら、録音しなおさなくてもCVVCにアプデできるので、「将来性」を見て熟練者はお勧めしたくなる。中堅以上の人だと「単独音か~CVVCとか連続音だったら使いやすかったんだけどな~」とか思うこともあるので、使われやすさという面でもお勧めしたくなったりもする。
しかし、当たり前なんだが「単独音も単独音音源作れる」んだな。「_てぃたとぅてとたんた」って読んで単独音作るのと「_た」って読んで単独音作るのだったらどう考えても後者の方が楽じゃん?
原音設定も割とシビアで、子音がちゃんと発音できてないと熟練者でも原音設定には困ることが多い。
ただ、拡張性があるのは確かなので、余裕があれば収録してほしい。私もそう思う。
【まとめ】
初心者は自分の思うメリットにあうものを作ればよい。絶対にCVVCを作れという話でもなければ、単独音がダメという話でもないことだけは押さえておいてほしい。
くろ州の合成音声備忘録
最近SynthV用の中国語音源がガンガン出てきています。Twitterとか見ていると、新ロリ音源に心を奪われた方々がたくさんいらっしゃるようで、どうにかして日本語を歌わせたいという要望を聞いています。
なので、作りました→ダウンロード
SynthV中国語音源に日本語を歌わせるための最強プラグイン用プリセット pic.twitter.com/U5pwsSwOm8
— くろ州=歌声合成好き (@kM4osM_96s) 2019年6月2日
これで、赤羽さんやAiKO、詩岸に日本語を歌わせる手間はだいぶ減ると思われる。
【使い方】
「2CH4SynthV.txt」をUTAUの最強プラグインの歌詞置換プリセットが入ってるフォルダに入れます。「iroiro2→Replace→tikan」フォルダですね。
歌わせたい曲のUSTを用意します。ノートを全選択して最強プラグインを起動し、「文字系」タブの左上「文字置換」を押して、出てきたウィンドウで「2CH4SynthV」を選択。実行ボタンを押してもう一回実行ボタンを押せば、USTが「SynthV中国語音源用」の歌詞に変換されます。
できたUSTをSynthVに読み込ませて中国語音源を指定すれば、SynthV中国語音源が日本語で何となく歌います。
【注意】
・プリセットはAiKOで発音確認したので、赤羽や詩岸で完璧に動くことは保証できない。
・必要に応じて各自書き換えること。
・キャ行、ギャ行、ヒャ行はほぼ無理なのでいくらか妥協するように。
・母音の基本は以下の通り。必要に応じて差し替える。
あ段=a
い段=i,ie,ei,ui OR ei+i,ei+yi
う段=u,e
え段=ei,ie
お段=o,uo,ou
い段=i,ie,ei,ui OR ei+i,ei+yi
う段=u,e
え段=ei,ie
お段=o,uo,ou
・チャ行は「q」、ツァ行は「c」子音
・「ん」は一応「ng」で登録してるけど、基本は「さん=sang」といった風に前のノートとつなげて使うのがいい。
・母音の連続「あい」「えい」あたりは「ai」「ei」とか二重母音を使うとよいこともある。
・発音が気に入らない場合は発音記号で修正するほかにノートプロパティーの「母音遷移」でごまかすこともできたりする。
ちなみにSynthV英語音源に日本語を歌わせるためのプリセットも同梱してある。
そちらの説明はここ。
くろ州の合成音声備忘録
中国ボカロには「代表色」というのがあります。わかりやすく言うなら「テーマカラー」。
例えば
洛天依=#66CCFF
乐正绫=#EE0000
AiKO=#FDD000
とこのように。
BiliBili動画とかだと「#66CCFF」ってコメントがたくさん流れたり、#66CCFF色の通常コメントが流れたりするんですが、これ二次創作するときに超便利なんですよね。
動画とか作るときに文字色とか背景色とか、これをもとにデザインすればいいってすぐわかるじゃないですか。頭を使いたくないときにとても便利。フツーにイラストを描く分にも悩みなく色選択ができる。
ただ、難点があって、代表色を大きく外れた色でデザインするとちょっと反感を持たれることがあるらしいんですよね。洛天依の衣装デザインで#0066ffとか使うと一部の過激派に突っ込まれるらしい。そこらへんは「この色の使用を強いるものではないよ!」って言う必要がありそう。
あくまでキャラ設定の一つとして、代表色=テーマカラー設定してみるのもいいかもですねーという話でした。