歌声合成ソフトで「囁き声が作れる」って、VOCALOID5、UTAU、SynthVくらいで、結構特殊技術なんですよね。でも、表現として囁かせたいことありますよね?
Editor側で作るのには限界があるし、こういうのは外部ツールを使うべきポイントなんですよね。どんな歌声合成ソフトでも一回音声書き出してしまえば全部WAVEファイル。実は、音声を読み込んで囁き声に変換できるソフトがあるんです。「ToWhisperTone」って言うんですけど。
ToWhisperTone pic.twitter.com/bHGhDdwdQl
— くろ州=歌声合成好き (@kM4osM_96s) September 27, 2019
これは、音声を読み込んで範囲選択してボタンを押すと囁き声に変換してくれるツール。めっちゃシンプル。私のオススメ設定は↑の画像のとおり。
ポイントは「LPFの強度」です。LPFってローパスフィルターです。数値を小さくすると低音が削れて行きます。数値がでかいとデスボイスっぽくなりやすいので、囁かせたいのであれば小さめに設定するのがいい。
音声→音声なので、歌声合成ソフトの違いには左右されない。音質によって相性はあるけど。なのでV3ボカロもボイロもCeVIOもささやかせられる。幅が広がるね!
スポンサーサイト
くろ州の合成音声備忘録
いま(2019/09/25)、iZotopeのマスタリングプラグイン「Ozone elements」が無償配布されています。便利なので持っておこう。UTAUの人や歌ボの人はDTMツールあんまり持ってなかったりするけど、これを機に沼に足を踏み入れてみようよ。
【Ozone elementsとは】
自動でマスタリングしてくれるエフェクト。当たり前だけど、AviUtlやAudacityでは使う意味がないので素直にDAW使おう。
— くろ州=歌声合成好き (@kM4osM_96s) September 25, 2019
マスタリングって、コンプやイコライザーやリミッターを使って、全体を見ながら音圧やなんやを整える作業です。慣れるとそんなに手間のかかる作業じゃなくなるんですが、慣れないと激ムズ。
Ozoneはマスタリングをほぼ自動化してくれる。「ストリーミング向け?CD向け?」って言う質問に1個2個答えるだけで、何となくいいカンジにしてくれる。
何がいいかというと、簡単なのはそうなんだけど、それ以上に「時間が浮く」ということ。「メッサ時間かけても自分的にいいものができるかどうかわからない」くらいなら、「ボタン1個で無難」のほうがいい。技術が身に就けば「数手でとてもいいもの」ができるんだろうけど。
Ozoneの自動マスタリングは無難というか「普通にいい」くらいの仕上がりになる。ベース結構増やす癖がある感じもするけど、安心して任せられる。気に入らなければ自分で手直しすればいいし。
※ちょっとわかる人向け
「CD・MID(CD向け音圧中)」「CD・HI(CD向け音圧高)」はリミッターで結構つぶす感じになって個人的には好みじゃないので、私は「ストリーミング向け」にしてシーリングを0.1~0.3くらいにしてる。これが正しいかどうかは知らない。
時間が浮けば、もっとUTAUやボイロと触れ合う時間を増やせる。限られた時間の中であなたは調声とMIXどっちにリソースを割きたいの?という話。MIXに割きたいなら全力でMIXすればいいし、調声に割きたいなら全力で調声すればいい。残ったほうは自動化すれば、割きたいことに割ける時間が増える。
制作にかかる時間が短くなるので、作品をたくさん生み出すという方向で考えてもいいかも。
なので、持っとこう。1万円以上のものが無料で手に入るって普通にお得だし。
くろ州の合成音声備忘録
この記事では、私がSinsy(f00005j)を調声する過程を事細かに記録していきます。作業を進めるたびに更新していくので、最初のうちは分量少ないし、何回も更新かかるしで見るのめんどいかと思いますが、見たい場合は頑張ってください。
【1.打ち込んで仮MIXまで】
・打ち込みます
CeVIOでベースとなるシーケンスを組み立てます。基本的にベタ打ちですが、歌詞コントロールに細かいテクニックがあります。
仮歌ボーカリスト
ONEと歌い方が近いので、打ち込みではONEを使います。ささらさんは結構違うのでイメージが離れやすい。
「’」と「っ」と「ー」
Sinsyでは「’」と「っ」と「ー」が使えるので必要に応じて使いまくります。Sinsyの「’」は母音脱落。「っ」は破裂音の前でだけ使います。歯擦音や摩擦音の類は「っ」ではなくてVocalShifterのTMGで伸ばすので、ここではスルー。鼻音はVSで引き延ばすとやぼったくなってしまうので、直前に「ん」を長めに入れておいて、あとで必要に応じて短くします。
母音を母音で分割するのと「ー」で分割するのとは一応使い分けます。f00005jの場合、この二つにはそこまで差がないですが、母音が連続するときでもあんまり言い直さない歌い方をするので、大体母音で分割していいです。気になったら「ー」で生成しなおす。
「ー」分割は、長めのしゃくりあげやフォールをするときに使います。基本的にVSやWAVES TUNEといったピッチ系ツールで調声するので、派手にいじると音声の劣化が目立ってしまう。長めのしゃくりがある場合は、初めからVOCALOIDと同じように「ー」分割してしゃくりを作っておいた方が劣化が抑えられる。
スラーとブレス
スラーもブレスも使えます。スラーは使えてもほぼ効かないので気休め程度に。「ー」を使うときに一つ前のノートとまとめてスラーを掛けたり、鼻音を伸ばすときに直前の「ん」とまとめてスラーを掛けたり、二重母音を作りたいときに使います。
ブレスは音量が小さいので、息を吸ってる音を出したいときというより、細かい無音を作りたいときに使います。声紋閉鎖(のど切り)をやりたいときに使えたりします。
語尾息
VOCALOID的に考えて「あは’=ah」という風にしても語尾息は作れますが、あんまり音質が良くないので、ノートをちょっとだけ伸ばして放置します。これは、あとで囁き化ツールを使って語尾息を作るため。
・Sinsyページにアップロード
XML書き出し
CeVIOでXML書き出し。特に注意点ナシ。
ボーカル設定
私のお気に入りはf00005jで、声質が0.50です。ピッチシフトは、発音が気に入らなかったときに-2キーとかにして発音が変わるか試すときに使う。気に入った発音になったらピッチシフトして使う。
XMLをUP&ダウンロード
XMLを指定して送信ボタンを押せば、サーバー側で合成が始まる。出来上がったら「wav」リンクを右クリックして「名前を付けて保存」でダウンロードする。
・仮MIX
私はここで簡単にMIXします。で、発音や音程が気に入らないところを探す。相性のいい曲だと、この時点でもう大体完成で良くね? ってなる。
【今日はここまで】
結構考えることありますな。この後は
・KotonoFaderでクロスシンセシス(二重母音作ったり)
・VSでタイミング調声(促音作ったり)
・ToWhisperでブレシネス調声(語尾息作ったり)
・DAW、UTAUでパワー調声(裏声や力み作ったり)
・WAVES TUNEでピッチ調声
・DAWでボリューム調整、ジェンダー調声、グロウル調声
という順で、歌声合成に関する知識と経験とツールを全力で投入していきます。
くろ州の合成音声備忘録
あなたの推しキャラのキーカラーはご存知ですか? 初音ミクなら「#96d2d3(V2の場合)」で、Lilyなら「#f0d24e」くらい。推しの立ち絵から色を吸い出せば何となくわかりますね。
ところで、これって何色なんでしょう。青? 黄色? 青は#0000ffだし、黄色は#ffff00です。だいぶ違う。カラーコードが分かれば推しキャラが何色なのか言えるのにな~。
ちなみに、初音ミクは「瓶覗色
・白郡色
・サマーシャワー
・スカイターコイズ
・ホライゾンブルー」あたりに近く、Lilyは「サフラン・カスタード・春の吐息」に近いらしい。結月ゆかりは「ライラック
・アイリス
・オーキッド」。
というわけで、カラーコードから色の名前を検索できるサイトを紹介するので、皆さんも推しキャラが何色なのか言えるようになりましょう。
【Encycolorpedia】
使うのはEncycolorpedia。ここで推しキャラのカラーコードを入力すると、それに近い色の名前を教えてくれます。試しにうちにいるVOCALOIDやCeVIO、VOICEROIDの色名を検索してみましょう。
GUMI:髪=スペアミント/服=山吹色
IA:髪=アイボリー/スカート=撫子色/トップス=勝色
KAITO(V3):髪=露草色/コート=アンバーホワイト/ワンポイント=イエロー
LuoTianYi:代表色=勿忘草色/髪=鉛色/服=乳白色
ゆかり:服=ライラック/滅紫(けしむらさき)色/唐紅
ONE:服=丹色/藍鉄色/髪=アイボリー
さとうささら:髪=アッシュローズ/服=ホワイト/リボン=シクラメンピンク
弦巻マキ:髪=カナリア色/服=スカーレット/白よつわいつき(Sinsy, f00005j):キーカラー=東雲色/服=鉄紺/白
超楽しい。
くろ州の合成音声備忘録
絵師様、「推しボカロの声で推し曲が聞きたい」って思うことございませんか?ございますね~
というわけで、絵師様向けに入門講座やろうとしたんですが、どうも絵師様はVOCALOIDが動くほどのPCをお持ちでない御様子という話を聞きまして。
とりあえず、VOCALOIDが動くPCの選び方をお教えしましょう。
【絵師様向けPCの選び方】
0.必要スペックは?
・CPU:インテルのマルチコアならなんでもいいらしい。インテルって書いてあればほぼなんでもいい。
・RAM(メモリー):最低4GB。ぶっちゃけ4はきついので8GBがいい。
・モニター:フルHDないときつい。
大分ゆるく言うなら「インテルのi3よりいいやつで、RAM8GB以上ください」でOK。
1.絵師様向けPCでVOCALOIDは動くか
絵師様向けPCというのが世の中には存在します。クリエイター向けBTOパソコンというやつですね。ドスパラ・パソコン工房・ツクモ・マウスコンピューターあたりで、クリスタ用とされているモデルがVOCALOID5の必要環境を満たしているか調べてみました。
「スペックは」クリアしてますが、本当に動くかは知りません。
・debut! IE:クリア
・debut! IM:とても良い
・debut! RRR5-Q:アウト(たぶん動くけど)
・debut!XT:余裕
・debut!MX:余裕
・debut!HB:余裕
・Allクリア
・Allクリア
・Allクリア
2.iPhoneやiPad
あいぽんでアイビスやメディバン使って指絵師している方や、「あいぱっよかった」ツイートしている絵師様にはiOS用VOCALOID「Mobile VOCALOID Editor」がおすすめです。
— くろ州=歌声合成好き (@kM4osM_96s) September 15, 2019
とりあえず安い。VOCALOID5の場合、推し+Editor=約4万円しますが、MVEの場合、推し+Editor=約7000円ちょい。
iPadで絵を描きながら、たまに息抜きに推しの声を聞くというのができます。ただ、iPhoneだと画面が小さすぎて操作性があまりよろしくないので基本はiPad向け。
— くろ州=歌声合成好き (@kM4osM_96s) September 15, 2019
iPhone5s-XS Maxまでとりあえず対応。11はわからないですが多分使える。iPadの場合、10月1日にiPadOSというなぞのOSが登場するらしく、動くとは思いますが、ちょっと不安。
対応しているキャラは若干少ないので注意。いないのは以下の通り。
・V5組
・外国語ボカロ(CYBER DIVA・CYBER SONG MAN以外)
・クリプトン組(ミク以外)
・インタネ組(グミ以外)
・紲星あかり・猫村いろは
・兎眠りおん・杏音烏音・アルス・AZUKI・MATCHA・ミライ小町
・歌手音ピコ
・IA
・MAYU
・マクネナナ
・LUMi
これ以外であればいます。
くろ州の合成音声備忘録
―「『マルチアップローダ体制』とは、UTAU音源を複数のアップローダに上げておく運用体制のことを言う」― kM4osM_96s(1996~)
茶番はここまで。
【マルチアップローダ体制とは】
マルチアップローダ体制(マルチUL)というのは、UTAU音源を配布するときに、1個のアップローダに音源ファイルをアップするんじゃなくて、2個以上のアップローダにアップする運用体制のことを言います。私が一人で勝手に言ってるだけだけど。
例えば、GoogleドライブだけじゃなくてMEGAとかBowlRollとかにもアップするとか。で、配布所に「ダウンロードリンク①」「ダウンロードリンク②(ミラー)」みたいにリンクを張るのだ。
これをやると何がいいかというと、(1)1個アップローダの調子が悪くて音源ダウンロードできないような状態になっても、他が生きてるのでダウンロードが全滅しないとか、(2)将来的にアップローダがサービス終了してもバックアップが残ってるので応急処置がいくらでも取れるとかいうところ。要するに「アップローダがダメになったときのための保険」ですな。
【なんでこんな話をしているのか】
2019年9月7日ごろから約4日間、ファイルアップローダ「AXFC(通称:斧)」がダウンした。この間、AXFCを使っているUTAU音源やボイチェビ立ち絵がダウンロードできない状態にあった。
10日昼現在、SSL証明書の期限切れなのか知らんが表示エラーは出るものの、一応、全くダウンロードできないという状況は解消された。
AXFCが落ちるのは特別珍しくもないが、4日間と長かったため一部では「AXFCが終わるのか!?」みたいな憶測も流れた。この件に関してはとりあえず終わらなかったということで楽観視しよう。
しかし、「何らかのサービスが終了することで界隈資産が消滅する」ことの恐ろしさは計り知れない。
UTAU界隈だと、TmBoxロストが記憶に新しい。音声共有サービス「TmBox」が予定より早く突然閉鎖したため、UTAUカバー曲の類がそこそこ聞けなくなった。しかも、突然のことだったので別のサービスに音声を移行する間もなかったというそこそこの悲劇。
娯楽的な成分が消えるのは精神的に来るものがあるが、実害はそこまで大きくない。対して、無料ホームページサービス「ジオシティーズ」がサービス終了した時には「情報資産がなくなるのでは」という恐怖があった。
MMDの配布所はジオシティーズで作られていた。ジオシティーズがサービス終了をすると、MMD本家ページがなくなるかもという憶測もあったが、実際には本家さんが移転してくれてどうにかなった。
本家の中の人が移転してくれればいいんだけど、そうもいかないことは同人界隈なら当然多い。アップローダサービスだって終わるときには終わるのでこればっかりはどうしようもない。
というわけで、そういう場合に有効なのがマルチUL。万物はいずれ消滅するので、消滅させたくないものは数を増やして保険をかけるのだ。AXFCが消えるかどうかとかはさっぱり知らないが、Gドライブだって消えない保証はない。どっちにしても消えるんなら残機を増やそう。
もしAXFCもGドライブも全部しんだとかなったら、たぶんそれ隕石とか落ちてきてるでしょ。アップローダがどうのこうの言ってる場合じゃないときだと思う。
発想自体は普通だし、やってる人はやっている系テクニックなので、「マルチULという手もあるよー」って情報を広めるにはいいタイミングだったかなーと思う。
くろ州の合成音声備忘録
拡張ピッチエディタ、たまに「立ち上がって入るけど画面上にない」ことありません? あれ、画面の外に行ってしまってるんです。対処は以下の通り
1.タスクバーで拡張ピッチエディタを選択
2.Alt+Spaceキー(表示が出た場所を覚えておく)
3.Mキー
4.矢印キーで表示が出た方向の真逆に動かす
以上。
くろ州の合成音声備忘録
AIシンガーといえば、18年末にCeVIO陣営のテクノスピーチさんが新たに歌うAIを発表して話題になりましたが、とうとうYAMAHAがこの分野に参入してきた。その名も「VOCALOID:AI」。
個人の歌声を再現するといえば、YAMAHAはこれまでも「植木ロイド」を作ったりHideさんの声を再現したりしていたが、今回はディープラーニングでそれをやるらしい。VOCALOID Sachikoで培ったHMMスキルもおそらく役に立っているんでしょう。
まだ音声が公開されていないので、どんな技術なのか、そもそもこれは波形接続なのか学習系なのか折衷技術なのかも分からないが、強力なネームバリューを持って登場してきましたね。29日午後9時に放送されるNHKの番組で、開発プロジェクトの様子とか歌声が披露されるようなので、詳しいことはそれを見ましょう。通知設定しとかないと忘れそう。
さて、AIシンガー領域ではこれまで、HOYAさんの「VoiceText」で「AIシンガー何もしなくてもここまで歌えんの? やばくない?」と注目が集まり、マイクロソフトの「りんな」がエイベックスでデビューする中、東北大学でもハイクオリティーなAIシンガーが作られ、テクノスピーチさんも本気を出してきたというあたりですが、このタイミングでYAMAHAが参入となると、この辺の方々結構奮い立つのでは?
次世代初音ミクがVOCALOID5じゃなくてクリプトンの自家製ソフトでリリースされるという発表が8月31日にあったばかりでこれなので、ちょっとVOCALOID界隈騒がしいぞ。