fc2ブログ

タイトル画像

Sharpkey初の日本語音源作ってみた

2018.10.01(02:49) 292

私くろ州、やり切りましたよSharpkey音源制作

0-1 Sharpkeyとは
SharpkeyはStarbox社で開発され無料で公開されている歌声合成ソフトです。中国のソフトなのでGUIも音源も中国語で、2016年の登場以降しばらくBilibili中心に動画投稿がなされていました。

今回日本語GUIと日本語音源ができたので再び話題になってきたのです。

別々の母音間でモーフィングをしたり、CeVIO風の音素タイミングコントロールがあったり、声の力強さをコントロールするパラメーターがあったりUTAUでいうところのプリフィックス変更があったりと、割と多機能。

0-2 SK Galaxy
そんなSharpkeyは、最初の3つくらいは自社キャラ、人気ゲームキャラ、どこかの会社のキャラ(雑)の音源を公開していて、しかもそれらの担当絵師さんやモデラーさんが割とガチだったこともあってそういう路線で行くのか―って思いながら、私は一人楽しく中国語GUIで遊んでたんですが、とある筋から私に「こんな企画あるらしいよ」って情報が飛んできました。それが「SK Galaxy」

これは、「うちと一緒に音源作ろうぜUTAU音源制作者さんたち!」という歌声合成盛り上げ企画です。応募して、クオリティー審査に合格すれば、Sharpkey音源を作ることができるというもの。

最初はWeiboに中英日で告知が出て、でも日本語は割と自動翻訳っぽくて怪しかったです。で、Sharpkey普通に使っててUTAU知識もあり日本語ネイティブである私のところにSK Galaxyのアナウンス翻訳依頼が来たのです。ビビった。納期明日で!って言われて中国語習ったことない人である私はまぁどうにか訳しまして、修正された日本語アナウンスがTwitterに投稿されました。

Weiboのアナウンスでは参加費や条件が微妙にわからなかったという声もあったので、その辺はStarbox社に質問して補いました。日本語アナウンスだけの特別情報ですね。

0-3 Sharpkey音源情報収集
これより以前、Sharpkeyを知ってからしばらくの間、日本語情報をひたすら収集してまとめていました。これがアナウンス翻訳の依頼が来ることにつながったのかもしれません。今となっては情報が古くなってしまっているものもあるので注意ですが、おそらく日本語で読める最も大きい情報量を誇っています。


0-4 SK中国語音源リリース
私はSharpkeyユーザーとして何としても初日本語音源には絡んでいきたいとは思っていましたが、前例がなくてやるのはちょっと不安だったのでしばらく様子を見ることにしました。そうこうしているうちに、中国で蓮華・勇気という2つの音源がSK Galaxyの結果として登場しました。その辺の方々からの情報も参考にしながら、これは大丈夫そうだなという風に判断ができたので、何となく動き始めました。

1-1 もしやるなら興味ある?
TwitterでSK Galaxy安心っぽいけどもしやるなら興味ありますか?的なツイートしたところ、チャレンジ精神の持ち主が現れました。その中にいたのが私の推し「朱音イナリ」の中の人でしたので「これは私もやりたい」ということで製作開始しました。

ここの流れとても速いです。

1-2 プロジェクトチーム構築
まずは、言い出しっぺかつSharpkey/UTAUユーザーの私と、中の人の「ぶ。」さんと通訳/連絡役の「Haru.jpg」さんで始めました。プロジェクトの企画進行が私、キャラデザと声がぶーさんで、HaruさんにはStarbox社との連絡をしてもらう役として入っていただきました。日本語よりも中国語や英語でコンタクトをとるほうがスムーズに正確に通じるということだったので、この連絡役というのは必須でした。

1-3 収録
SK Galaxyの当初の応募条件は「オーディオインターフェースとコンデンサーマイクでの録音」でした。イナリはオーディオインターフェースと高音質ダイナミックマイクで録音された音源だったので、新たにSharpkey向けのCVVC音源を作ろうということになりました。そこからスケジュール確認をして大阪梅田のスタジオで収録するまで1週間以内で一気にやり切りました。若いってすごい。

収録の段階でわかっていなかったのは「どういう仕様にすればよいのか」というところ。条件は3音階以上のUTAU向けCVVC音源ということがわかっていましたが、細かいことが全然わかりませんでした。いろいろ聞いてもらった結果「3音階以上のCVVC音源で、収録BPMは100~120程度、WAVファイル名とエイリアスはアルファベット表記で」ということでした。これ、今は条件変わっているので注意です。ということで、私の作っていたCVVCリストをローマ字化して用意しました。120BPM8モーラで収録しましたが、肺活量すごいですね。

スタジオは大阪梅田246のボーカルブースで、マイクはNT-2Aをレンタル、オーディオインターフェースはFirefaceUCXでした。3時間で余裕をもってとり切りました。なんだかんだでCVVC音源なので。

1-4 原音設定と再収録と音声処理と
この段階で、興味を示していただいていた「Caparo Ulula」さんに原音設定をお頼みしました。信頼と実績と速さ。原音設定をしていただいている間に私は音声ファイルのノイズ除去をしたり音量をフェーダー手書きで手コンプかけたりなんだりしてました。手コンプは特に必要ではないです。

その工程で一部再収録が必要になったので、中の人にまた録ってきていただきました。その後、原音設定の修正依頼が来たりして大変でした。そういう仕様は先に言ってほしいというのがいくつも出てくる。

なぜそういうことになるかというと、日本語音源制作の実験段階だったからですね。実験の結果仕様が変わったりすることがあった。たぶん今は大体固まってるはずなので仕様書も出せると思います。

余談
そんなこんなでSK Galaxy応募用のCVVC音源ができました。実はまだSK Galaxy応募してません。普通に応募すれば「応募メールを送る→既存音源でクオリティー審査→合格なら音源制作開始」という流れになるはずなんですが、Haruさんがとても良い連絡役として動いてくださいまして、結局われわれ応募メール送ってません。実際にはStarbox社に認知してもらってクオリティーチェックも確かに通ってるので結果は同じなんですが。普通は既存音源引っ提げて応募送ってから制作を開始します。

2-1 Sharpkey音源ビルド
この辺からHaruさん忙しくなってきたので、Starbox社のBoxstarさん(ややこしい)が直接プロジェクトチームのDiscordに参加して、英語でやり取りするようになりました。日中英入り乱れるチャット画面を(私は)楽しみながら、たまに翻訳しながらSharpkey音源を作っていきました。

基本的にはUTAU音源を送る→Sharpkey音源に変換して送り返される→修正して送り返す……の繰り返しです。原音設定の修正や、波形の補正や、設定ミスによる発音ミスなんかを修正していきます。Ver0.6くらいで最初来て、0.65-0.7-0.71-0.75で公開ってところですかね。

2-2 クローズドβテスト
0.71の段階で応募者10人程度に音源を渡してテストしていただきました。日本を中心に中国や英語圏からもお問い合わせがあり、ぶーさんお友達枠とか制作陣とかBoxstarさんお友達枠なんかも合わせてなんだかんだ15人近くにテストしてもらいました。

2-3 立ち絵と規約
新しい立ち絵欲しいっすねっていう話はかなり初めのほうからしていて、私の趣味で「大正ロマンとかよくないすか?」とかいって立ち絵制作が進みます。私はこっちには手を付けてないので細かい進行はどうなっていたか知らないですが、ぶーさんと「水窓*」さんのやり取りの中でデザインからイラストまで作っていただきました。

規約は、UTAUイナリのものを踏襲しました。Sharpkey側の規約条件としては音源自体の販売/商用利用は禁止ということでしたのでそれも。今後企業団体からSharpkey音源を作りたいということになれば、それは用お問い合わせです。Starbox社は過去に企業との取引で音源を作っていたりするのでその辺は大丈夫でしょう。私も少しは協力できるかもしれません。

ここまでが、音源制作の流れです。ここからは私がやった日本語周りのお話。

3-1 日本語GUI
元々中国語GUIしかなかったときにも個人的にGUIを日本語化して遊んでいました。更新が来るたびにやり直さないといけなかったのと、中国語GUIに慣れたのとで以降しばらく中国語GUIのまま遊んでいました。今回の日本語音源リリースに合わせてGUIも日本語対応することになり、GUIの翻訳を担当させていただきました。

設定ファイルをJSONで渡してもらって書き換えるだけなので特別難しくなかったです。しいて言えば、中国語設定ファイルをもらわないとどれがどのボタンかよくわからなかったことですかね。Sharpkeyに関しては私英語より中国語のほうが読めます。日本語ドキュメントがほぼない中、中国語GUIの機能を手探りで中国語の解説動画見ながら探っていきましたから。

個人的には、機能を一通り丸々理解したうえで翻訳ができたので満足です。全然直訳じゃないです。機能の内容を考慮したうえで、英語から大幅に意味の違う語に訳したものも多いです。

3-2 ひらがな入力設定ファイル
Sharpkeyはイナリのクローズドβの段階までひらがなでの入力に対応していませんでした。VSQXやMIDIを読み込めるのにすべて歌詞を書き替えないといけないというのはちょっと厳しいというのもあってひらがな入力に対応してもらいました。文字化け対策もしてもらって、結果シーケンスのインポート、歌詞の流し込みにおいてひらがな/ローマ字入力の両方に対応することができました。

設定ファイルは音源ごとに設定できる仕様になったので、後発音源の可能性を狭めるようなことにならなくてよかったです。ついでにちょっと楽しかったので、設定ファイルをいじって架空言語を歌うこともできるようにしました。これは完全に私のお遊び。

3-3 使い方マニュアル
Sharpkey版イナリには簡単な使い方マニュアルを同梱しました。これを見ればとりあえず入門は完了できるくらいの内容にしながら、長くなり過ぎないようにしています。パラメーターの説明はしましたが、それを実際にどう使っていくとよいのかというノウハウは載せてないのでそのあたりは自分で探っていただくか、今後出すドキュメントに期待していただきたいところです。4時間で4千字くらい書いて仕上げました。突貫。

4-1 リリース作業
ファイルをそろえて、サイト/配布カバーを整備し、情報を小出しにして雰囲気を作っていくリリース作業をやりました。割と時間なかったです。が、ニュースリリースを4日間、VOCALOID/UTAU/CeVIO/Sharpkeyユーザーさん向けに出してnoteの通知に「連続投稿すごいね!」って褒められたり、デザイナーのお友達に告知GIF作ってもらったり、Weiboやvocalodonでも告知出したりいろいろしました。

結果的に私がやった作業は、企画進行・音声処理・交渉・リリース作業・ドキュメント制作・連絡・調声・動画作成等々。つまり雑務ですね。

が、何と同じ日にSynthVの新しい日本語デモが公開されたり、波音リツが久しぶりに音源を配布したりとめちゃバッティングしました。ビビるわ。私は九二八事変と呼んでます。

九二八事変とは……平成最後の夏の終わり、2018年9月28日のことであった。この日の夕方20時から24時の4時間の間に歌声合成界隈で大きなリリースが三つもバッティングしたのだった。

いやービビった。

1.20時 Sharpkeyから初の日本語音源「Sharpkey版イナリ」が正式配布
20時0分前後にSharpkey初の日本語音源がリリースされました。同時に日本語GUIも公開。

2.21時 SynthVから新しい日本語デモ動画が公開
21時0分にSynthVから「闇音レンリ」の歌うデモ動画が公開されました。人選が人選なので話題に。

3.23時50分 UTAUから新しい音源「波音リツ 何かがキレ音源」が配布開始
滑り込みでUTAU波音リツが5年ぶり?の新音源を配布となりました。重量級なので話題に。

朱音イナリ/闇音レンリ/波音リツというUTAUのっょぃ音源たちが一気にいろんなムーブをこの4時間の間に起こしまくりました。大渋滞。

ちなみに、前日9月27日にはVOICEROIDサイドから一瞬で稼ぎまくる女東北イタコの製品ページが公開されましたね。

まとめ
と、このようにSharpkey初の日本語音源とGUI、ドキュメントが公開されるに至りました。約3か月のプロジェクトはここにておおむね完了です。

ニュートラルに書いてますが、結構大変でした。結構大変でした(2回目)

今後ほかにも日本語音源が出てくることもわかっていますし、SK Galaxyに応募する人も現れてくることでしょう。が、いま応募が数十件すでに来ていて忙しいらしいので、企業案件があればそちらが優先されるでしょうし、すぐに対応してもらうことは難しいかもしれません。

今後のSharpkeyもまだまだ展開がありますよ!
スポンサーサイト





くろ州の合成音声備忘録


Sharpkey トラックバック(-) | コメント(1) | [EDIT]
<<SynthV簡易マニュアル作った | ホームへ | Sharpkey簡易版マニュアル配布>>
コメント
このコメントは管理人のみ閲覧できます
【2018/11/17 07:36】 | # | [edit]
コメントの投稿













管理者にだけ表示を許可する