このブログでは歌声合成/話声合成/声質変換/VRに関する情報を集めて自由に発信しています。モットーは「実際に触って記事を書く」
シュミなので誤字等放置。
Twitter→https://twitter.com/kM4osM_96s
メール→crossdominance4*yahoo,co,jp
【記事】
歌声合成1 主要な歌声合成
歌声合成2 Sharpkey
その他の歌声合成 約30の歌声合成ソフトを使ってみた記録
制作 UTAU音源制作等に役立ちそうな情報
・制作
話声合成 VOICEROIDやCeVIO等TTSの記事
・話声合成
声質変換 ボイスチェンジャーの記事
・声質変換
VR VRやVTuber関連ソフトの記事
・VR
【実績】
調声 多種多様な歌声合成でカバー
イベント 過去の参加イベント
寄稿
対談 過去の対談企画
翻訳 外語→日本語のお仕事
・Sharpkey、DeepVocalのGUI翻訳
・DeepVocalのマニュアル翻訳
音源制作 歌声合成ソフト用の音源制作
・Sharpkey初日本語音源『稲荷(Inari)』
配布物 過去の配布物(音源を除く)
・DeepVocal用資料
スポンサーサイト
くろ州の合成音声備忘録
どんな界隈にも初心者っていますよね。初心者がいないとコミュニティーサイズを維持できなくなるので、初心者の確保と育成は重要項目です。
そんな初心者育成に使われるのが初心者向け情報です。今回はもともとある情報/文章を加工して分かりやすくしたいときのテクニックを紹介します。
主張を一言にまとめる
初心者に限らず、文章は短い方が読み始めるハードルが低くとっつきやすい。
例文)UTAU音源には主に単独音、連続音、CVVCがあり、単独音は~~、連続音は~~、CVVCは~~。
これを一言にすると「UTAU音源には主に単独音、連続音、CVVCがある」になる。情報量はかなり少ないが、とっかかりにするためにはこうする必要がある。後半の説明は次の文に分ければいい。
場合によっては「UTAU音源は主に3系統ある」でもいい。これでもぱっと見「そうなんだー」となる。最初の例文だとぱっと見で理解できる情報がないので、読解難易度が高い。
1文を短くする
文章は短い方が読み始めるハードルが低くとっつきやすい2。理解すべき内容を細切れにして、レベル上げしやすいようにもできる。
例文)UTAUの音源形式には、主に単独音、連続音、CVVCがある。
→UTAUの音源形式には3系統ある。主に単独音、連続音、CVVCがある。
1文の長さが39文字から16文字程度まで短くなった。この例文ではあまり効果がなさそうだが、文章が長くなればなるほど効果が大きくなる。
文章の区切り方としては「接続詞や助詞があるところで区切る」「読点があるところで区切る」などがある。
例文)この例文ではあまり効果がなさそうだが、文章が長くなればなるほど効果が大きくなる。
→この例文ではあまり効果がなさそうだ。しかし文章が長くなればなるほど効果が大きくなる。
不要な文章を削る
初心者にとって不要な文章は思い切って消す。文章は短い方が読み始めるハードルが低くとっつきやすい3。
例文)UTAUの音源形式には、単独音、れんたん、連続音、歌連続音、大明神式、CVVC、連呼式CVVC、VCCV……がある。
→UTAUの音源形式には、主に単独音、連続音、CVVCがある。
前者の方が厳密だが、人間には一度に受け取れる情報に限度があるので、情報が多いとパンクする。初心者には荷が重いのだ。不要な情報は削った方がいい。情報量が多いと、重要情報もひっくるめと受け止めきれないことになり、伝達に失敗する。初心者は一口サイズにしないと全部吐くぞ。
「不要な文章」の例としては「どうせ理解が及ばないであろう情報」「後々説明しない情報」「理解していなくても中級者になるまで使わない情報」「内輪ネタ」などがある。内輪ネタは200%滑るのでやめておけ。「これどういう意味だろう」ってみんな思っているぞ。
指示語を使わない
指示語を使うと読解が難しくなるので極力使わない。
例文)UTAUの音源形式には主に3系統ある。単独音、連続音、CVVCだ。多くの日本語音源はこのいずれかに分類できるが、たまにこれらに当てはまらない新系統や、これらの発展版が登場し、この界隈で話題になるが、定着するものはごく一部だ。結果、最初に述べた事実は今後もしばらく変わることがないだろう。
問1「このいずれか」とあるが、どれか。
問2「これらに当てはまらない」とあるが、どれか。
問3「これらの発展版」とあるが、どれか。
問4「この界隈」とあるが、どこか。
問5「最初に述べた事実」とあるが、どれか。
指示語がなぜ国語の問題になるのか。読み取りが難しいからである。極力使わない方がいい。問題にしたときに平均点が高くなるような文章が「誰が読んでも読みやすい文章」になるはずでしょ?
上に5問あるが、何問解ければ偏差値50になるだろうか。各問題の難易度は問1~3が中1程度、問5が中3程度じゃないだろうか。問4が解けた人は国語の問題を感覚でなんとなく解いている(問4は設問のミスで解答できない仕組みになっている)。
述語を省略しない
述語を省略すると、文章としてはかっこよくなるが、情報が伝わりにくくなる。
レトリックを減らす
体言止め、比喩、反語、四字熟語などの修辞は見つけ次第つぶすのがいい。国語の問題で出たら点数落とすような表現は最初から使わない。
例文)無料の歌声合成ソフトとして長らく使われている「UTAU」。こんなソフトが他にあるだろうか。フリーソフトの作者は実に多士済済だが、UTAUの作者はそのなかでも大きな貢献をした一人だろう。使い心地も実家に帰った新入社員のようだが、これが無料で使えるのも驚きだ。野口4人出せば追加機能があるバージョンも買えるが、私は定期的に諭吉を送りたいくらい感謝している。
問1「こんなソフトが他にあるだろうか」とあるが、どういう意味か
問2「多士済済」の意味を応えよ
問3「実家に帰った新入社員のよう」とあるがどういう意味か
問4「追加機能があるバージョン」の価格は何円と考えられるか
くそ文章なので、こんな問題解けるわけないのだ。解けないということは何言ってるかわからないということだ。「実家に帰った新入社員」はテキトーに書いただけなので意味も何もない。
例文)UTAUは無料で人気の歌声合成ソフトだ。こんなソフトは他にない。フリーソフト作者には有能な人が多いが、UTAUの作者は中でも大きな貢献をした人だろう。使い勝手もよく、無料で使えるのが驚きだ。追加機能があるバージョンも3000円台で買えるが、私はもっと払ってもいいと思っている。
さっきの問題の答えのほうだけを当てはめればこうしていくらか読みやすい文章になる。修辞を見つけたら国語の問題にして、答えに差し替える。
くろ州の合成音声備忘録
どんな界隈にも初心者っていますよね。初心者がいないとコミュニティーサイズを維持できなくなるので、初心者の確保と育成は重要項目です。
そんな初心者育成に使われるのが初心者向け情報です。今回はその作り方を幾つか紹介します。
読者が知っている情報を想定する
想定読者を作って、その人が知っている情報/知らない情報をできる限り書き出してから文章を書く。知っている情報は説明なしに使ってOK。知らない情報は説明必須。
例文)UTAUの音源形式には、主に単独音、連続音、CVVCがある。
想定読者:「UTAU 音源 違い」とかで検索してきた人
知っている情報:UTAUとは何か/音源に違いがある
知らない情報:音源形式の名前/音源形式の仕様
→音源形式:要説明だが漢字で理解できるとして省略
単独音、連続音、CVVC:要説明→これを元に続く文章を作る。
想定読者の設定に無理があるとダメ。例えば「UTAUに音源形式があるのは知らないけど、連続音の仕様は知っている」とか。そんな読者いる?
そういう設定をすると「連続音とは~~。ちなみに、UTAUの音源見識には単独音や連続音、CVVCがあって~~」みたいな文になる。これだと、最初の1文を呼んでる間、読者はずっと「連続音って何だ?」と悩むことになる。後ろまで読んで、読み返さないと理解できない難しい文章になる。
想定読者の設定は、年齢や性別ではなく、知っている情報が特定できるように考えるのがコツ。ブログの記事なら「どんなワードで検索したか」で考えると楽かも。Twitterは知らん。
初心者過ぎる人を対象にすると、言いたいことを言うまでに説明しないといけない情報が山のように出てきて文章が伸びて、初心者にとっては長すぎる文章になるので注意。対処法としては、「言いたいこと」がラスボスとすれば、エリアボスくらいの「言いたいこと」を新たに設定して、記事をそこまでにするとかある。想定読者で初心者を足切りする方法もある。ゴールを近づけるかスタートを近づけるか。
疑問が浮かぶ順に情報を並べる
文章を作る方法というか、文全体の構造を作るテクニックです。これは具体例を見た方が早い。
例文)UTAUの音源形式には、主に単独音、連続音、CVVCがある。
→浮かぶ疑問:単独音、連続音、CVVCって何?
→次書くこと:単独音、連続音、CVVCの説明
このように1文、1段落書く毎に「ここまで読んだ人が真っ先に感じるだろう疑問」を確認し、それを次の文や段落で解決する。上手く書き続けられると、生じる疑問は毎回だいたい1コに絞れる。あまりにもたくさん出てくるようなら、構成を練り直さないといけない。
このテクニックの注意点は、気を抜くとすげぇ冗長な文章になってしまうこと。なんかずっとだらだらしゃべってるような文章になるので、章を分けるなど、強制的に区切る必要がある。
自分の意見を混ぜる
客観的な情報を書くのが正義と思われがちだが、これも必要なテクニック。客観的な説明をしたうえで、自分の意見を最後に1コ付け加える。
初心者がほしい情報って、本質や概念ではなく、表面上の理解や小手先のテクニックだったりすることが往々にしてよくある。
例文)
× 単独音、連続音、CVVCにはそれぞれに向き不向きやメリットデメリットがある。
○ 単独音、連続音、CVVCにはそれぞれメリデメある。好きなのを選べばいいけど私のおすすめは連続音。
おすすめなんてのは人によって違うし、異論はいくらでもあり得る。客観的じゃない。だが、前者だと「じゃあ私はどうすればいいの?」となる。後者なら「じゃあ連続音音源を作ってみよう」と動き出せる。
客観的な情報を載せるのは辞書や研究論文、参考資料。初心者向けブログの役割ではないので、主観があった方が指針にしやすい。主観は多すぎても邪魔なので、最後に1個だけいれるくらいが程よいと私は思う。
ただ、主観と客観が混ざると「初心者は連続音から入るべき」みたいなゆがんだ認識ができてしまうので、明確に分けられるとよい。わざわざ「私は~~と思う」のように明記するのが手っ取り早い。
具体例を挟む
具体的な内容と抽象的な内容では抽象的な内容のほうが理解が難しいので、初心者向けには具体例マシマシでOK。
丸括弧を使わない
読み仮名や日付などを示すための丸括弧以外は使わない方がいい。
例文)UTAU(無料の歌声合成ソフト)音源には、主に単独音(平仮名のように1音ずつ使う形式)、連続音(「a か」のように直前の母音と合わせて使うことで合成音を滑らかにできる形式)、CVVC(~~~~。
これはやりすぎだが、究極に駄文である。いったん文章の流れをぶった切って間に割り込むようになる。文章の本流「UTAU音源には、主に単独音、連続音、CVVCがある」というのが見えにくくなるどころか、ほぼ見当たらないレベルまで視認性が落ちる。
独自の用語を作らない
オリジナルの専門用語を使うと、伝わらなかったときにリカバリーが利かなくなる。オリジナルの用語を提唱するときのみ許される。
例文)UTAU音源系統として、主に単独音系、連続音系、CVVC系がある。
「UTAU音源系統ってなんだ」って言われたら終わりである。検索しても出てこないか、別人のちょっと用法が違う分が出てくるか、自分の説明なしで使っている別記事が出てくるかしかない。
普通分かるくね? と思わんでもないが、読解力ある読者を想定しないなら、読者に読解力を期待してはいけない。
例文)UTAU音源には主に3つの系統がある。単独音、連続音、CVVCをベースにしたものだ。
これならセーフ。細かいことだが「独自用語」「オリジナルワード」も独自の用語だ。私は「独自の用語」「オリジナルのワード」のように分けている。許容範囲とは思う。
くろ州の合成音声備忘録
いま、IT業界でNFTというのが流行り始めています。デジタルアートを売買する下地がそろいつつあるって感じなんですが、これがUTAU界隈にも何か恩恵をもたらさないかなーとか考えてみます。
NFTとは
芸術品の売買ってあるじゃないですか。誰の絵が何億円で売れたとか。あれって「その絵が本物かどうか」が価格を決める大きな要素になってますよね。本物なら数億円だけど贋作なら数千円とか。
で、本物かどうかを証明するために鑑定書とか、だれから買ったとかそういう情報を残しておいたりするわけです。リアルにブツがある芸術界隈では。
一方、デジタルアートはそれがなかなか難しくて、いくらでもコピーや加工ができるから、どれが本物なのか判別しにくいし、すぐにデータが移動するから履歴を追うのも難しい。そもそもデジタルアートの“所有”とは? って話になる。
そこら辺の問題を解決するのがNFTという技術なのだ。難しい部分すっ飛ばして雑に説明すると、デジタルアートを作者本人がNFT化すると、取り外せない鑑定書や取引履歴のデータがくっついたデータになるので、その作品が本物であるかどうか、今誰のものであるかが100%ばっちりわかる、みたいなこと。
厳密な技術は知らんので、詳細は話半分で聞いてほしい。
UTAU音源をNFT化するとどうなる?
ZIP丸ごとNFT化するサービスがあるかは知らないが、UTAU音源のNFT化自体は技術的に普通にできると思われる。そうすると、所有権を売買できる。リアルの絵画と同じように、UTAU音源を取引できる。二次流通(中古品の売買)が行われるたびに作者に収入を還元する仕組みも作れたりする。
ごりっごりに収益化できるのだ。買い手がいれば。
例えば、VTuberが自分のUTAU音源を限定グッズとしてオークションに出すとかいうことがあれば役に立つんだろう。
ただ、NFT化したUTAU音源データがUTAU上で正しく使えるかどうかは検証してみないとわからない。だれかやってみませんか?
NFTについてネットでいろいろ調べてると「複製できない」「データは複製できる」というふうに複製の記述にちょっとぶれがある。「複製したデータは本物ではない」のは確かだと思う。
なので「データ」を売るつもりならやっぱり不安が残る。NFT化でできるのは「所有権」を売るところまでなのかな? 例えば「音源はみんな無料で使えるけど、おれは所有権を持ってるんだぜ」っていうのがうれしいのかどうか。「絵画は展示してるからみんな見られるけど、所有しているのは俺だぜ」っていうのが重要なのは感覚的にわかるけど、UTAU音源でそれはあんまりわからない。観賞用か使う用かの違い?
結論としては「まぁやらんくていいでしょ」ってところ。
「限定グッズとして観賞用のオリジナル立ち絵(NFT化したPNG)が入ってる」とか、やりかたはいろいろ考えられると思います。
くろ州の合成音声備忘録
先ほど、「最近の流行歌がボカロ曲っぽいらしいので調べた」という記事を書きました。
結論は上の記事のとおりで、まぁざっくり流行歌はボカロ曲っぽいと言って差し支えないでしょう。
私は「最近の流行歌がボカロ曲っぽい」って話を聞くたびに「ちょっと嫌だな」って思ってしまう。
曲が嫌なのではなく、現象が嫌(流行歌はヘビロテしてる)。
曲が嫌なのではなく、現象が嫌(流行歌はヘビロテしてる)。
■□■□■□■□■□■□■□■□■□■□■□■□■□■□■□■□■□■□■□■□■□■□
以下、叩かれそうなのでハードル(500円)を設定します。
500円かけて読む価値のある文章というわけでは特にないので、
500円かけて読む価値のある文章というわけでは特にないので、
無駄に期待してがっかりしないように。
※これ以降の文章を無断でシェアしたら、閲覧者数×500円を請求しに行く。
目次
1.流行っているのはボカロ曲か、ボカロ曲っぽい曲か
1-1 ボカロ曲とは1-2 流行っているのはボカロ曲っぽい曲
2.ボカロ曲とボカロ曲っぽい曲の違いは何か