VOCALOIDが起こってから早十年。音圧戦争といわれる戦いが特に激しく途切れることなく行われてきた。
結論から言うと
大事なのは「聴き手にどう聞こえるか」である。
【音圧とは】
下の図を見てください
ステレオ音源なので2列で1セットです。
上のセットと下のセットの波形を見比べてみるとかなり違うように見えますが、この2つは全く同じ曲の波形を表しているのです。
下の波形は上の波形に対して「音圧あげ」の一連の加工を施したものです。
「音圧」を視覚的に簡単にとらえるならこの「面積」といってもよいでしょう。青い部分(波形)の面積が大きいほうが「音圧」が高く、面積が小さければ「音圧」が低いと判断できます。
上の波形に比べて下の波形は音が大きい時間が長いというのはわかりますね? 下の波形はほとんど常にいっぱいいっぱいの音が出ています。
ということはこれらを聞いてみたときにどちらがより大きな音に聞こえるかというと、音が大きい時間が長い下の波形ということになります。
「音圧」というのは人間が感じる音の大きさの基準の一つです。機械での計測の結果音が大きい時間が長いものが「音圧が高い」状態です。
しかし、全編を通したとき最終的に「音量の最大値」は両者とも同じなのです。上の波形はほんの一瞬だけ音量の上限に達しています。
この音量の上限値の中でどれだけ大きく聞かせられるか。それが音圧戦争なのです。
なぜそれがそんなに重視されるかというと「音がでかいほうが迫力がある」からです。
木管5重奏と和太鼓パフォーマンスとでは音だけでも迫力が全く違います。
【ラウドネスとは】
日本語に直訳すると「おおきさ」だが、詳しく言うと「人間の聴覚を基準にした音の大きさ(の平均)」のことを指す。
人間の耳は機械とは違うので
・4.41万分の1秒の精度で音量を65536段階で感知する
・どんな高さの音も同じ基準で測定する
とかそんなことはできないのです。一瞬の大きな音は割と聞き逃すし、音の高さによって聞こえやすさが違うのです。女性の甲高い声と男性の野太く低い声では同じ音量でも女性の声のほうがよっぽどよく聞こえるのです。
というわけなので瞬間的な音の大きさはある程度無視して、音の高さによる聞こえ方の違いも考慮した音の大きさの基準がラウドネスです。
【聴き手のボリューム操作】
音楽TVなりプレーヤーなりで聞いてる人はボリュームを上げ下げしてちょうどよく聞こえるように操作しますね。
ここで重要なのが、
「聴き手は音圧を基準にボリュームを操作するのか、ラウドネスを基準に操作するのか」
ということです。正解は後者。なぜなら「ラウドネスは人間の聴覚を基準にしているから」。
音圧戦争には実は見落とされがちな前提条件があり、それというのが
「聴き手の環境でボリュームのつまみが同じ位置にある」
ということなのです。ボリュームのつまみが同じ位置にあれば音圧が高いほうが大きく聞こえます。
でも実際には変えますよね。どのように変えるかというと「同じ大きさに聞こえるように」。
この時、音圧が高い曲と低い曲はどちらが「音楽的か」という話になります。
ラウドネスを同じにした状態で先ほどの波形を見比べてみましょう。
下の波形が「音圧が高かった」波形です。もちろんラウドネスが同じなので聞いたうえではだいたい同じ大きさに聞こえます。
違ってくるのはダイナミクスです。
上の波形では落ち着くところは小さく、盛り上がるところでは大きくなっていて曲にメリハリがあります。対して下の波形では常に大体一定。落ち着いていても盛り上がっていても同じなのです。
また、音圧を上げると「音量の大きいところを叩き潰して均した感のある音」になるとか「アタック感がなくなる」とかいう弊害があるのですが、その影響も受けてしまっています。
つまり、「聴き手にボリュームつまみを操作された場合音楽的なのは音圧を上げていないほう」なのです。
もちろん音圧あげを表現として使うジャンル・場合はそれでいいでしょう。
アルバムCDのマスタリングの段階でも聴き手が曲ごとにボリューム調整する面倒をなくすためラウドネスを統一するようにすることもあります。
【音量の自動調整】
ボリュームつまみをいちいち変えるのは面倒なのでCDやTVのラウドネスには基準がありますが、CDの場合は時代によってもかなりラウドネスが違うので「音量の自動調整」機能で対応するサービス・ソフトウェアもあります。
はっきり「ラウドネスを基準に調整しています」と言っているとは限りませんが、ラウドネス基準で自動調整する機能があるらしいのは
・iTunes
・YouTube
のようです。ニコニコ動画はラウドネスに関する記述が見つからなかったのでPeak(音量)基準なのかもしれません。
つまりニコニコでは音圧あげしても十分効果があるが、YouTubeやiTunesでは音圧あげしないほうが音楽的かも、ということ。
スポンサーサイト
くろ州の合成音声備忘録
くろ州の合成音声備忘録
「夏語遙(Xia Yu Yao)」は台湾のUTAU音源です。
声を聴いてみましょう。
台湾の企業が制作した無料のUTAU音源で台湾の中国語と日本語のCVVC音源があります。
HPはこちら。
音源ダウンロードの方法
1.「CHARACTER」にカーソルを合わせると「XIA YU YAO」が選べるようになるのでクリック
2.下矢印1回
3.「聲音庫Dawnload」をクリック
4.「日語資料庫」をクリックすると音源RARがダウンロード可能
あとは普通ーに導入。同じようなところに「Joan」と「Oscar」のライブラリもダウンロードできます。
声質はスタンダードな女声です。ほんとーにスタンダードで素直な使いやすい音源です。
発音は確かに日本語ネイティブではない感じの音素もあります。「つ」と「ら行」が特にそんな感じです。
音源は3音階CVVCで「あ行」は連続音形式じゃないです。
くろ州の合成音声備忘録
UTAU音源にはいくつもの形式があってそれぞれに使い方がちょっとずつ違います。そんな中難しいといわれがちな「CVVC」のお話です。個人的には連続音と難易度はさほど変わらないと思っています。
【CVVC音源とは】
難しい話は抜きにして配布場所に「CVVC音源」とあればそれがCVVCです。
・音源のサイズは比較的小さめ
・UTAUでの書き出しには時間がかかることが多い
・エンベロープの破綻が起こりやすい
・子音の調声自由度が高い
のが特徴です。
【CVVC音源の使い方】
音源の導入はどの形式でも同じなので今回は省略。この記事で使うのは夏語遙(日本語CVVC)です。
1)打ち込み
単独音と同じようにベタ打ち。
「おま☆かせ」 を適用
これでとりあえず歌ってくれます。聞いてみましょう。
でもあまりなめらかじゃないですね?今の状態だと単独音と同じなのです。CVVCの良さを生かすためにも「CVVC化」してみましょう。
2)CVVC化
連続音音源の場合、打ち込んだ後に連続音化する必要がありますが、それと同じような作業です。
プラグイン「autoCVVC」を導入します。autoCVVCはこちらで入手できます。導入は普通のプラグインと同じなので省略。
導入できたら範囲を選択(Ctrl+W)して「autoCVVC」を適用。
設定は図の通り。
ノートが複雑になればOK。この状態で聞いてみると。
少し滑らかになりましたね。変になったらクロスフェード最適化をしたりしてください。
特殊なCVVC音源の場合は「autoCVVC」で「CVVC化」でなく「最適化」をしたほうがよいことも多いので最初から「最適化」にチェック入れておくのがおすすめです。
3)調声
基本的な調声はほかの形式と変わりません。拡張○○エディターで簡単に調声できます。
【CVVCの使いどころ】
CVVCの特徴は「子音の調声自由度が高い」ところです。
例えば「あまい」というフレーズがあったとして、これを「あんまい」とタメて歌わせたいとき、
デフォルトだとこんな感じになっています。
「あ」と「ま」のあいだに短い「a m」が入っています。ここには「ま」の子音「m」が主に入っているので、これを伸ばせばタメになります。
この時、基本的には前のほうに伸ばします。そうしないと「ま」が タイミングがずれて遅れて聞こえてしまうので。
聞き比べてみましょう。最初がデフォルト、2回目が「a m」を前に伸ばした状態。
また、「かたい」を「かったい」とハネさせたいときも同様にします。「か」と「た」の間の「a t」を伸ばすとかったくなります。
CVVCはほかにも活用しがいがあるのでいろいろ研究してみると面白いですよ。では。