【不定期更新】Synthesizer V パラメータを理解する その2『ノートの隙間』

 ども。不定期更新の第二回です。早速パラメータじゃない話でワロタ。とはいえノートの置き方による挙動の違いはエディットの基礎なので仕方ないネ。SynthVのバージョンやらは第一回と同じ(というか特に言及しない限りずっと同じでやっていきます)。

 

第一回はコチラ。

t.co

 

 御馴染み[a] [t a]を連続で置いたとき,64分音符空けて置いたときの波形の違いを見てみましょう。

図1. [a] [t a]を配置した波形。上が連続,下が64分音符空けでの配置。

64分音符を空けて配置すると無音部分が無くなっているのが分かると思います。[t a]の子音[t]は無音が命の子音ですから,無音が無くなっているということは,発音が破綻しているということです。つまり,ちゃんとした発音をさせたいのならよほどのことが無い限りノート間に余計な隙間を空けない方が良いと思われます。

 さて,波形をさらによく見てみましょう。上の[a]は[t]の発音に食われて[a]の発音が4分音符よりも短い一方で,下の[a]はしっかり4分音符の終わりまで音が存在しています。これはどういう処理によって変化しているのでしょうか。

 これを理解するには打ち込み画面を見るのが分かりやすいです。

図2. 64分音符空けの打ち込み画面。

図3. 連続配置の打ち込み画面。

ノーツ下の音素と波形が重なっているところを見てみると,図2のノート間に[cl]という音素記号が入力されているのが分かると思います。なお,[cl]はSynthVにおける無音の音素で,[cl]入力の瞬間に音が止まります。VOCALOIDで言うところの[Sil], [Asp]ですね。したがって,SynthVではノートの隙間を見つけると,その隙間に[cl]という無音の音素を入れて無理やり音を切る処理をするようです。

  続いてはさらに隙間を空けていくとどうなるのかということを見ていきましょう。

図4. [a][t a]の間に64分音符を0~16個分入れてその変化を見た波形。

 再生時の縦線が入っているけど許して。何を当たり前のことを,という感じですが,隙間の無い一番上以外は,ほぼ[a]の発音がノートオフまで伸びています。ほぼ,を強調しているのは,よく見ると微妙に音が消えるときの抜け方が異なっているからです。64分音符11個分以上の隙間を空けたものでは特に明確ですが,[a]の発音の終点に向かって音量が減衰しているのが分かると思います。聴けばわかるのですが,この減衰はブレス(語尾息)が入っていることによるものです(SynthVを持っている人は同様の条件で試してみてください)。つまり,ある程度の隙間が空くと語尾息を入れるような処理が行われているのです。

 それでは,この語尾息はいったいどの程度の隙間から入れられるのでしょうか。語尾息の有無の切り替わりは図5のタイミングで,64分音符6個分の隙間では語尾息なし,7個分の隙間では語尾息ありのようです(ここはちょっと聴覚だよりなので微妙に違う可能性もあります)。

図5. 語尾息有無の切り替わり。

ということは隙間の長さが付点16分音符以下とそれ以上で語尾息の処理が異なっているということですね。......実は違います。ここにもVOCALOIDと同様の罠があります。そう,BPMシンクしない実際時間での処理です。BPMを240(今までの倍)にして先ほどと同じ位置を見てみるとこうなっています(図6)。

図6. BPM=240での64分音符6個,7個空け。

 波形に重なった音素表記でも明らかなように同じ音価のインターバルでも6個空けでは[cl]が入力されているという違いがあります。つまり,音価によって固定の処理ではなく,実時間で語尾息を入れるかどうかの処理を決定していると考えられます。実際,よく聴いてみると,BPM=240だと64分音符13個と14個が境界になっているように思います。

図7. BPM=240での語尾息ON/OFF境界。

BPM=240での64分音符13個は203.125 msec, 14個は218.75 msecで,BPM120での64分音符6個は187.5 msec, 7個は218.75 msecですから,ある境界値(実際時間)を挟んで処理を変えていると思われます。キリの良い200 msecが境界ではないようなのが気になるところではあります(もしかすると自分の調査が甘く,BPM=240の64分音符13個空けにも若干の語尾息があるのかもしれない)が,基本的には200 msec程度の無音時間を挟むと語尾息を入れる(単純に子音の発音準備時間+αの時間が取れるということでしょう)と理解するのが良い気がします。

 さて,今回の『ノートの隙間』は,よく考えてみれば処理そのもののやり方については当たり前と思えるところですが,実際にどの程度の実際時間が処理の境界になるのか,といったところはSynthV独自のポイントなんだろうと思います。参考までにですが,VOCALOIDではおよそ120 msecの隙間で隣接するノートの音を切る処理が入りますから,VOCALOIDよりは少し長めに時間を確保しているようですね。

 

 ということで第2回でした。今回はちょっと曖昧な書き方をしてしまっているので,細かい数字については間違っているかもしれませんが,基本的な処理の方法については間違っていないはず......。また,[t]以外の子音では語尾息を入れる時間が異なる可能性は十分にあります。

 次回もノートの置き方に関する調査として,ピッチ処理について調べていこうと思います。まとまるのがいつになるかは不明ですが,ゆるゆる調べていきます。では。