top of page

BIRTH STORY OF VOIBOW

●開発着手@2014.1.1

・某企業において「数理モデルに基づく音声生成方式の開発(自主テーマ)」を進めていたが、会社方針により終息。別テーマに異動させて頂くも能力を発揮することができず、調を壊して入院。

・やりたいことは会社業務外としてやることを決意し、退院明け直後2014.1.1から始動。音声生成を再開するつもりだったが、思うところあってVOIBOW開発に方針転換。土日等の休暇を利用し、昔お世話になった論文(M.E.McIntyre氏J.O.Smith氏の論文など)を読み直しながらのスタート。まさに、水を得た魚のような年明けだった。

・因みに、VOIBOWは、声(VOIce)でBOWing(弓で弦を擦る)を行うという意味の造語である。ボイパ(ボイスパーカッション)からヒントを戴いた。

擦弦楽器は複雑系

・「相互作用をする2以上の要素から成るシステム中に非線形要素が存在するシステム」が複雑系の必要条件と理解している。

・擦弦楽器は、弓/弦/ブリッジ/胴が相互作用し、摩擦という非線形要素を有しているので、複雑系の必要条件を満たす。VOIBOWもまた然り。システムのパラメータを上手に制御すると、心地よい変動感をもった音色(カオスの縁と言っていいのだろうか)が得られる。ストレンジアトラクタが物語っている通り、発音開始~終了に亘り、波形の振幅値などがアトラクタ上の同じ軌道を辿ることはなく、発音制御(弓のスピードなど)の違いによっても、当該軌道は無限に変化する。録音再生方式の音源には決してできない芸当だ。声/擦弦器/管楽器など、発音中に様々な音色制御(表現)を行う音源は、この芸当が生命線いっても過言ではあるまい。プロミュージシャンがステージで使用している楽器を見ば一目瞭然だ。但し、そんな芸当をもってしても、上手に制御されなければひどい音になってしまう。カオス性が強すぎると、習いたての人が弾いたときのような「ぎー」っていう汚い音を発し、一方、カオス性が弱すぎると、なんの変動感もないおもしろみのない音に化ける。これが複雑系のおもしろいところであり、また厄介なところでもある。複雑系を良い塩梅に制御する方法論が確立できたら、どんな世界になるのだろう。

初期値鋭敏性

初期値鋭敏性と言ってよいのかどうかわからないが、開発の初期段階において、例えば 弓圧を定常圧力に立ち上げる時間(例:1m秒)を少し変えるだけで、音色ががらっと変わってしまうといった現象に戸惑った時期があった。一方で、モデルが完成に近づくにつれて、この現象が抑制されていることにも気づいた。モデル化する対象の初期値敏度合いを予め把握しておくことは、モデル化の妥当性をはかる指標になりえそうだ。

・八百万の神や人間の叡智は、様々な複雑系(自然~楽器~)を創造するに際し、期値あるいは外乱に対応する鋭敏な作用が、でたらめな方向にいかない範囲に、言い換えると、安定~不安定が丁度よい塩梅に調和するように気を配ったものとえている。なぜなら、それが最も美しいからであろう。

摩擦は擦弦楽器の心臓部

・擦弦楽器の中心的なプレーヤはやはり弓と弦の摩擦である。

・前述した論文には摩擦の仕組みが詳しく述べられており、まずはこれを参考にさせて頂き、独自モデルを開発していった。納得のいく音を得るために何年もかけて修正を繰り返し、VOIBOW開発の中盤段階では、すでに付加的処理がてんこ盛り状態。それだけでなく、モデルが複雑になり過ぎたせいか、安定性に問題を孕んでいた。「本物の楽器じゃないんだから御の字やろ!」「いや、これで妥協していいのか?」「何年もかかった道のりを後戻りかぁ」と随分と悩んだ結果、摩擦モデルの基礎検討かやり直すことを決め、結果的には半年を費やしただけで、現在の摩擦モデルが完成した。結果、格段に音色/安定性が向上すると共に、実にシンプルなモデルになった。

・この摩擦モデルのメカニズムを一言でいうと、『静止摩擦状態、すなわち弓と弦(正確には弓毛と弦の接触点)の相対速度が0になる状態においては、摩擦力が一意決まらず、最大静止摩擦力を超える力がかかった瞬間に、一気に(不連続的に)動摩擦状態に遷移する(ホームの図を参照)』である。このような不連続な振る舞いが「ゴリゴリとした反り立った音(声でいうとエッジボイスだろうか)」を生み出している。一方、修正前のモデルでは、この振る舞いを忠実に実現できておらず、べだっとした芯の通っていない音色になっていた。

・(私だけかもしれないが)前者のようなエッジの効いた音を大音量で聞くと、五臓六腑が揺さぶられ 恍惚の境地へいざなわれる。私が目指す「五臓六腑に響く音」は、摩擦を研究することによって得られた訳である。

ブリッジ(駒)の存在感

・高域感不足で悩んでいたころ、それまで隅っこに追い遣られていたブリッジに光があたった。そう、ブリッジは単に胴に振動を伝える部品ではなかったのだ。物の本には、「弦の横振動を縦振動に変換して胴に振動を伝える」と書かれている。まあその通りだが、E.V.Jansson氏の文献によれば、ブリッジ自体が有する固有振動数(その周波数帯が増幅されたf特をBridge Hillと言う)が、豊かな倍音をクリエイトす根源になっている。その文献を参考に、ブリッジについても数理モデル化を行った。その結果、VOIBOWの波形1周期の中の、細かいのこぎり状の波(Bridge Hillの帯域に相当)が出現したのである。(主観ではあるが)違和感のない音色に聞こえるので、「この数理デルは生楽器の物理現象に合致したモデルになっている」と胸を張っている。追々、証したい。

・「何故、生楽器の物理現象に合致していれば違和感なく聞こえるのか?」という質問に対しては、「生楽器の音色を聞きなれているからだろう」とか、「自然界の物理現象自体、自然界に生かされている人間には違和感なく受け入れられるよう神様が創ったのでは・・・」としか答えられない。つまるところ、よくわかっていない。

 

小手先はやめた方が良い

・開発中に暗礁にのりあげること日常茶飯事。そんな時、「試しに!」ってんで、後付けエフェクタやフィルタなどでお化粧してみるも、ほとんどうまくいかなかった。例えばBridgeHillの帯域が乏しいので帯域強調フィルタで持ち上げたことがあり、確かにその帯域が増幅されはするがチェロらしさが損なわれてしまう。まさに化粧の厚塗りが、反って不細工にしてしまうようなものだ。因みに帯域不足の原因は、ブリッジの運動方程式の立式のドチョンボであり、そこを修正することで解決した。

・それと、「揺らぎ感(非周期的な変動感)が不足している」ということで、何らかのパラメータを乱数で振っみることもよく試した。生楽器の物理現象に裏付けられたもの(例:弓速を揺らがす)や、残響やEQのようなカオスシステム外部の空間系の処理は問題ないが、そうでなければシステムバランスに悪影響を及ぼし不自然な音になってしまう。複雑系のモデル化の問題に関しては、真っ向からモデル化で解決するよりほかはなさそうである。

   

弓はお母さん

・「弓はやわらかく持ちなさい」は理にかなっていた。

・擦弦楽器や管楽器などの、外部からの持続的な駆動力によって楽器本体が摂動され、それにより自励振動を引き起こすタイプの楽器は、駆動の仕方によっては、美しい音色から外れてひどい音色を出す宿命をはらんでいる。まさに複雑系の本性である。生き物に例えると暴れ馬、あるいは行儀の悪いくせのある幼児といったところだろうか。しかし馬主やお母さんが上手に育てれば、くせのある子供こそ実に優秀な能力を発揮してくれる。そう、擦弦楽器の馬主/母役が弓であり、なだめすかす上手な教育こそが、「弓をやわらかく持つ演奏」に相当する。それによって、楽器が躍動し、最も美しい音色を響かせられる状態(カオスの縁と言っていいのだろうか)が出現するのである。

・この考え方に基づいて、弓と弦の接点部分の数理モデルを導出していった。接点部分のあるパラメータ値を変化させることで、音色が七変化することが確認された。但し、いまだにカオスのベストチューニングの方法論が見いだせず、耳で聞きながら調していくしかなく結構大変な作業である。これも音作りの醍醐味かもしれない。

弓と弦は電線とパンタグラフ

・弓と弦の鉛直方向(非摩擦方向)の干渉動作のモデル化に悩んでいた時分、乗り換え電車待ちのときにホームに入ってきた電車のパンタグラフをみて、運動方程式のイメージができた。音こそ聞こえないが、パンタグラフ上をスーっと擦っている電線は、パンタグラフの緩衝効果によって実に滑らかな動きになっているではないか。

松脂は重要

・弓に松脂を良い塩梅に塗り、弓の表面にほどよい凹凸を形成することで、美しい音色が生み出されるらしい。複雑系だから生まれる不規則な変動成分と、この凹凸形状による摩擦の不規則性との絡みがいまだに理解できないが、試聴実験によれば「弓の表面を凹凸形状にすること」は、「より力強い摩擦音を生成するための必要条件である」と判断した。凹凸モデルの参考事例が見つからなかったので、試行錯誤しながら新規に開発し、なんとかVOIBOWの弓にも松脂を塗ることが出来た。

・弓の表面の凹凸を小さくすると、ホームの図に示した静止摩擦状態のピークレベルと分散が小さくなり、その結果、最大静止摩擦状態から動摩擦状態に移行する際の不連続レベルが抑制され、ゴリゴリとエッジが効いているはずの音が、まるでノコギリの刃が鈍ってしまった時のような音(キュルキュルシャカシャカといった横滑りしたような音)に劣化する。

C.M.Hutchins氏の偉業

・バイオリン製作のマイスターに師事し、ストラディバリウスやガルネリを分解し、胴の表板と裏板の振動を研究した博士である。気合を感じる、と言うかカネモ!  研究成果の「板の共鳴特性」はVOIBOW開発において大いに参考にさせて頂いた。

・下記サイトから取得した論文「バイオリンの音響学」のむすびに、「組み立て前後で固有振動が変わる。なぜなら組み立て後のバイオリンはたいへん複雑な振動系になってしまうからだ」とある。まさに還元主義の限界を示唆されているのだ。実に興味深い。

何をどこまでモデル化すればよいの?

・開発を始めるに際し、まず「何をどこまでモデル化すればよいのか」という疑問がでてくる。それを考えるうえでひとつのヒントになったのが、2009年に辻井伸行さんがヴァン・クライバーン国際ピアノ・コンクールにおいて優勝されたときの評価であった。私は、それまで「ハンマーの下部雑音もピアノらしさのひとつであり重要な要素。雑音含め本物をできる限り忠実にモデル化しなければならない」という考え方に立っていたが、この評価を見て考えを改めた。「音色を汚くする要素はモデルから外さなければならない。なぜなら超一流の音楽家は汚い音色を嫌うからである」と。

・次は十分条件(どこまでやればよいか)である。いまだにその解はもっていない。前述の通り、擦弦楽器は複雑系であり、モデル化したものが複雑系の必要条件を満たしておれば、手の込んだモデルにせずとも、複雑な振る舞い(不規則な変動)を実現できる素地を有している。言いたかったのは、「納得いく音色が得られれば、モデルが複雑でなくても十分モデルできている」ということ。その考え方に立ち、「analysis by synthesis(モデルの更新と合成音の試聴評価)」をいやというほど繰り返して、VOIBOWを創り込んでいった。「○○産の昆布は必須だ」「昆布と煮干の比は7:5がいいな」「玉ねぎを入れすぎたかな?」のように。パラメータの組み合わせが膨大なので、気の遠くなるような作業だった。好きじゃなければやめている。

・余談だが、もう20年前ぐらいになるだろうか、兄から「トップ棋士として囲碁界に君臨し続けたF先生は、『勝ち負けよりも、自分自身が納得した碁が打てたかどうか』を大事にされている旨」を聞いたことがあり、それ以来「自分自身が納得したかどうか」が、私の座右の銘の一つに加わった。

・「おまえが本当に納得できる音か?世に問うからには言い訳しないと約束できるか?」の自問に対して、「yes」と自答することが、VOIBOWのゴールラインとなった。

モデル化してはいけないこと

・弦の張力がブリッジや胴の板に過重されていることまでモデル化したらどうなるだろうか。これら部材の厚み(強度)に係るモデルパラメータを所定値より小さくすると、バキッと逝ってしまう。数億円もする生楽器だったら悲しすぎる。モデル化しなければどうだろうか。部材の厚みをいくらでも薄く整形できるのだ。ピッチに応じて最適な厚みに自動制御すれば、ピッチによらず常にエッジが効いた共鳴を実現できるはずである(私の感では胴よりブリッジの方が要かと)。これが「物理的制約からの解放」の一つであり、本物(物理)と数理の本質的な違いであると考える。鈴虫の羽音のように数kHzのピッチでも輪郭くっきり(「hi」ではなく「ri」)のバイオリン。胴が洞窟のようにでかく巨大モンスター級のエッジボイスが出せるコントラバス。どちらも五臓六腑に響きそうだ。

チェロの4弦の基音レベルが低いのは何故?

・本物のチェロ音を分析すると、4弦特有の現象として、例えば音名C2の基音のレベルが倍音に比べて非常に小さい。おそらく弦の振動と胴の振動の干渉によりその帯域が弱められるような物理設計になっているからだと考えている。図らずもVOIBOWも幾分小さめではあるが、本物ほど小さくはない。この差を埋めるべく当該現象を忠実にモデル化すべきかどうかも考えてはみたが、結果やめることにした。その理由は、(チェロの1~3弦、あるいはコントラバスの4弦のように)基音がしっかり聞こえた方が、五臓六腑に響く(自分自身が納得できる)音だからである。ともあれ、表題の疑問については、いまだ謎である。

擦弦楽器は演奏が難しい

・擦弦楽器は、ある音を出すとき多くのパラメータを制御している。例えば、ッチ/弓圧/弓速/弦を擦る位置(ブリッジよりとか)/弓毛の当てる角度など。これらのパラメータは独立に制御できるが、バランスよく制御しないと、美しい音色は得られない。習いたての人が演奏すると聞くに堪えない汚い音がでるのは、このバランスを無視した演奏になっているからだ。

・ん?、管楽器だって多くのパラメータを制御しているではないか。なのになんで擦弦楽器ほど問題にならないのか、、、それはそれとして、、、

日々の練習と、演奏本番での耳による的確なフィードバック制御がなければ、美しい音色を響かせることは難しいだろう。擦弦楽器の格調高い調べは、一流の演奏者にしか創造できない芸術作品なのである。

音声駆動機能とキャリブレーション機能

・一流の演奏者にしかできない匠の技を手に入れる達成感は音楽の醍醐味である。一方で、手の器用さ/音感の良さ/練習時間や費用/根性etcが無くとも、感性だけでアウトローっぽく勝負できること、これもまた、音楽の醍醐味ではなかろうか。後者に共感していただける人向けに、演奏の難しさをできる限り排除し、簡単に(直感だけで)演奏ができるよう、「音声駆動機能」と「キャリブレーション(自動補正)機能」を具現化した。これも「物理的制約からの解放」の他の一つである。超一流のチェリストでも、特に速いパッセージになると、匠の技(含む人間キャリブレーション)の限界を超えるため、どうしても汚い音が混じってくる。これが人間の限界であり、これを数理でサポートしようというのが、「キャリブレーション(自動補正)機能」である。

・「音声駆動機能」には、音声そのものをモデルに食わせる方法と、音声から特徴量例:ピッチや音量など)を抽出しそれらでモデルを制御する方法の大きく2通りがある。トランペットのモデルは声との親和性が高いので(管長制御のみピッチ抽出が必要となるが)基本的に前者を採用した。一方、擦弦楽器のモデルは声との親和性が高くないので後者の方法を採用せざるを得なかった。後者の方法はガッツリとピッチ抽出しなければならない分、応答性が劣化するので、(一元的な制御はできなくはなるが)ピッチは別の手段で制御し、音量のみ音声レベルで制御すればよい。それはさておき、

・VOIBOWの擦弦楽器のモデルにおける「キャリブレーション機能」とは、前記多くのパラメータのバランスを最適化するものであり、音声駆動制御の場合は、声から抽出したピッチと音量に基づき例えば弓圧などを内部算出することでバランスをとっている。摩擦などの数理モデルを検討した際、「安定した音色になるための、各種パラメータに求められる相互関係条件(数式)」を見出し、その数式に基づいて自動的パラメータ値を最適値に保ち続けている。それにより、常に定した音色を生成することが可能となる。なお、ャリブレーションを行う時間間隔は、1サンプリング時間(例えば数十マイクロ秒)位なので応答性に全く問題はない。

・但し、常に安定した音色だと、反って面白みにかけるので適度に不安定にする制御も必要であると考えている。例えば、弓の弾き始めの「ゾリっ」という瞬間などは、弓速と弓圧のアンバランス状態が弦の共振周期を乱すことによって起きる現象であるが、その瞬間もキャリブレーションをかけてしまうと、「ゾリっ」が抑制され擦弦ならではの味(塩味それとも酸味だろうか)が薄まってしまう。このあたりの制御は、演奏表現に大きく関わってくることに加え、発音遅延にも絡む事項なので、今後もじっくりと検討していきたい。日本の食文化の一つである日本酒には、「先味」「中味」「後味」といった時間情報を含んだ表現があるが、何となく音との関連性を感じる。

PCの処理能力の進化にびっくり。

・私が技術屋になりたての頃は、WSでも確か数MIPSオーダ。その当時はコンピュータ上でリアタイムに楽器音をシミュレーションすることができないのだ。なので、DSPやロジッICなどを用いたシミュレーション用の回路基板を製作することから開発がスタートする。当時は半田ごてすらまともに握れない青二才だったので、相当苦労したことを覚えている。

・1990年代だろうか、録音再生方式の音源ならPCで実現できるようになったのは。あれから約30年たった今、VOIBOWのように全てを演算でやる音源もPCだけで出来るようになってきた。PCのリソースモニターをみれば、「どれほど余裕があるねん」、と(少なくとも)私世代は思うはず。

​●Androidアプリ化

 チェロとトランペットの PC プログラムが完成し、まずは、比較的処理量の少ないトランペットについてAndroid アプリ化を行った。楽器アプリなので低レイテンシーは必須の課題で、「AAudio」のAPIに基づき設計を行い、発音遅延を19mSecに抑えることができた。欲を言えば、AAudioを数mSecオーダーまで改善したいが、AAudio自体が、そのレベルには達していないようだ。 ともあれ、2023年に「スマホトランペット」というアプリ名で、日本限定にてGoogle Playに公開した。

FUTURE STORY

●スマホチェロ

 チェロモデルのプロトタイプ(PCプログラム)に基づきAndroidアプリを開発。

●スマホコントラバス

 スマホチェロを改造して、コントラバスのAndroidアプリを開発。

 

●スマホバイオリン

 同様に、バイオリンのAndroidアプリを開発。 

●最終目標

 さまざまな楽器の複雑系モデルを開発し、鼻歌オーケストラを実現。

bottom of page