「音の哲学」と「映像による音生成・改」

はじめに

2025.11.15のblog「映像による音生成」に間違いがありました。今回はこれを修正するのが目的です。根本的な問題ではありませんが、TouchDesignerで映像と音を完結できるというメリットは大きいです。
私が紹介する音の生成方法は、モノの形状変化から音を生成するやり方で珍しい方法です。しかし、ファンが回転するからブーンと音がする、風が吹けばヒューと音がする。といったように自然界ではごく当たり前の因果関係です。形状の変化から音を作ることは素直な考えです。実際にはこのような音生成は一般的ではありません。動きに合わせて音を付けるのが主流です。「映像による音生成」の修正の前に、何故そうなっているのかを検討してみます。モノの変化から音を生成する手法の可能性が広がると思います。もう一つ変化する音の少し変わった生成方法を紹介したと思っています。しかしblogが長くなってしまうので、これは次回に譲ることと致します。

音生成の可能性

昨今はAIの進展により、曲調やテンポ、雰囲気を伝えることで曲を作ってくれるサイトが多くあります。しかし、音を作ってくれるAIはまだ知りません。また音楽からオブジェクトの動きを付ける方法は多くあります（オーディオビジュアライゼーション：TouchDesignerが得意としている分野です）。しかしモノの形状変化から音を作る方法ほとんど見かけません。映像から音を生成する分野はまだ珍しいのです。「はじめに」でも書きましたが、ファンが回るからブーンという音がするわけで、形状の変化（動き）があって音がするというのは素直な発想です。でもそうはなっていません。これは何故でしょうか、これを問うことで音生成の可能性が広がります。このことについて考察してみます。

１．映像から音を生成するのではなく、映像に音を付けるということが作成文化の習慣になっています。例えば、ウルトラマン等を思い浮かべるとよくわかります。空中へ飛ぶポーズの時に「ショワッチュ」という音を当てるのです。手を十字にクロスした時に、「ビューン」といった音を当てるのです。「ショワッチュ」という音も「ビューン」という音も、何か自然現象から取り出しているわけでなく、イメージに合うように作っています。風の音を作るのに、蛇腹のホースを廻して作るとか、実際の風の原理とは関係なく音を作って合わせているのです。この路線上に音楽に合わせて映像を作製するオーディオビジュアライゼーションが位置付けれます。
２．次にAIが、曲調やテンポ、雰囲気を伝えることで曲を作るのに、音を作るAIを見かけない理由を考察してみます。これは音の生成を考える上で参考になります。AIが作曲するには、クラシックはこんな感じ、ロックはこんな感じ、テンポが速いとどうなる、静かというのはこんな感じ、ということが、統計的に概ね分かっている必要があります。つまりクラシックはこんな感じで、それはこんな風に作るというデータが多くあるということです。これがAIにとっての目標あるいは指標となり、これに向かって生成していきます。また作った曲に対して指標があるから、評価ができるのです。そしてフィードバックを形成し精度を高めていけます。一方音はどうでしょうか。風の音等は実際には毎日毎日聞いているわけですが、それがどうだとか、どういう感情を促したとか、心がどう動いたとか、言語化するようなことは特別な場合を除きありません。暑い時に風がサーと流れてきた時、「ああ涼しい、いい風だ」と思うぐらいです。このように言語化して、これはこういう感じ、これはこうなる、と言ったことが集められにくいものはAIは不得意です。データが無いから学習できないのです。このため音を生成するAIは作りにくいのです。これはAIが参入しにくいので、当面は人が中心の分野であると言えます。
３．評価基準が作りにくいという点をもう少し考してみましょう。例えば先ほどの風の音の例ですと、同じ風の音に「寂しさ」や「懐かしさ」を感じる人もいれば、「解放感」や「怖さ」を感じる人もいるでしょう。その感覚の揺らぎがAIの対応しにくさであり、一方では人の感性を活かせる所になります。例えば「この風は、どこから来て、どこへ行くのか？」と問うこともできます。普段そんなことはしませんが、とても詩的だといえるでしょう。これはポール・ゴーギャンの「我々はどこから来たのか、我々は何ものか、我々はどこへ行くのか」を真似て書きましたが、このように音に対して「問う」こともできます。これによって日常の感じ方を変えることにつながるでしょう。私自身はエンジニアなので、芸術の方向に振ることはあまりありませんが、「音生成」が相当に感性側に振らすことができる分野であるのは間違いないでしょう。

映像による音生成・改１

先のblog「映像による音生成」では、TouchDesignerが可聴周波数が発生できないので、アナログシンセであるDark enegy2を利用したことを述べました。その後TouchDesignerで直接可聴周波数の音を生成できることを知りました。これにより、外部シンセを使うことなく音を生成することができるようになりました。この部分が修正内容です。これは何も外部シンセを使わないほうが良いと言っているのではありません。アナログシンセは野太い独自の音を持っており魅力的です。TouchDesignerで可聴周波数が発生できても尚、使用したいと思う場合はあるでしょう。可聴周波数を発生させるオペレータとしては、audioosc CHOPがあります。通常の周波数を発生させるlfo CHOPと何が違うかというと、Sample Rateが違います。lfoでは通常60Hzを使いますが、オーディオでは通常44100Hzがサンプリング周波数(Sample Rate)です。audioosc CHOPではこの値が初期設定になっています。パラメータであるTypeにWhite Noiseがありました。White Noiseはnoise CHOPを使っても作製できます。この場合はTypeをRandomにSample Rateを44100に設定すれば生成できます。TouchDesignerにはaudio用フィルタも用意されています。MAX程ではありませんが、音生成もある程度できることが分かりました。
それでは、外部シンセを用いない方法で作製した筋肉音を次に示します。「映像による音生成」で使った例と対応しています。
重要な点は「映像による音生成」となんら変わりません。形状を反映させるパラメータを抽出してそれを使ってホワイトノイズを変調することでした。それでは外部シンセを使わない場合の映像を見てください。

次に音生成部分のプログラムを示します。

映像から特徴を抽出して音を作製します。映像をtop to CHOPでデータ化します。映像の縦方向のどの位置を選ぶかをconstant CHOPで設定しています。変化の大きい部分を選んでいます。r,g,b,αの信号からrだけを選択し、trim CHOPを使ってインデックス（横軸）の番号を設定します。変化の大きいインデックスを選びます。trim CHOPは設定した横軸の値を読み取ります。これをmath CHOPで増幅し、この値でaudioosc CHOPで作製したホワイトノイズを変調します。その後はオーディオフィルタで音を調整します。２段のバンドパスフィルタをaudiofilter CHOPで作製し、その後audiopara CHOPを使います。audiopara CHOPはイコライザーの働きです。この構成は振幅変調する一般的な形式です。

映像による音生成・改２

次に「映像による音生成」の「衝突の感覚音生成」の節に関して、外部シンセを使わない方法に変更した場合を示します。まず映像を見てください。

以前と音は多少変化していますが行っていることは同じです。ポテンシャルに衝突した時だけ音が出ています。粒が衝突した感じをだすために、ブツブツした音にしています。音の作製方法は外部シンセの部分をaudioosc CHOPに変更しただけですが、詳細を説明致します。

この図は点の集まりで表した人工生命がポテンシャルと衝突したことを検出しそれを数値化する部分です。衝突した映像とcacheした映像の差を取っています、cache TOPは少し前の映像を記憶する働きです。映像の差分を取る時によく使います。analog TOPは全てのpixcelを平均化しています。つまり映像を数値化したことになります。これをchop to CHOPで取り出します。この続きが次の図です。

衝突を数値化したデータを矩形波と掛け算して断続的な信号に変えています（1次変調）。これはポツポツ感を出すための工夫です。これをtrim CHOPで時間軸の最後のデータを検出しています。横軸時間やインデックスのデータの任意の場所を検出するのがtrim CHOPです。今回のように最後のデータを取るのであれば、bind CHOPでもかまいません。audioosc CHOPで変調した後、イコライザーで加工し、その後変調しています（2次変調）。この変調に先ほどのtrim CHOPのデータを使います。後はフィルターとイコライザーを使った音の調整です。ポツポツ感をだすために、2回変調したことが特徴です。

まとめ

映像変化を利用して音を生成するメリットは音源を用意する必要が無い点が挙げれますが、それよりも自動的に同期がとれること、つまり視覚的な感覚と合わせることができることが効果的です。視覚は強い感覚なので、音もそれに引きずられて感じます。また興味深いことに、一旦映像と音との関連が結ばれると、映像を直接見ていないくても、音から映像を思い起せる場合があります。映像から音を作っているのに、音から映像を思い起こすことがある現象は興味深く思っています。音の生成にAIが入ってきにくいこと、形状変化から音を作る分野が少数派であることも併せて、まだまだアイデアが生かせる分野だと思います。

表紙の画像について

今回のblogの表紙の画像はblenderで作製した炎の映像と、同じくblenderで作製した海面の映像とを合成したモノです。炎の模様に見える部分は海の潮の映像の反映です。このような映像に音を付ける場合、通常サンプリングした音源を使います。サンプリング音源を使うと、その音による制約によりイメージは固まってしまいます。しかし映像変化から音が作れると、サンプリング音源の制約を超えたアイデアを得ることができ、さらに炎の色を変えてみるなど、映像の表し方も変えるかもしれません。このように変化を促すことができる方向に進展させてたいと思っています。

「音生成の可能性」と「映像による音生成・改」