はじめに
2025.11.21のblog「3体間の衝突回避と発振」の「3体間の衝突回避」の節からインスピレーションを得て、映像の背景音の作製方法を検討しました。これについて紹介致します。「映像による音生成」のシリーズでは、モノとの同期が重要な系を扱ってきました。映像から音を作製するので、自動的に同期が取れることがメリットでした。一方で同期が重要でない音もあります。例えば、風の音や雨の音、海の音等はその代表です。流れる風景の中に風の音を入れる場合、風がどこから吹いているのか特定する必要はありません。また海は見えていないが、遠くから音が聞こえてくる、といったような場合も同様です。今回こうした場合の音を映像からどうして作製するのか、波の音を例に検討致します。一般的な方法は既存の音源を準備してそれを鳴らすことでしょう。しかしこの方法は少し問題があります。音源ファイルが短い場合、繰り返し再生することになりますが、繰り返しが分かるととても残念な気持ちになります。そこでファイルの音を変動する信号で変調します。もう一つの問題は深い意味を秘めています。「映像と合わせた場合、実際の音が一番その場面に適しているわけではない」、という事実があります。例えば映画で、緊迫した場面では緊張を高めるために、心臓の音が入っていたり、緊張を高めるような音を入れたりしています。そのほうが雰囲気がでたり、心象風景に合うのです。この場合、音は風景の音というより心理描写なのです。日常の雨の音でも、イメージの音は時々静かになり、そして消え、また大きくなる、など少し変化を与えたほうがリアリティが増します。この理由は定かではありませんが、後で少し考察しています。この時々小さくなり消え、また大きくなるのも変調で実現できます。風や炎、波の音、木々の葉っぱを風が揺らす音等は、音源にホワイトノイズを用いて作製する場合が多くあります。この場合はホワイトノイズの単調さが残らないようにする必要があります。これはホワイトノイズは一定の広い周波数を含みますが、振幅の包絡線は揺らいでいるわけではないからです。そこでなんらかの方法で常に揺らがすための信号を作り、それを使って変調します。そうすると自然の音に近付きます。ここでは揺らぎのデータをどう作るのかが問題です。そこで思い出したのが、「3体間の衝突回避」の映像をです。この映像では3つの球が常に揺らいでいます。これを活用することにしました。以前にも紹介しましたが、まずは「3体間の衝突回避問題」を扱った映像を見ていただきましょう。
鳥の音を付けておきました。フリーの音源が元ですが、後で詳細を述べるように映像を作製するプログラムから揺らぎを取り出し、音源を変調して作っています。
海岸の映像に対する音の聴き比べ
3種類の映像を見て比較してみてください、それぞれ音が入っています。1.ビデオ撮影した映像、2.ホワイトノイズを変動する信号により変調した場合、3.「3体間の衝突回避」の映像を利用してホワイトノイズを変調した場合(2.の変調も含む)です。3.が今回のメインです。
1.撮影した映像
野外でビデオを取ると風の音は耳で聞いた印象と違う場合が多くあります。風は空気の流れですから、マイクに「ゴーッ」とか「ボーボー」っという音が入りがちです。
2.ホワイトノイズを変動する信号により変調した場合
最初に変調方法について述べます、ノイズを使って音を鳴らす鳴らさないという状態をつくります。例えば鳴らすが1で、ならさないが0です。これとホワイトノイズを掛け算します。すると急に音が入るので、フィルタを入れてゆっくりと立ち上がり、立ち下がるようにします。この前後で再度変調します。変調の仕方も様々ありますが、基本的なアプローチとしてADSRの形状で変調する方法があります。ADSRはシンセサイザーではエンベロープと言われています。次の図はADSRの説明図です。

この波形はTouchDesignerではTrigger CHOPによって作ることができます。図中の各部分の長さや高さを調整します。注意する点としては入力が入った時にこの波形が出力するのですが、入力がオンの状態を保つと、ADSRのステインの状態が保たれます。これを利用して、信号がある時はステインの状態を保持し、立ち上がり立下りはADSRの波形になるように使うことができます。この変調ではステインの状態が保たれた時、ホワイトノイズの信号の大きさは変化しません。この時単調に聞こえます。次で示す方法はこれに対する対策になります。
3.「3体間の衝突回避」の映像を利用してホワイトノイズを変調した場合(2.の変調も含む)
好みがあるので人によりますが、私はこの場合が一番しっくりときました。3体間の衝突回避の映像にある緑色の球の中心位置のxの値を横軸時間で取り出します。この値を2.の変調処理の後に掛け算し変調しています。最初のビデオ映像である本物以上にそれらしさを感じます。2.と比べると単調さが改善されているように感じます。それではこの音のリアリティについて考察致してみましょう。
音のリアリティの考察
映像と音との関係は相当に詩的です。目に見えるモノや、耳に聞こえるモノだけでなく、記憶や身体の感覚、空気の気配までを総動員して「今ここ」を感じます。記憶や身体の感覚、空気の気配を呼び起こすことはイマ―ジュです。そして総動員して全体を感じていることはゲシュタルトです。つまり現実の音が「正解」というわけであはありません。また実空間で全ての感覚を使って体験している状態と、部屋の中で映像と音を聞いている状態はそもそも違います。その環境によって誘起されるイマージュも違います。このように、後で再現したからといって、感じ方は同じではありません。恐らくその時、その状況で感覚の再構成にフィットする音が真実らしく感じられる音でしょう。現実の音をそのまま記憶するより、「感じた現実」を再構成することの方が、深く伝わることもあります。実際のビデオには風の音が強く入っていました。3.の映像は風の音が入っていませんが、足りない感覚は頭の中で補っているかもしれません。その補い方は。見る人の中にある海岸の記憶やイメージと関わっているでしょう。1.のビデオの風の音は強いのでイメージからの補間を邪魔していのかもしれません。
「はじめに」では、音の繰り返しがリアリティを損なうこと、音が無い状態が入ることがかえってリアリティが増すことを述べました。録音した音では常に音が入りますが、作製する場合、音が無い時間を作ることができます。この場合のほうが何故リアリティが増す場合があるのかは、2つほど考えれます。一つは、刺激になれて飽和するのを防ぐ効果があるという考えです。音が次第に消えてなくなり、また現れると再び注意が向けられます。次もこれと似ていますが、予測に関係しています。人は常に予測しています。ランダムな音を長く聞いていても予測しにくいのです。そこで音がないところがあると、そこからリセットして予測するようになります。音は日常にあふれていおり、感覚的な知見は多いですが、理論的な知見が溜まっているかというと、そうではないように思います。
力覚の場合、リアリティは反力・抵抗にあります。つまりVRゴーグルをかぶって机を触ろうとしても。触った感覚がないですが、実際の机は当たれば反力を返し感じます。また、VRでは手は突き抜けますが、現実の手は当たれば止まります。一方音のリアリティは、先に述べたように全く違う側面を持っています。音は空間を満たし、距離や形を持たずに心に届きます。波の音や音楽が「そこにある」と感じさせるのは、聴覚が時間的・情動的なリアリティを構築する力を持っているからでしょう。音はしばしば、記憶や想像と結びつき、現実以上のリアリティを生みます。匂い等もまた別のリアリティがあるでしょう。このように恐らくリアリティは感覚が違えば違い、全体で統合されたリアリティを作って感じているように思われます。個々の感覚のリアリティはばらばらなのに、なぜか統一されるのです。まさにゲシュタルトです。恐らく脳は感覚を統合し、意味ある世界を作ろうとする機能があるのでしょう。寧ろ意味ある世界を作るために、統合しているのかもしれません。この考えでは、見るために目がある、聞くために耳があるのではなく、意味を作るために感覚があることになります。たとえば、目は光を受け取るだけでなく、「見る」という行為を通して、空間や他者との距離、気配、雰囲気を感じ取ります。耳も、音を「聞く」だけでなく、時間の流れや感情の変化、場の空気を読み取ります。つまり、感覚は意味の生成装置であり、世界との関係性を編む織機のような働きです。
サウンドランドスケープ
音を利用する装置として、サウンドランドスケープ装置を開発していた時期がありました。これはクルマで走ると、その地域に関係する音をある場所に近付くにつれて徐々に聞かせる装置でした。鳴らす場所はGPSで検出します。例えば海岸に近付いてくると、海の音を鳴らし、かつて合戦が行われていた地域では、武者の鎧の音等を鳴らすといったことです。その地域を一周すると、なんとなくこういういう土地柄なんだな、ということが分かるようにしようとしていました(「特願2018-19546 音風景構成装置、音風景構成方法、および音風景構成用データ構造」、「特願2018-192596 報酬発行装置、報酬発行システム、車載器及びプログラム」)。これはその土地と土地柄を音で結びつける試みで、搭乗者に意味を伝えようとしたのです。実験室の中で聞く音と同じであっても、その場所を走るということで意味は違ってきます。この時は録音した音を使っておりましたが、この応用では、「今ここ」をイメージする音を付けることが重要で、かならずしも、その場所でサンプルした音である必要はありません。複数の音を重ねて作製したのを覚えています。
感想
音は実際の音より作った音のほうが映像に合い、リアリティを感じる場合がしばしばあります。この理由は明確でなく、そこに魅力を感じます。風景に音を付けれると、その場所に何かしら意味を付けれる可能性が生じます。以前に手掛けたサウンドランドスケープを思い出しました。音に意味を持たせようとしたこの試みは、今も魅力的に感じます。


コメント