タイトル:聴覚系のダイナミクスと環境適応性 講  師:柏野牧夫 レポータ:小林祐喜・細谷俊彦・伊藤貴之 [初めに]  聴覚研究は視覚研究とは異なる独特の発展をしてきた。聴覚末梢系における周波数 分析の研究や、音の大きさ・高さや音色の識別、空間定位などの要素的属性に関して の研究は古くから盛んであった。また、音声言語や音楽などに特化した処理過程の研 究も相当の蓄積を持っている。ところが、生物の聴覚の最も基本的な機能、すなわち 周囲のどこで何が起きているかを音波から推定するという働きに関しては、ごく最近 に至るまでほとんど注意を払われていなかったといってよい。しかし、1990年代に 入り、聴覚研究は急速に変貌を遂げてきた。まだ実環境での機能そのものを扱ってい るという段階ではないにせよ、実環境での機能を念頭において、それを実現するため の情報処理システムとして聴覚系を捉える視点が台頭してきた。その背景にはいくつ かの要因を指摘できる。その一つは、音の群化や分凝の問題などを主に扱ってきた記 述的研究が、近年では明確に音源解釈という視点を持つにいたったことである。もう 一つ挙げられるのは、聴覚の特性を定量的に解析してきた心理物理学が時間的に変化 する複数音源など複雑な状況を扱うようになってきた結果、聴覚系の非線形性や動特 性がクローズアップされることとなったことである。この2つの研究領域の融合もす すんでいる。さらに、神経科学において、研究の中心が末梢の蝸牛や聴神経から脳幹 神経核、さらには聴覚野へと高次に移っていき、解剖学的な構造と生理学的な特性の 解明が進むと同時に、脳活動の画像化による研究も進んだことも重要な要因である。  かくして、刻々と変化する環境に即応して適切な行動をとるために、耳に到達する 音波を分析して音源の定位と識別を行う情報処理過程としての聴覚系を、現象、機能、 機構の各側面から総合的に解明するということが、しばらくは聴覚研究の主流となる であろう。とりわけ問題となるのは、多くの場合解が一意に求まらないような音源定 位および識別の問題に対していかに合理的な解を求めるか、雑音や伝送路による変形 などの効果に対していかに頑健な処理を行うか、さらに、刻々と入力される大量の情 報をいかに効率的に処理するかといった点である。今回は音源定位に焦点を絞り、そ のダイナミクスと環境適応性に関する最近の研究を紹介する。  1980年代の中頃までの聴覚研究では音の大きさ、高さ、音色などの処理過程が個 別に扱われており、また音の検出や音源の定位の研究が主流だった。当時のモデルは, 聴覚末梢系における周波数分析をモデル化した聴覚フィルターを仮定し、これに音の 高さや定位などの知覚属性に応じた処理過程を加えたような比較的単純なものが主 流であった.しかし、それ以降ニューロサイエンスが盛んになって聴覚系の情報処理 過程が明らかになり、ブラックボックスが徐々に解明されてきた。その結果単に音の 大きさや高さ、音色などではなく、音が入ってきたときの音源解釈の研究がさかんに なってきた。音源解釈の問題は視覚以上に重要である。例えば町を歩いていて背後か ら来た車を回避するときには視覚以上に聴覚が使われている。このとき我々は車、会 話、足音、演説、信号機、自転車などの混在した音から音源信号を分離するという逆 問題を解いているのである。  聴覚系は音減数未知、音源信号未知、混合過程未知、最大2点(両耳)の観測とい う条件下で音源解釈を行わなくてはならない。また聴覚系に対する要請として、妥当 性(すべての音源を特定できなくても良いが、少なくとも車にひかれない程度の音源 解釈)、頑健性(信号の欠落や変形に対する強さ)、効率性(大量の情報の迅速な処理) がある。これらの環境適応性がどのように行われているのかを実験から考察する。 [聴覚の補完現象]  視覚の補完現象はよく知られているが、これと同様な聴覚の補完現象も存在する。 録音された会話の音声からところどころを抜いて無音にすると、何を話しているのか 理解できなくなる。ところが、無音であったところに雑音を入れると、補完が成立し て会話が聞き取れるようになるのである。このような補完現象は元の音が音楽である 場合でも観察される。同様な現象として、男性と女性の話し声を短い時間で交互に切 り替えると欠落部分が補完されて男性と女性が一緒に話しているかのように聞こえ ることが知られている。このように、聴覚系は必ずしも独立成分解析(ICA)のように すべての音源を分離できるわけではないが、時間的に交互に発せられた音に対しては 高い補完能力を示す。このような聴覚系の補完現象は、視覚のオクルージョンや透明 視、主観的輪郭と似ている。異なる点は、視覚の場合入力は補完すべき情報がすべて 同時に与えられるが、聴覚の場合は時間方向に分散して与えられることである。  断続音の合間に雑音を入れたとき、補完が成立して断続音が連続音として聞こえる ためには、断続音の周波数が雑音の周波数帯域に含まれている必要がある。すなわち、 現実に連続音が存在してこれが雑音で隠された場合と同じ状態になっているときだ けに補完が行われる。これは、日常の聴覚において、対象とする音源からの音が実際 に雑音によって隠された場合にのみ補完を行うためであると考えられる。このような 補完機能は音源解釈に頑健性を与える上できわめて重要であると思われる。  そもそもこのような補完がなぜ可能なのだろうか? その理由の第一は、通常の状 況においては音響情報を補完しうるさまざまな非音響的情報が存在し、これを手がか りに使えることである。例えば言語音声の場合、音響的、調音的、意味的、構文的、 視覚的な情報を得ることが可能であり、これらを手がかりに補完が行われていると考 えられる。理由の第二は、そもそも音響信号が冗長であることである。このため音響 信号そのものの中に時間的に分散した手がかりが存在しており、欠落データを周辺の データから予想することが可能になると考えられる。  人間の声は最も重要な音響信号の一つであるが、これがどのような冗長性を持つの か、すなわちどれほど変化させても知覚できるかが良く研究されている。まず、録音 された音声に対しバンドパスフィルターをかけ、1500Hzを中心とする幅300Hzの 範囲のみを残して他の帯域を消去した音声を作成しても、明瞭度は90%以上保たれ充 分聞き取ることができる。すなわち、音声情報には周波数領域で大きな冗長性がある。 また、音声を4つ程度の周波数帯域に分割してそれぞれの振幅包絡をしらべ、対応す る帯域の雑音をこの振幅包絡で変調した音声を作って足し合わせると,やはりかなり の明瞭度をもって聞き取ることができる.すなわち振幅包絡に多くの情報が含まれて おり、波形の詳細な構造はかならずしも認識に必須ではない。また音声を時間方向に 50msの幅に区切り、それぞれを時間的に裏返したものを聞いても我々は知覚できる。 これは50msを越えるゆっくりとしたパターンが保存されているためと考えられる。 以上から、音声の認識に必要な情報はスペクトルのゆっくりとした時間変化の中に含 まれていると考えることができる。 認識に必要な情報の多くが音響情報のゆっくりとした時間変化に含まれているこ とは、発声器官の舌や顎の動き(調音運動)が急激に変化できずなめらかで連続的に ならざるを得ないことを考えても理にかなった結果である。例えば、「あ」「い」 「う」「え」「お」という、1つ1つ発音させた場合と、「あいうえお」と連続的に発 音された場合とではフォルマントに変化が現れる。すなわち、われわれ人間は「あ」 を発音したときにもうすでに「い」や「う」の準備をしていなければならない。その ため、フォルマントに違いが現れると考えられる。この結果、活字に見られるような 不変量・分節境界は欠如するが、その分、情報が分散し補完可能になっているのでは ないかと考えられる。  次に、連続音が無音状態によって分断される場合には補完が起こらず、雑音でマス クされる場合にのみ起きる理由について、情報処理の違いから考察する。無音状態で 分断された場合に補完がおこらないのは、無音状態には「音がない」という我々人間 にとって重要な情報が含まれていることを反映しているためではないかと思われる。 一方、雑音でマスクされた場合の考察に重要なのは、聴覚系による解釈には不連続性 があり、音の立ち上がりと立ち下がりまでが1つの事象として解釈されると思われる ことである。独立事象の開始と終了が同期する可能性は低いことから、連続音と雑音 が交互に聞こえた場合は、連続音が雑音でマスクされたと解釈されるのだろう。こう したことが、パターン照合の前処理に行われるので知覚の頑強性が実現されていると 考えられる。  補完の時間的な特性に関する知見として、タイミング錯覚がある。音声を聞かせて いる途中に短い雑音をいれると、どの音声の時に雑音がなったかを知覚するのは難し い。一般にひとつのイベントのなかでの順序判断は正確なのに対して、音声と雑音と いったような無関係の信号の間の順序判断は難しいことが知られている。高い音と低 い音を短い時間間隔で聞かせて前後を知覚できる場合でも、その高い音と低い音の前 後に別の音を文脈として付加すると、聞き分けることが難しくなる。すなわち、文脈 を付加しないときの弁別閾は20-30ミリ秒なのに対し、文脈を付加すると弁別閾は 1桁程度変化して200-300ミリ秒になる。さらに、高い音と低い音の前後に別の音 を文脈として複数付加すると、逆に聞き分けることは容易になる。すなわち、一つの グループの中では順序判断は正確であるが、別のグループ間では不正確であると言え る。このような現象に関するメカニズムはわかっていない。 補完の時間特性においてさらに興味深いのは、時間をさかのぼった後付け的な解釈 が行われることである。周波数が徐々に高くなる刺激音を与え、これが終了した直後 に数百ミリ秒の雑音を聞かせ、さらに雑音終了直後に刺激音を再開する場合を考える。 雑音の後の刺激音が、雑音前の刺激音の周波数がそのまま高くなったものと一致する 場合は、雑音の間も刺激音がつながっていて、徐々に音が高くなっていったように知 覚される。逆に雑音のあとに周波数の下がる刺激音を聞かせると、やはり刺激音は雑 音の間も連続していたように聞こえるが、この場合は周波数は一度上がって最高周波 数に達しその後下がり始めたように知覚される。すなわち、雑音部分の知覚は雑音の 後を聞いてから成立しているのである。人の声を聞かせる場合でも、雑音後100ミ リ秒ほどが雑音部分の知覚に影響する。これは調音器官の動作特性の情報(調音情 報)を使っていると考えられる。さらに、意味のある文章をきかせる場合には、雑音 の後の文章の意味が雑音部分の解釈に影響する(意味情報)。ただしこの場合は、聞 こえたと知覚されたのか、それともその後の解釈のみに影響したのか判定するのは難 しい。いずれにせよ、聴覚情報の知覚においては、データが入ってくる順番そのまま に解釈されているのではでなく、頭のなかで時間的再構成が行われているのである。  以上のように、入力情報のスペクトルの変化からの音響事象を解釈するために、聴 覚系は様々な高度な処理を行っていることがわかる。まず、少なくとも数100ミリ 秒の文脈を勘案しているらしい。また直接的には音響的でないものも含め、多種多様 な高次情報も使って解釈しているらしい。さらに、信号に冗長性があることを勘案し 推定を行っているらしい。また、実環境におけるさまざまな音源の振る舞いの生起確 率も考慮にいれているようである。これらを総合的につかって聴覚系は妥当で頑健な 音響事象の解釈を実現しているのであろう。このような機能は脳のどのようなメカニ ズムによって実現されているかは将来の課題である。 [音源定位のダイナミクス] 音源定位を行うために脳が使うことのできる手がかりは主に3つのものがある。水 平方向の判断において主たる手がかりとなる両耳間時間差(ITD)と両耳間レベル差 (ILD)、および前後・上下方向の手がかりとなる頭部と耳介での反射・屈折である。 ITDは約 1500 ヘルツ以下で水平方向の主たる判断手がかりとなる。人の頭の直径 を 17 cmとすると、ITDは 500 μ秒ないし 700μ秒程度となる。人は純音の場合通 常50−60μ秒の両耳間時間差が知覚できるため、角度にして10度程度の違いを 弁別できる。音の種類や訓練によっては,1-2度の違いが弁別できることもある。ILD は回折の影響を受けるため周波数に依存し、比較的高い周波数において水平方向の判 断の主たる手がかりとなっている。頭部や耳介による反射・屈折は音源方向と周波数 に依存的するため、これが前後・上下方向の手がかりをあたえる。この際の伝達関数 は頭部や耳介の構造に大きく依存しており、個人差が大きい。 音源定位の脳内メカニズムについては、特に水平方向の識別についてメンフクロウ や猫でよく調べられており、種を超えてよく保存された並列階層構造を持つことがわ かっている。耳に入った音は蝸牛で周波数分析され、聴神経は強度と位相をコードし 蝸牛神経核に入力する。上オリーブ内側核はここから位相情報だけを拾って時間差を 検出し、上オリーブ外側核は強度だけを拾ってレベル差を検出する。ITDの検出は 遅延・一致検出回路によっておこなわれる。この機構は1948年頃に予言されたも のであるが、実際に存在することが1990年ごろにメンフクロウで証明された。右 耳と左耳からの入力はそれぞれ遅延線をとおって入力する。両者からの入力が時間的 に同期したときに発火する一連の細胞群が遅延線上に並んでおり、これらが時間差を 検出する。一方ILDは、上オリーブ外側核において、同側と反対側の蝸牛神経核か らの興奮と抑制のバランスによって検出される。メンフクロウではITDとILDの情報 は下丘で統合される。 以上の過程は蝸牛で分離された周波数成分のそれぞれについて行われる。このため、 ITDで推定される音源位置には波長の整数倍のあいまいさが生じてしまう(位相多義 性)。この問題は、各周波数を担当する細胞のうち特定の時間差に対応するもの出力 が統合することによって解決されていると考えられている(周波数統合)。周波数間 で統合された情報は、特定の時間差、従って特定の空間位置と対応付けられ、運動コ ントロールと密接な関係をもつと考えられる。ただし複数の音源がありうる場合には、 どのような処理が行われるかほとんどわかっていない。    以上は脳幹の話であったが、ここでは情報表現としてマップ表現を使っていること が知られている。すなわち、脳内で近傍にある細胞は空間的に近接した受容野に対応 しており、このような細胞群がシステマティックに配置されている。一方第一次聴覚 野や第二次聴覚野ではこのようなマップ表現は見出せない。近傍にある細胞もその受 容野の位置は大きく異なっており、また受容野自体もかなり大きい。皮質では、時間 パターンやアンサンブルコーディングが情報表現として用いられている可能性が議 論されている。  これまでの研究は、単一で定常といった単純な音源が主に用いられてきた。それで は、より自然状態に近い刺激文脈、すなわち、音源が複数あり、時間・位置もいろい ろあるような場合には音源定位はどのように行われるだろうか? 単なる重ねあわ せになるのかそれとも複雑な相互作用があるのだろうか? 実際には、二つの音をだ して音源定位させると、単独の場合では説明できないさまざまな現象が現れる。例え ば、定位すべき刺激音を聞く前に、別の位置から発せられた順応音を聞いておくと、 刺激音は順応音と反対の側にずれて聞こえる(定位残効)。また同時に二つの刺激音 を出すと(同時対比)、両者の間の角度は正しい値よりも広がって聞こえる。 定位残効において、ITDの選択性および周波数選択性はどのようになっているのだ ろうか? 定位すべき検査音が中央にある場合、順応音が中央の場合には定位は変化 しないが,中央以外の場合には検査音の定位がずれる。これは定位残効の効果は検査 音の絶対的な位置ではなく順応音との相対的な位置関係に依存して起こることを示 している。また,周波数選択性に対しては,順応音と異なる周波数の音を聞いた場合, 1/2オクターブ程離れると定位残効の効果はなくなる。このような周波数選択的な 性質は、聴覚系の周波数選択性から考えると妥当であると思われる。すなわち,周波 数ごとにITDの変化を処理するチャンネルが異なっていることが示唆される。 同時対比の時間特性はどのようになっているだろうか?左右に定位した検査音を 同時ならした時,中央に定位した帯域雑音を一定時間与えると、左右でなっている検 査音は反発し,より外側にあるように知覚される。この影響は雑音を除去した後もし ばらく残る。このような定位対比の効果は非常にたちあがりの早いプロセスとなって おり1[s]程度の帯域雑音であっても瞬時にこの現象は起こる。視覚の運動残効などは, ある運動現象を注視することによる疲労などの影響によって起こるとされているが, このような現象と異なり適応的に起こることが示唆される。 定位をずらした2つの音を聞かせたとき,十分に離れていれば容易に区別できるが, 近づくとその2つの音の定位のずれを知覚することは難しい。この2種類の音の定位 のずれを知覚する閾値を弁別閾とよぶ。このときに順応音として事前に2つの音の ITDの平均のITDを持つ音を聞かせておくと、弁別感度が上がり、弁別閾は6割程度 に下がる。順応音から離れたところに定位する音では逆に弁別感度が下がる。この性 質には周波数選択性があり、周波数ごとにITDを処理する段階の変化を反映している と考えられる。 このような弁別能の変化は聴覚系のどのレベルで起こっているのだろうか?ITDや ILDの個々を処理しているレベルで起こっているのか、それともそれより上位で空間 知覚が形成されたレベルで起こっているのだろうか?これを明らかにするために、 ITDとILDが相殺して中央に知覚される音,つまり両耳間時間差は右に、両耳間強度 差は左にずれておりその結果として知覚的には真ん中に聞こえる音を用いて弁別感 度上昇をはかる実験を行った。弁別感度が空間的に知覚される位置に依存して変化し ているなら中央の感度が上昇し、ITDやILDなど個々の機能によるなら、それぞれの 知覚されるべき定位近傍において弁別感度が上昇するはずである。結果として、知覚 位置ではなくITDやILDの位置で弁別感度が上昇する。したがって高次の空間知覚 システムではなく、ITDシステムがボトムアップ的に弁別感度に影響を与えているこ とが示唆される。 これらの制御メカニズムを利得制御メカニズムで説明する。聴覚フィルタを通過し た信号は,チャンネルごとに両耳間の相互相関と利得制御が行われ、周波数間の統合 が行われていると考えられる。順応音がない場合,位置によらずゲインは一定である。 しかし、順応音を与えた場合、その方向のゲインは下がる。いま、出力は入力の相関 値×ゲインできまる。このかけ算を順応後のゲインを用いておこなうと順応音近傍で ゲインが下がっていることから定位が外側にずれる結果が得られる。これは数値シミ ュレーションによって非常によく予測することが出来る。 外界の環境(刺激の分布)は刻一刻と変化している。これを最適に符号化するには どうしたらよいだろうか?全領域を一つの入出力関数で符号化するようにすると各 時点での精度が悪くなる。そこで入力を効率的に符号化するためにある最近の入力の 刺激分布に適応した領域に限定した入出力関数を用いて信号を符号化する。このよう な適応符号化を行うと分解能とダイナミックレンジを表面上両立させることが可能 になり、S/N比の向上などがおこり,情報伝達の効率の最適化に向かって適応してい るのではないかと考えられる。 以上に示した刺激依存的で短期的な可塑性は,現象的には音源定位の文脈依存性を もたらしている。これは,ITD選択的で周波数選択的におこり、素早く各機能に応じ て現れまた消える。これらの機構としてはITD選択的ニューロン群の利得制御によっ て行われると考えられる。具体的な部位としては下丘ではないかと推測されている。 また機能的には、適応符号化などの文脈を勘案した効率のよい情報処理を行うことを 目的としていると考えられる。 短期的な可塑性と長期的な可塑性は、機能的、神経的な観点などからどこまで同じ 原理で行われているのだろうか?そして,どのように関係しているのだろうか?これ らを,知覚学習やマッピングの再構成などの長期的な可塑性について調べることによ り検討する まず,両耳間時間差の弁別課題を学習させる実験について述べる。音を二つ出した ときに弁別が可能かどうかを判断させる弁別課題を一週間ほど訓練すると6割程度 まで閾値が下がる。このITD弁別能は、訓練した位置では向上するが、違う位置では 訓練前と変わっていない。このことから、かなり強いITD選択性があると考えられる。 これに対して周波数については選択性がなく、学習後の閾値は周波数によらず一様に 低い。このことから、周波数間の統合はある程度行われているが、ITDに対しては行 われておらず、ローカルに閾値の調整が行われていることが示唆できる。また、レベ ル差(ILD)と時間差(ITD)の間においても転移しないことが知られている。 再マッピング的な可塑性に関して「新しい耳」への適応を用いて次のような実験が 行われている。耳の形状は、音の反響などを用いることにより上下方向の位置を確定 する上で重要な要素になっている。つまり耳の形状がある種のフィルタになっており, このフィルタのスペクトルの特性によって垂直方向の知覚が行われているのである。 そこで耳の凹凸を埋めるように詰め物をして耳の形状を変化させることにより、耳形 状によるフィルタのスペクトル特性を変化させる実験が行われた。これによって垂直 方向の定位を認識する手がかりが変形してしまい、垂直方向の定位をはかることが出 来なくなる。このとき定位の左右は両耳間時間差によって認識しているため影響はな い。ところが耳に詰め物をしたまま,通常と同様の生活を行うと、2,3週間程でも とのように垂直方向の知覚が出来るようになる。これは、新しい耳に上手に適応して いるためと考えられる。または,脳内に新しい耳のスペクトル特性をマップしたと考 えられる。 このように新しく獲得したマップは脳の別のところに獲得されているのだろう か? これを明らかにするために、メンフクロウを用いて、幼鳥の頃に視覚にプリズ ムアダプテーションをさせることによって視覚と聴覚の知覚にずれを生じさせ、長期 的可塑性の神経機構を探る実験を行った。上丘には視覚と聴覚から得られる空間マッ プがあり、ここには下丘(ICx)の聴覚のみのマップが直接投射している。プリズム アダプテーションによって聴覚のマッピングには長期的可塑性が生じ、ICxのマップ に変化が生じる。実はここでは古い回路がなくなるのではなく,古い回路と新しい回 路が併存していて古い回路が選択的抑制をうけていることが分かっている。これら古 いマップと新しいマップの機能に差はないだろうと推測されている。成長の過程にお いて頭の大きさなどが変わるため幼少の頃はこのような適応は頻繁に起こっている と考えられる。また,生まれつき目が見えない人などのように、マップの獲得には身 体の動きもまたリファレンスになっていると考えられる。 [おわりに] 環境と知覚者の様々な時間スケールでのダイナミックな相互作用がある。これらは 単純に時間スケールが違うだけなのだろうか?文脈効果、順応、注意、学習、進化(生 態学的制約)などそれぞれ別個に論じられてきたが、外界刺激分布の偏りを最適に符 号化するようにシステムを適応させていくということで共通していると考えられる。 これら細部をより詳細に明らかにすることが今後の課題といえる。