タイトル:脳内情報表現への情報理論的アプローチ 講  師:阪口 豊、 樺島 祥介 レポーター: 酒井 裕 ・ 伊藤 真 \section{23日の講義について:細胞の選択特性と情報表現 (阪口)} 問題意識:脳の中で情報はどのようにして表現されているか? 本日の主なテーマは「脳の中で情報はどのようにして表現されているか?」 ということですが、1口に情報表現と言ってもいろんなレベルの話があります。 今日は主に以下の3つの問題について議論します。 1.基本的な情報表現機構の形成:学習を通じた土台構造の形成 1番目の問題は、まず昔からある受容野形成の話です。個々の細胞がどの様な 情報を担っているのか、例えばV1の方位選択性細胞など、表現のベースとな るものが学習によってどの様に出来上がってくるのか、という問題です。 この問題を私(阪口)と樺島さんで古典的な話から最近の話題までを一通りレ ビューします。 また、午後の後半担当の池田さんには、この問題を数理的なアルゴリズムの立 場から、隠れ状態推定という別の見方で議論してもらいます。 2.神経細胞間の相互作用:ダイナミクスを通じた情報の修飾 2番目の問題は、神経細胞はネットワークを通じて相互作用しながら働いてい るわけですから、その中にダイナミクスが生じますが、こうしたダイナミクス を通じて、どの様に情報表現が修飾されるか、という問題です。 これについては、午前の後半に、V1で Horizontal Connection などを通じ て、情報表現が修飾されていく過程を佐藤先生に議論してもらいます。 3.情報表現の時間的変化:時間軸上での情報表現、情報解析の順序 3番目の問題は、2番目の話でのダイナミクスを通じて生じた情報表現の修飾 が時間変化することが考えられるわけですが、こうした修飾を通じて、個々の 細胞で情報表現がどの様に時間的に変化するのか、という問題です。これは脳 の中で情報解析がある順序に従って進められているときに、その情報解析の過 程が、1つの細胞の活動に表れているのではないかと考えられます。 これについては、実際にIT野の神経細胞で情報表現が時間変化していく様子 を菅生さんに話してもらいます。 ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ {\gt \Large 脳内情報表現への情報理論的アプローチ} 阪口 豊 (電気通信大学大学院 情報システム学研究科) 樺島 祥介 (東京工業大学大学院 総合理工学研究科) \section{情報表現機構の自己形成モデルの変遷(阪口)} ● 1970年代 Hebb学習に基づく初期のモデル  1970年代には、視覚野に見られる特徴抽出細胞が生後の感覚体験を通じて形成 されることを示唆する実験報告が相次ぎました。(e.g. Blakemore \& Cooper 1970) このような報告を受けてこの時期には、この現象を説明するための神経回路モ デルがいくつか提案されるようになりました。 ◎ Malsburg 1973, Amari-Takeuchi 1978 : 特徴抽出細胞の形成   特徴抽出細胞の自己形成を説明する学習モデルを始めて提案したのは、 Malsburg であり、最初のモデルでありながら重要な問題を殆んど尽くして いると言えるほど、良くできたモデルで、一度は目を通されるのがいいと 思います。その後、Malsburgのモデルを変形した様々なモデルが提案され ましたが、その中でも数学的にシンプルな形で定式化されている Amari- Takeuchi のモデルをテキストで紹介してます。 これらのモデルの基本的な点は線形閾値素子の細胞とHebbの学習の組合わ せで、特徴抽出細胞の形成を説明できるということです。 ◎ Amari 1980, Takeuchi-Amari 1979 : トポグラフィ、コラム構造の形成 互いに近くに位置する特徴抽出細胞はよく似た刺激に対して反応するよう になるという性質を一般にトポグラフィ(topography)とよびますが、トポ グラフィは、視覚野に限らず他の感覚野にも普遍的に見られる構造です。 Malsburgの数値実験の結果も、トポグラフィの性質を示していましたが、 70年代後半から80年代にかけて、特徴抽出細胞の形成だけでなく、 トポグラフィやコラム構造など、細胞の空間的な位置に関する構造の形成 に焦点を当てて議論されるようになりました。これらに関してもHebb学習 が中心的な役割を担っています。 ◎ Kohonen 1982 : 自己組織化マップ (SOM) Kohonenはトポグラフィの自己形成モデルに関するエッセンスだけを取りだ し工学的なモデルを提案しました。 以上のように、70年代にはHebb学習を細胞レベルでアルゴリズムに組み込む ことによって特徴抽出細胞やそのトポグラフィが説明できるというボトムアッ プの考え方で研究が進められていたと言えます。 ● 1980年代 最適化問題としての定式化 80年代に入るとこれまでのようなボトムアップの考え方ではなく、システム が情報表現に関して望ましい機能を形成するためにグローバルな指標をとり、 それを最適化する問題としてトップダウン的に学習則を導くモデル化が増えて きました。 ◎ Linsker 1988 : 情報量最大化原理(Infomax) まず1つに Linsker によって提案された Infomax theory です。神経系の 中で表現されている情報量がなるべく大きくなるような原理で回路網が形 成されていくという考え方です。 ◎ Barlow 1989 : 冗長度圧縮原理 もう1つは Barlow によって提案された冗長度圧縮原理で、脳内の情報表 現の冗長性をなるべく圧縮することが、効率のよいコーディングとなるた め、この原理にしたがって回路網が形成されるという考え方です。 ● 1990年代 計算理論、情報理論からの再定式化 最近になると計算理論や情報理論の発展により、情報理論の始点から Linsker や Barlow の原理に基づくモデルを再定式化をするようになりま した。 ◎ Bell-Sejnowski 1995 : 独立成分分析(ICA) ◎ Olshausen-Field 1996 : スパースコーディング ◎ Rao-Ballard 1999 : 双方向ネットワーク、ヘルムホルツマシン これらは何らかの評価関数をたて、それに対して最急降下法などの最適化法を 用いてモデルの動作原理、すなわち学習則を導くというトップダウンの考え方 議論を進めています。 \section{Hebb学習に基づく初期のモデル(阪口)} これらのモデルではHebb学習が中心的な役割を果たしています。 \subsection{Hebbの原理} ◎ Hebbian rule 2つの細胞が同時に活性化すれば両者の結合は強化される $\Delta w = c y x$ 一度強められると、さらに同時に活性化しやすくなるため、さらに強化されてい くというルールになっていまして、ある特定の細胞に対してチューンされた細胞 が形成されていくという特徴を持っています。 これだけでは強化するのみでしまいには発散していまうので、これを補うために 結合を弱める効果を持った以下のようなHebb学習の変形があります。 ◎ Anti-Hebbian rule ○ 2つの細胞が同時に活性化すれば両者の結合が弱められる ○ シナプス前細胞が活動してシナプス後細胞が活動しないと結合が弱められる ○ シナプス後細胞が活動してシナプス前細胞が活動しないと結合が弱められる ◎ Covariance learning 2つの活動度の共分散に応じて結合が強められたり弱められたりする $\Delta w = c (y-\overline{y})(x-\overline{x})$ \subsection{特徴抽出細胞の自己形成} 初期のモデルはアドホックな形で生まれてきましたが、本質的な問題はおおよそ 含んでいます。特徴抽出細胞を形成させるために重要な原理の特徴をまとめます と、以下のようになります。 ● 教師なし学習(Hebb学習)による入力信号の構造学習 視覚野の特徴抽出細胞は、どこかから、そのような選択性を持つように教え られたわけではなく、視覚入力のみによって選択性を獲得していくわけです から、教師なし学習を考えなくてはいけません。教師なし学習によって獲得 されるものは、感覚信号が持っている統計構造のみが決定しているわけで、 言い換えると入力信号の構造を学習したということになります。またその学 習は個々の細胞で局所的なアルゴリズムによって動作しているということが 挙げられます。 ● 相互抑制回路、最大値検出回路による活動細胞数の制御 Hebb学習では、個々の細胞の動作しか規定しないのですが、それだけではそ れぞれの細胞が勝手なことをやってしまい、意味のある構造がでてきません が、例えば、相互抑制性の結合を導入すると、同時に興奮する細胞の数が制 限され、同一の信号を表現する細胞数が制限されるため、細胞集団全体とし て様々な信号を表現できるようになります。 ● 結合荷重発散の抑制 (荷重総和一定、抑制性結合の学習、Covariance learning) 結合荷重が発散しないように結合を減衰させるアドホックなメカニズムを導 入すれば、発散を防ぐことができます。 以上の3つの組合わせで特徴抽出細胞の自己形成を説明することができます。 \subsection{トポグラフィの自己形成} 次にトポグラフィの自己組織化モデルについてです。 ● Hebb学習と側方抑制結合の組合せ 細胞間の距離に応じて、近いもの同士のあいだには興奮性、遠いもの同士の あいだには抑制性の相互結合(いわゆる側方抑制結合)を導入すれば、近く に位置する細胞は同時に活動するために、学習の結果、それらはよく似た信 号に対して反応するようになり、遠くに位置する細胞は同時に活動すること がなくなるため、異なる信号に対して選択性を持つようになります。Hebb学 習と側方抑制結合の組合せがトポグラフィ自己形成の原理であるということ になります。 トポグラフィの自己形成モデルの例: ◎ Amari 1980 最大値検出と空間近接性の効果を神経場上の相互抑制ダイナミクスで実現 ◎ Kohonen 1982: SOM 最大値検出と空間近接性の効果を直接アルゴリズムに組み込んだモデル 以上が70年代の話でした。80年代、90年代の話は樺島さんに担当してもら い、最後の Rao-Ballard のモデルだけまた私(阪口)が担当します。 \section{情報理論に基づくモデル化(樺島)} 80年代後半以降、どう話が展開したかをお話します。 ここから話の流れが少し変わります。 今までの話はミクロな細胞間の相互作用つまり学習則を考えて、 そこからどんな情報処理ができるかというように ボトムアップ的に議論を展開してきました。 ここからは まず脳の情報処理に目的があり、それを最大にするには 細胞間にどんな学習則があるべきかというように、 トップダウン的に考えてゆきます。 実はこの考え方で導き出される学習則は基本的に同じものなのですが、 この方法だと見通しが良いわけです。 ミクロから考えると、 モデルに何を取り入れるかを色々考えないといけませんが、 目的から考えることによりその複雑さがなくなります。 \subsection{冗長度圧縮原理} その基本になるのが冗長度圧縮原理というものです。 ● 自然界から感覚器官に入力される情報はほとんど冗長。 ※ 感覚器官の処理限界よりも低い情報量しか入力されていない。 自然界から感覚器官に入力される情報はほとんど冗長といえます。 例えば視覚情報を考えるとします。 網膜に n 個の細胞(0,1 表現)があったとしたら 2^n 個の表現が可能です。 その場合、網膜の細胞への入力表現はランダムに近い表現となります。 しかし、実際の視覚情報はランダムではありません。 白い壁を見た時にはほとんど値が揃った視覚情報が入力されるでしょう。 つまり、感覚器官の処理限界よりも低い情報量しか入力されていないといえます。 ● 一方、情報の表現にはコストが掛かる。 ※ 神経細胞を維持するエネルギー、細胞発火のエネルギー。 現実の表現は元々少ない情報量しかもっていないのに、 感覚器官を通すことにより多い情報量つまり冗長的な表現として入ってきます。 仮に冗長的な表現のまま処理しようとすると、 それを表現する神経細胞が多く必要になり、 エネルギー的にも損する訳です。 ● 冗長度圧縮原理:情報はなるべくコンパクトになるように、   脳内で表現が変換されている(のではないか)。 となると、生物は感覚器でいったん冗長的になった表現を 冗長度の低い情報表現に圧縮いると考えるのが普通であろうと思うわけです。 これを第一原理として考えるのがここでの話で、 80年代後半以降の流れです。 ● 殊更新しいアイデアではないが、見通しが良くなる。 冗長度をコストファンクションとしてそれを下げるような 学習則を導くと実はすでに存在していた Hebb 則がでてきます。 しかし、このように考えることで Hebb 則の目的が明らかになるので 見通しがよいわけです。 Q: Hebb 則にコスト関数を下げるような仕組みが元々入っていると するのは考えにくいのですが、 つまり、このように考える事で過去の Hebb則 のモデルに 情報量圧縮のような機能が実装されていたことが分かった ということですか? そうです、そうです。 目的から考えることで説明しやすくなるわけです。 Q: 本質的には情報量とは誰が決めるんですか? 例えば白い壁でも良く見ればボコボコがあるわけですよね。 もし生物にそのボコボコの方が生きる上で重要だとしたら そっちの方が生物にとって情報量があるんじゃないですか? ここでは、生物に情報が入ってきた時からを考えてください。 生物が重要だと思って白い壁を見ているかもしれませんが、 とにかく生物の感覚器に冗長な情報が入ってきたところから話しが 始まるわけです。 \subsection{確率モデルと情報量} さて、確率モデルという立場で今のスローガンを具体化していきます。 以下、各細胞の活動度の組合せによって脳内の情報は表現されていると 考えます。 テンポラルコーディングは考えず、 ミーンファイアリングレイトだと思ってください。 タイムスケールはあまり考えないのですが、 例えば 10ms とか 100ms 位の十分長いものを考えるとしましょう。 ● 情報表現の変換とは入力層での表現ベクトル x を特徴抽出層での   表現ベクトル y に変換すること。 ● 詳細はシナプスで決まる。 図:OHP p3 荒っぽいのですが入力表現が入った部分の 細胞の活動度をベクトル X で表しましょう。 例えばこれは網膜やLGNの細胞表現にあたります。 この X は確率的に与えられるものとします。 特徴抽出層の表現 Y は例えば V1 とかにあたります。 シナプス結合は W で表します。 脳内の情報表現の変換とは入力層での表現ベクトル X を特徴抽出層での 表現ベクトル Y に変換することです。 この W が決まることにより特徴抽出層の細胞の受容野が決まります。 ● ただし、生体内にはノイズなどの不確定要素が多いので 確率モデルが適当。 生体内にはノイズなどの不確定要素がおおいので確率モデル P(y|x)で 考える方がよいでしょう。 これは x という入力ベクトルが網膜や LGN に入ったとき V1 で y というパターンが実現される確率です。 ● 確率モデルを採用する利点は情報理論との親和性の高さ。 このような確率モデルの立場をとると、 情報理論が利用でき便利なのです。 例えば入力層に与えられる情報量は H(X)=-sum_x P(x) ln P(x) と表すことができます。 P(x) は入力パターンが与えられる確率分布です。 出力層に与えられる情報量は H(Y)=-sum_y(sum_x P(y|x)P(x)) ln (sum_x' P(y|x')P(x')) となります。 Q-3 P(y|x)が入っているのはなぜですか。 P(y|x)は x というパターンが入力層に与えられた時、 出力層で y というパターンができているという確率です。 H(Y)=-sum_y P(y) ln P(y) に P(y)=sum_x P(y|x)P(x) を代入することにより上の式がでてきます。 Q-4 わざわざP(y|x)で表現するキモチはなんですか? x が入ったら y がでるという因果律を意識するというキモチです。 更に、冗長度は Cx-H(X), Cy-H(Y) で与えられます。 Cx, Cy は入力層や出力層でのキャパシティで、 情報は Cx の程度、中に入れられるということです。 例えばこれを圧縮するように W を決めることで 学習則を作ることができるということです。 \subsection{認識モデルと生成モデル} ● 脳における情報の流れには順方向と逆方向がある。 ● 確率モデルとして書くと P(X|Y), P(Y|X)。 脳における情報の流れには順方向と逆方向があります。 順方向の流れとは、 入力 X から脳内での表現 Y までの流れをいいます。 つまり認識です。 逆方向の流れとは、 脳での表現から入力への流れということになります。 我々は頭の中で情報を生成して喋ったりしている訳です。 確率モデルとしてかくと順方向の流れとして P(Y|X), 逆方向の流れとして P(X|Y) となります。 □ P(Y|X): Visible→Hidden 認識モデル □ P(X|Y): Hidden→Visible 生成モデル 図 樺島さんのOHP p5 の下の2つのネットワークの図 P(Y|X)は認識モデルと考えることができますが、 P(X|Y)は因果律と逆で、 脳での表現から感覚器に入力されるパターンを生成する、 生成モデルとして考えることができます。 \subsection{最大/最小化原理} それでは具体的に考えてゆきましょう。 冗長度圧縮の実現には沢山のバラエティーがあります。 テキストには3つあげていますが、 ここでは情報量最大化のみ触れます。 \subsubsection{情報量最大化(Infomax)} ● 入力 x から出力 y への変換 y=G(x;w)+η このような入力 x から出力 y への変換を考えます。 x の決定論的な変換 G(x;w)があってそれにノイズηが加わってると 考えます。ノイズの性質は分かっているとします。 この変換はシナプス結合 w を変える事で変わります。 さて、どういう基準で w を決めるかということになります。 普通は Hebb 則で決めたりしていたわけですが、 ここではちょっと違ってきます。 ● 入力 x と出力 y 間の相互情報量 I(Y,X)(w)=H(Y)(w)-H(Y|X)(w) が大きくなるように w を決めます。 実はこれがを大きくすることが冗長度圧縮につながるのです。 H(Y)(w)はH(Y)が w の関数であるためです。 ところが ● y=G(x;w)+ηなら H(Y|X)(w)=const となりH(Y|X)(w)は w によらないといえます。 Q-4 それはなぜですか? ηが 0 であるとすれば、y は決定的に決まるので あいまいさはなくなり H(Y|X)=0 となります。 つまり G(x;w) の部分は H(Y|X) に関係がないのです。 ηが 0 でなくある確率分布関数 P(η) から生成されるとすれば そのあいまいさが H(Y|X) となります。 つまり、 H(Y|X) は w に依存するのではなく、 ηの曖昧さのみで決まるわけです。 そうすると相互情報量 I(Y,X) は H(Y|X)が constant なので H(Y)の最大にすればI(Y,X)も最大になります。 ● H(Y)の最大化→出力層の容量 C_Y が一定なら出力層における 情報表現の冗長度 C_Y - H(Y)(w) の圧縮。 また、出力層の冗長度は C_Y - H(Y)(w) とかけるので、 出力層の容量 C_Y が一定と仮定するならば H(Y)(w)を最大にすることは冗長度の圧縮することにもなります。 もともと処理できる容量 C_Y があって、 できるだけ情報 H(Y) を持って来ないとそんだという文脈に解釈できます。 ただしここでは C_Y を w によらないとしましたが、 論文によっては C_Y(w) とするものもありいろんなバリエーションがあります。 Q C_Y(w)はニューロンの数だけで決まるのではないのですか? そうともいえないのです。 Atick JJ nad Cardoso JF (1990). Neural Computation 2, 308 などを読んでもらうと分かると思います。 回路をどう仮定するかで変わってきます。 これが Infomax というものですが、 他にも、容量を最大化にするものや、独立成分解析というものもあります。 \section{V1 における受容野の形成のモデル} それでは、これまでのスローガンを具体化した例をここで3つあげましょう。 \subsection{Linsker のモデル} まず、Linsker のモデルの話です。 ● V1 には特徴的な形状に反応する細胞が数多く存在する。 ● 簡単な Hebb 学習によりこれを説明。 V1 には特徴的な形状に反応する細胞、例えば center surround cell や oriented selectivity cell などが数多く存在します。 これらの細胞が形成されていることを なるべくコンパクトに説明したいというのが彼のモチベーションです。 仮定したネットワークは 簡単な多層 feed-forward 型ネットワークです。 図:樺島さんのOHP p8 の下のネットワークの図 具体的にはこれらの層は網膜、LGN、V1 などに対応します。 各細胞の出力は ● 各細胞の出力 O=a+\sum_{j=1}^K w_j V_j とします。 V_j は前の層のj 番目の細胞からの出力で w_j はその細胞からのシナプス荷重値です。 この場合は線形出力としています。 それに対して Hebb 学習を考えます。 ●Hebb 学習 <Δw>=η[+b+c+d] =η[sum_j C_ij w_j +λ(μ-sum_j w_j)] 通常の Hebb 学習というのは の項だけなのですが、 この場合はその他の項があります。 また、Hebb 学習は平均化しておこないます。 この学習は以下のコスト関数 ● E=-1/2 w^T C w +λ/2(μ-sum_j w_j)^2 に関する最小化になっています。 これを微分すれば上の式がでてきます。 彼の偉いところはこのコスト関数を出したところでしょう。 これは Infomax になっていると解釈することができます。 しかし、上のままの学習則だと w が発散する場合があります。 そのために ● パラメータの発散を防ぐための拘束条件 w_min <= w_i <= w_max を導入します。 これを越えると強制的にw_min(w_max)に固定することにします。 シュミレーションは まず始めの層は全くランダムな入力を入れ、 A→B 層の学習後 B→C 層等、順々に行います。 すると、上位層に以下の様な特徴抽出細胞が形成されます。 ●C層:center-surround cell あるスケールの円について反応する。 ●G層:orientation-selective cell ある方向のバーについて反応する。 図 樺島さんのOHP p10 受容野形成の結果の図 プラスの記号はそこに刺激が入ってきたとき細胞が興奮されるという意味で、 マイナスは抑制されるという意味です。 Q-6 ランダムな入力なのに図のような大きさが決まるのは何故ですか? パラメータのチューニングによって決まります。 ただ、このモデルはノイズが入力になっていますが、 実際の人の目にはそのような入力は入っていません。 それなのに上のような特徴抽出細胞ができるというのは むしろおかしいような気もしますね。 モダン直前のモデルと言えるでしょう。 \subsection{Olshausen and Field のモデル} 次にモダンなモデルとして Olshausen and Field のモデルを説明します。 V1における特徴抽出細胞の特徴をあげると ● V1における特徴抽出細胞の特徴 i)局在性 ii)方位選択性 iii)スケール選択性(ある大きさやバンド幅でしか反応しない) などがあります。 また、もう一つの特徴があります。 それは ● もう一つの特徴:発火の活動度が低い という事です。 これらの特徴を説明するモデルは幾つもありましたが、 全て同時に説明するものはありませんでした。 彼のモチベーションとしては これらの事実の関連を情報理論的なモデルで 一挙に説明してやろうということです。 彼のモデルの特徴は ● V1→LGN の生成モデルでモデル化 をしているところです。 LGN→V1ではないことに注意してください。 画像を I(x,y) とし、以下のモデルを考えます。 ● V1での細胞活動度 a_i を用いた LGN での画像構成 I'(x,y)=sum_i a_i φ_i(x,y) これは脳が画像を予測するというモデルです。 脳は外界の画像情報をうまく予測すべきであろうという立場です。 また、 ● |a_i| が大きくなるのは損(スパースコーディング) ということを考えます。 エネルギーを多く使うのは損であるということです。 実験事実として確かめられていることです。 すると最小化問題が定義できます。 ● 最小化問題 E(a,{φ_i(x,y)})=-[preserved information]-λ[sparseness of a_i] [preserved information]=-sum (I(x,y)-I'(x,y))^2 [sparseness of a_i]=-sum_i S(a_i/σ) [preserved information]はモデルが外界をうまく予測できないと損をする、 [sparseness of a_i]は a_i が大きいと損をするという項です。 S(a_i) は a_i が小さくなれば大きくなるという関数です。 λはうまく折り合いをつけるためのパラメータです。 (**注:要検討**:と樺島先生はいってますが、 S(a_i) は単調増加関数という気がするのですが…) この最小化問題をとくとどんな φ ができるかというのが ここでの話なのです。 E を最小にするには最急降下方を使えばよいので、 d a_i は ● 活動度 a_i の変化:速。その間結合φ_i(x,y)は固定 d a_i /dt=-dE/d a_i (右辺の d は偏微分記号) =b_i-sum_j C_ij a_j - λ/σ S'(a_i/σ) ( C_ij = sum_xy φ_i(x,y)φ_j(x,y) ) となります。 第二項はスパースコーディングになるための項です。 第一項の C_ij は細胞 j が細胞 i が相互作用するという項ですが、 C_ij = sum_xy φ_i(x,y)φ_j(x,y) という形になっています。 φ_i(x,y) も φ_j(x,y)も V1 から LGN への結合なのですが、 φ_i(x,y) を逆向きに使って相互作用するという形になっています。 対称結合を仮定していることになります。 図 樺島さんのOHP p13 下のネットワークの図 一方結合 φ_i(x,y)の変化は遅いとします。 その間多数の画像が提示されるとし、平均で学習が行われると考えます。 ● Δφ_i(x,y)〜 -d_I/dφ_i (右辺の d は偏微分記号) =η_I ここでの a(φ,I) とは 結合φと画像が与えられたとき、 上で説明した式のダイナミクスで収束した a ということです。 この φ_i(x,y) のダイナミクスの式は、もし、 図 樺島さんのOHP p14 下のネットワークの図 のように LGN で実際の画像 I と予測した画像 I' の差が表現されている と考えれば、その差と a_i の掛け算で表されているので Hebb 則のようになっているといえます。 つまり、コスト関数を計算することで逆にHebb 則が導かれたことになります。 シミュレーションの結果は ● i)局所性 ii)方位選択性 iii)スケール選択性 のすべての特徴を持つ受容野がV1に形成された 図 樺島さんのOHP p15 受容野形成の結果の図 ということです。 でもこれは本当は受容野といわないですよね。 この図は出力層を発火させた時、入力層がどう発火するかという図なのです。 彼らは暗黙に同じ大きさの双方向の結合を仮定しているわけです。 \subsection{Rao-Ballardのモデル(阪口)} 最後にRao-Ballardのモデルについて簡単に説明します。このモデルの特徴をま とめますと以下のようになります。 ● 双方向性ネットワークを用いた情報表現機構の学習 基本的には双方向性の階層型ネットワークを用いて情報表現の学習モデルを つくるというスタンスです。その心は、午後の池田さんの話と関連しますが、 上位層が隠れ状態を表現していて、その隠れ状態から生成される予測との誤 差を下位層が表現しているということです。上位層から下位層への結合は、 「上位層でこのような情報を表現しているなら下位層ではこのように観測さ れるはずだ」という予測をしていまして、下位層から上位層への結合は、そ の予測と実際の観測信号との誤差を伝達していると考えているわけです。こ のような階層構造が何層にも重なって、段々と情報処理が進んでいくという のが彼らの基本的な考え方です。 このようなネットワークを考えることで最近報告されている実験で見られる ような、contexual modulation や end-stop cell などが説明できるという 話です。 ● 生成型(モデルベース、トップダウン)の情報表現 モデルの基本的なスタンスとして、生成型、すなわちモデルベーストの考え 方をしましょう。上位層から下位層への結合に形成される内部モデルに基づ いて下位層への入力信号をなるべくよく近似するにはどうしたら良いかとい う問題です。これには、2つのレベルがあります。 ◎ 動作則: 個々の入力信号に対し、予測誤差を最小化するような上位の表 現を選ぶ。 これは1回の入力信号に対して、最終的な細胞活動パターンに至るまでの 過程です。 この動作則は、評価関数を活動パターンについて最急降下法を用いること で導かれます。 ◎ 学習則: 入力信号の集合に対し、平均的に予測誤差を最小化するような 内部モデルを形成する。 繰り返し様々な入力信号を与えることにより、上位層から下位層への結合 荷重を適切に更新していく学習の過程です。 この学習則は、評価関数を結合荷重について最急降下法を用いることで導 かれます。 ● 評価関数 具体的には3つの層を考えまして、以下のような評価関数を立てます。 E = (入力層における入力信号と予測の差) + (中間層における内部表現と上位層からの予測の差) + (内部表現の分布を規定する量) %%% テキストの図5 挿入 %\epsfile{file=rao.eps,height=40mm} さてこの後は、このモデルのデモンストレーションになります。 数値実験1: end-stop cell の再現 ◎ ネットワーク構造: 3層構造 入力層: 画像を受け、予測誤差を計算するのみ 中間層: 32素子モジュール×3、各素子の受容野16×16ピクセル 受容野のシフト 5ピクセル 上位層: 128素子モジュール×1 ◎ 素子入出力関数: 線形モデル ◎ 入力画像: 自然画像にガウシアンフィルタ 上のような3層構造のネットワークの入力層に図2aのような自然画像を見せ ていきます。 如何にも野生動物が見ているような画像ですが、このような画像を繰り返し見 せて、先ほど説明した学習則を適用します。そうすると中間層に図2bのよう なガボール型のような受容野特性をもつ素子が形成され、上位層には図2cの ような受容野特性をもつ素子が形成されます。 %%% Rao-Ballard の自然画像がある図(Fig.2) 挿入 このようにネットワークが形成された後に、線分を見せることによって end- stop cell の特徴を再現します。 end-stop cell とは、線分、エッジ、grating(縞模様)などに対して反応す るものの、それがある程度の長さをもっていると活動が弱まり、それがごく短 い場合や途中で寸断されている場合(つまり、端点やかど)に対して強く反応 する細胞です。このような細胞は、境界部分を検出するため働きを担っている と考えられています。 %%% Rao-Ballard の end-stop cell の再現の図(Fig.3) 挿入 図3aは受容野の中に入るぐらいの短い線分を見せた場合で、図3bは受容野 をまたぐような長い線分を見せた場合です。中間層で誤差を検出する素子の反 応が髭みたいに見えていますが、短い線分ではその髭が長く、長い線分の場合 は、髭が短くなっているのがわかります。したがって短い線分では反応が大き くなり、長い線分ではあまり反応しない素子があることがわかります。このよ うな素子についてもう少し詳しくみていくと、図3cですが、横軸が見せた線 分の長さで、縦軸がその素子の反応です。$r$ が中間層の内部表現を表してい て $r^{td}$ が上位層からのトップダウン信号を表しています。その差を実線 で示していまして、これが誤差検出素子の反応です。線分が長くなるにつれて 一旦反応が大きくなり、そして活動が落ちていくという傾向がわかると思いま す。このように、このモデルで end-stop cell の反応特性を再現できること がわかったと思います。 %%% Rao-Ballard のフィードバック結合を切った図(Fig.5) 挿入 さらに end-stop cell の再現には上位層からのフィードバック結合が重要な 役割を果たすことを示したのがこの図5aです。このモデルでフィードバック 結合を切ると線分を長くしても活動度が落ちないので、 end-stop cell の特 徴がなくなります。実際に生理学実験でも第6層を inactivate すると右側の 図のように同じような結果を示しています。これがフィードバック結合の切断 に対応していて、end-stop cell の再現にフィードバック結合が重要であるこ とを彼らは主張しているわけです。 ◎ 実験結果と解釈: ・中間層の受容野は、Gabor型 ・中間層の誤差検出細胞は、end-stop cell に似た振る舞い ← 上位層は長い線分を表現 短い線分を与えると誤差成分が中間層に現れる さてこのモデルの心をまとめますと、自然画像の中には非常に短い線分はあま り出現しないので、そのような画像を何度も何度も見せられることによって上 位の層には長い線分を表現するような構造が形成されてくるわけです。その状 態で、これまでの経験から逸脱するような刺激である短い線分を見せると、上 位層では表現出来ないために中間層にその誤差を抽出する成分が見られるよう になり、end-stop cell と同様の振る舞いを示す細胞が観測されるというスト ーリーになっています。 数値実験2: Contexual Modulation の再現 ◎ ネットワーク構造: 3層構造 入力層: 画像を受け、予測誤差を計算するのみ 中間層: 32素子モジュール×9、各素子の受容野9×9ピクセル 上位層: 64素子モジュール×1 ◎ 素子入出力関数: arctan(x) ◎ 入力画像: 白色化  近年、視覚系の神経細胞の活動が、従来の意味での古典的受容野の周囲に提示 された刺激の影響を受けることが多くの研究者によって報告されていまして、 この現象を Contextual Modulation と呼んでいます。詳しくは佐藤先生が後 でお話してくださると思います。この Contextual Modulation もこのモデル で再現できるということを Rao-Ballard は示しています。 %%% Rao-Ballard のcontextual modulation の図(Fig.6ab) 挿入 先ほどと同様に十分画像を入力してネットワークが形成されたあと、図6aの ような横縞模様を見せてやります。領域の中心部分に受容野を持つ中間層のあ る誤差検出素子の反応を縦軸にしています。これは横縞を見せたときに反応す る素子ですが、その周囲に縦縞を入れてやると更に反応が強くなり、また領域 全体に広がるような横縞では、反応が落ちています。また、受容野には横縞が ない場合でも、両側に横縞があると反応が少し誘起されます。 図6bのような離散的な図形を見せた場合でも同様に周囲に同じものがあると 反応が弱まり、違うものがあると反応が強まり、また受容野に適刺激がなくて も周囲に同じようなものがあれば反応が誘起されます。 これらの素子は典型的な Contextual Modulation の振る舞いを示していると 言えます。 ◎ 実験結果と解釈: ・中間層の受容野は、Gabor型 ・中間層の誤差検出素子は、典型的なContextual Modulation を示す ← 上位層は大域的に一様な構造を表現 非一様な部分は誤差成分として中間層に現れる これも心は先ほどと同じで、大域的な一様性を表現する構造が上位層に形成さ れたとき、非一様な部分は誤差成分として中間層に現れてきます。これが Contextual Modulation を示すメカニズムであると彼らは主張しているわけで す。 以上 Rao-Ballard のモデルの基本的な枠組みは、Olshausen-Fieldのモデルと同 じで、生成モデルを使っていて、さらに評価関数の入れ方が殆んど同じだと言え ます。しかし、出来上がったモデルは、こちらの方がすっきりしているといえる のではないでしょうか。またこのモデルで生理学実験で観測された様々な現象が 説明できたというところがこのモデルの特色でした。