NISS2000 総合討論講義録  レポーター:西川 淳、 舘 俊太 ------------------------------------------------------------------ [A1] 題名: 大脳基底核の強化学習はどこまで正しいのだろうか 発表者: 雨森 賢一 玉井 信也 要旨: 大脳基底核で強化学習が行なわれているという仮説のもとで、その適用範囲がど こまであるのかを議論と実験から明らかにしたい。近年の報告によると、基底核− 視床−大脳皮質回路とドーパミン性細胞によって強化学習が行なわれると考えられ ている。ここで問題となるのは、この時に用いられる学習則はBartoらの仮説どお りTD学習であるかということである。もしマルコフ性を仮定しているTD学習を 用いているのならば、非マルコフ的な問題は解けなくなるはずである。 そこで、サルで実行可能な具体的なマルコフ、非マルコフ的なタスクを考案した。 マルコフ的なタスクとして情報が順番に伝達する場合を考え、非マルコフ的なタス クとして問題空間が毎回隠れた規則で更新される場合を考える。まず、マルコフ的 なタスクが出来るかどうか実験する。これができないならば強化学習自体が疑わし いことになるが、できるならば強化学習を指示することになる。次に、非マルコフ 的なタスクが出来るかどうか実験する。これで急に解けなくなれば、この問題を強 化学習で解こうとしていることの裏付けとなるだろう。しかし、もし比較的簡単に 解けるようであれば、強化学習の他に予測・推論を行なっていると考えられないだ ろうか。この観点からすると、大脳皮質からの投射を切除することで、推論を行う 経路が特定できる可能性がある。この場合、大脳基底核でマルコフ問題を、大脳皮 質で非マルコフ問題を解いていることになる。 質疑(敬称略): 鮫島:大脳皮質で非マルコフ問題を解くというのは、非マルコフ過程の隠れた状 態を大脳皮質が推定していて、その結果を元にして強化学習を行なうということで すか? 雨森:そうです。相手の隠れたアルゴリズムや規則を大脳皮質で推定した上で、 その情報が基底核に送られているのならば、強化学習の枠組みで行なえるのではな いかと考えています。 鮫島:これを元にして、非マルコフ的な問題をどうどけば良いか具体的なアルゴ リズムはありますか。 雨森:申し訳ありませんが、今は特にありません。 銅谷:基底核における強化学習を検証するために、非マルコフ問題を使おうとい うアイデアだと思います。しかし、もし非マルコフ問題にして急に解けなくなった ときに、その原因が基底核の強化学習だといえるのでしょうか?単に、問題が難し くなったためにそのような結果になっているだけということになるのではないでし ょうか? 雨森:それはもっともなことだと思います。これは、どれくらいのことができる のかという、分け方の一つだと思ってまして、例えば、マルコフ・非マルコフとい う分け方で分かることがあるんじゃないかという提案なのです。 銅谷:状態が部分的にしか観測できない時には、状態推定をまじめにやる場合の 他に、それは諦めてしまって分かっている情報だけでなんとかしようとする場合と があります。その場合には、ある条件で非決定的なポリシーが支配的になることが あります。そういう現象が起こっている場合にはどうなるのでしょうか。まあ個人 差はあると思いますが、まじめに状態推定をやる人ともっとちゃらんぽらんに stochasticにやる人などいろいろ出てきて、それと実際の脳活動との対応を取れれ ば、おもしろいんじゃないでしょうか。 伊藤(真):私達のグループの立場からいうと、それを否定されてしまうと大変つ らいです。ただ、私はTD法というのは非常にシンプルな方法であって、これから も、例えば非マルコフ用などといったように、どんどん拡張されていくものだと考 えています。また、状態推定は、やはり大脳がやっていると思いますが、おおもと は基底核でやってほしいとも思います。 銅谷:そのコンテクストの推定は大脳皮質のどのあたりでやられてると考えてい ますか? 雨森:前頭前野でワーキングメモリがあるという話もありますので、そういう計 画的なことは前頭前野でやられていると仮定して、そこからのパスを切除してやっ て同じ事が出来るかどうかを実験することで皮質からの情報表現について何らかの 手がかりが得られるのではないかと思います。 銅谷:パスを直接切除するのは難しいと思いますが、ムシモルなどの薬剤を皮質 に投与し、一時的に麻痺させることで同様の実験が行えると思います。また、そう いう意味で東北大学の丹治先生の行なった実験でタスクの切り換えにpre-SMAが 関わっているという結果が得られておりますので、もしかしたら何か関連があるか もしれません。 ------------------------------------------------------------------ [A2] 題名: MPFIMにおけるモジュールの新規作成とタスクの類似性の関係 発表者: 山本 慎也 四本 裕子 伊藤 貴之 要旨: まず、運動の時に内部モデルが獲得されることを前提とする。また今水先生は新 しい運動には新しい別の内部モデルが生成されるという報告をしている。しかし、 既存の内部モデルが行なうタスクと良く似たタスクを行なう時には、既存の内部モ デルを少しづつ修正していくのではないだろうか。このことを検証できる実験を考 えたい。 今水先生の回転マウスの実験を改良して、回転を60°から120°まで10°づつ変 えていき、最後に60°に戻すというタスクを行なう。この際、各タスクでの学習時 定数とfMRI画像を測定する。結果の予想として、次の3つが考えられる。一つ目 は、全く独立なモジュールで学習が行なわれるという場合で、角度によって時定数 はあまり変らず、fMRI画像では、別々の位置に神経活動が見られるはずである。二 つ目は、一つのモジュールで学習が行われる場合で、角度によって時定数はすこし ずつ減少し、fMRI画像ではただ一つの場所に神経活動が見られるはずである。3つ 目は、部分的にモジュールが共有される場合で、時定数は2つ目の場合よりは減少 が遅く、fMRIでもその中間の現象が見られるはずである。以上のように、タスクを 少しずつ変化させていくことでモジュールがどのように切り替わるか、修正される かを学習の時定数とfMRI画像を用いて調べることが出来る。 質疑(敬称略): 阪口:角度を変えていくことによって、時定数は減少するとは限らず、途中で飽 和したりすることがあるのではないか?さらに、その結果から、モジュールがどれ くらい重なっているかということが分かるのではないか? 山本(慎):もちろん、そういう可能性もありますが、変化させる角度の量を非常 に小さくしてやれば、おそらく一つのモジュールで学習が行なわれると思います。 その場合には、飽和するといったことは回避できるのではないでしょうか? 阪口:一つのモジュールの時はそうだと思いますが、部分的に共有されている場 合や独立の場合などはどうなるのでかというのは疑問です。でも、考え方自体はそ の通りだと思いますし、fMRIでみるというのはおもしろいと思います。 銅谷:この場合、意識、変化に気がつくかどうかで小脳の活動は変ってくると思 いますか? 山本(慎):変ってくると思います。ただ、意識した場合、意識的に同じことをし ようとするか、違う事をやろうとするかで結果が変ってくると思います。これは intentionが内部モデル形成にどう関わってくるかという問題で、重要だと思います。 新田:この実験では、10°づつ一定の変化の仕方で変えられているので、その 系列自体を学習してしまうのではないか? 山本(慎):つまり、追跡用の内部モデルと角度変換内部モデルという2つの内部 モデルがあるという考え方ですね。その点については、この後のA3グループの発 表でくわしくでてくると思います。 道川:そういう問題であれば、もう一つのコントロール実験として、角度の変化 の仕方や順番をランダムにするようなタスクをやらせれば良いのではないか? 山本(慎):今は10°ごとに変化させていますが、例えば90°付近で急に坂を作 ってやったり、いろいろ考えられると思います。また、これは空間コーディングと も関わってきて、とても面白いと思います。 銅谷:その学習時定数を計るには、実際にはどれくらいの時間が必要なのか? 山本(慎):この時定数ひとつを計ることが、今水さんの実験にそのまま対応して いますので、大変時間がかかるとは思います。 銅谷:そうすると、うまく実験計画を立ててやらないといけないということです ね。 ------------------------------------------------------------------ [A3] 題名: MPFIMにおけるモジュールの混合によるパフォーマンス混合の確認 発表者: 大羽 成征 王 懐成 森川 幸治 根本 憲 橋本 幸紀 要旨: 春野さんのMPFIMでは複数のモジュールの混合によってパフォーマンス混合が 行われると考えられており、それは責任信号のsoftmaxによって実現されている。 しかし、このモジュールの混合は実際に我々の脳内で行なわれているのだろうか。 これを検証する方法を考える。 スキーム1では、まずタスクAを学習させてモジュールAを生成させ、タスクB を学習させてモジュールBを生成させる。この時、AとBの線形結合で実現される ようなタスクCを学習させた時、学習曲線はどうなるか。もし、誤差がA,Bよりも 小さくなれば、モジュールの混合を支持していることになる。また、スキーム2と して、モジュールA,Bを生成させた後で、タスクAを徐々に変化させていきながら モジュールをA'へ変化させ、さらにその後でタスクCをした時に、モジュールをA のままでやった時と違いがでるか。もしでるならば、タスクCはモジュールAとB から実現されている事になる。このようなスキームを実現できる実験系として輪投 げ課題を考える。 タスクA、B、Cとして、2m、4m、6mの輪投げを採用する。結果の予想とし ては、モジュールの混合が行われる事によって、モデルAのみよりもモデルBも学 習された後の方が中間的タスクCの誤差が小さくなると考えている。 質疑(敬称略): 五味:この考え方だと、学習の速さを比べているわけですが、責任信号をsoftmax で振り分けるところで、学習が大変になると考えられるため、学習の速さだけから モジュールの混合が行われているかいないかは分からないのではないか。 滝:つまり、時定数が小さくなった場合はモジュールの混合だといえるが、なら なかった場合は何がおこっているのか分からないという事ですね。 大羽:A+Bがモジュール混合で実現されていれば、学習の最初の時期から誤差が 小さくなると思います。この場合、責任信号の振り分けの学習には時間がかかるか もしれないが、初期の段階で混合をしていれば、していないよりは誤差はかなり小 さくなると考えてます。 五味:例えばAのまわりのどれくらいを学習させるということで、学習の誤差分 散をコントロールするとかいうことはできないでしょうか。その時のタスクCを観 察してみたら面白いのではないでしょうか。 滝:2mの投げ方を習得したら、4mも6mもすでにかなりうまくなっているよ うな気がします。あと、輪投げ自体がかなり複雑な運動になっているので、こうい った実験タスクとしては不適切な気がするのですが。 小林(祐一):入出力関係自体はそんなに変らないので、2,4,6mのどれも同 じモジュールで出来てしまうと思うのですが。 大羽:心の中にあったモデルでは、近いところへは普通になげて、遠いところに は、もう助走とかつけて思いっきりなげるといったように、全く異なった運動であ るのに、タスクのパラメータはうまいこと線形になっているので、このギャップを うまく利用できないかと思ったんですが、いろいろ難しい問題もあるようですね。 道川:これは、一度モジュールを生成してしまった人は、次の実験をやることは できないわけですよね? 大羽:そうです。したがって、この実験をするためには、非常に沢山の被験者が あると思います。これはモジュールの形成過程を扱うので、一度モジュールが出来 てしまった人は用済みになってしまうんですね。(笑)いろんなモジュールの規格化 を被験者間ですることによって、このあたりをうまく解決しないといけないと思っ ています。 銅谷:まず、タスクA、Bを一回やるだけではうまく学習できないので、何回も A,B,A,…と何回もやってからタスクCをやって、その誤差曲線がが初期のころの誤 差に近いのか、それとも最後のころの誤差に近いのかといった比較が必要ではない でしょうか。あと、タスクに関してですが、春野さんの場合でも、入力が同じでも 負荷が違うために違うモジュールが必要なのであって、この実験の場合では入力が 違うわけだから、同一のモジュールで出来てしまうと思います。そういう意味では、 この輪投げでも、例えば風を吹かすとか、空気抵抗を変えてやるなどといったこと をやらせた方がよりクリアな実験になるんじゃないでしょうか。 ------------------------------------------------------------------ [B1] 題名: 探索ラットロボットを作れ!!(その第一歩) 発表者: 伊藤 真 竹村 文 宮崎 崇史 小林 祐一 要旨: ラットは底の見えないプールで泳がせた時に、足場の位置を的確に学習する。こ れと同じ事が出来るラットロボットはどうすればつくれるだろうか。この時に問題 となるのは、感覚入力と運動出力が莫大な数になるということである。脳は、この 問題を解決するためにそれぞれをある程度まとめてしまって感覚入力の内部表現を 海馬で、運動出力の行動司令を基底核でなるべく少なくコードしているんじゃない かと考えられる。本実験の目的は、どのような内部表現、運動司令があるのか、そ れはどのように生成されるのかを明らかにすることである。 ラットの内部表現と行動司令としては、身体座標モデルとプール座標モデルの2 種類が考えられる。身体座標モデルでは場所と方向を表現している必要がある。ま た、プール座標系では場所だけを表現していれば良い。ラットはどちらを採用して いるかを検証するために以下の実験を立案した。 ラットに水迷路学習をさせる前に、ラットに泳がせてプール座標の地図の獲得を させる。次にプラットフォームを作り、水迷路中の探索学習をさせる。この時、マ ルチユニットレコーディングで、海馬と基底核から同時にニューロン活動を取り、 同時にラットのからだの向きや位置を上からビデオで記録する。これによって、内 部表現と運動司令を特定できると考えられる。 また、過去、すなわちマッピング時の運動履歴などを利用して非マルコフ的な問 題を部分観測できるマルコフ決定モデルに変換するような内部処理がされているの ではないかと考えられ、生理学データと合致する、報酬信号以外も利用するような モデルができたらおもしろいと考えている。 質疑(敬称略): 雨森:非マルコフ問題を解くといわれましたが、具体的にはどうするのですか? 小林(祐一):簡単な状況としては、すべてを強化学習で行なおうとするのではな くて、隠れマルコフモデルとかで、過去の時系列情報、ここではその他のセンサー 情報などとたくさん相関を取ることで学習ができるのではないかと思います。 雨森:それでは、無理な問題もあると思うんですが。 小林(祐一):逆に非マルコフモデルを直接学習するようなモジュールが他にある という考えですか? 雨森:相手の隠れたパラメータを推定するというのは、非常に難しい問題で、た だ単に過去の時系列情報だけから特徴抽出するだけでは、うまくいかないと思って るんですが、まあ、こういうアプローチもありとは思います。 古屋敷:プール座標系や身体座標系がどのように形成されるかという問題だと思 うのですが、ラットの視点から情報を元にしたアルゴリズムといったものは考えら れるのでしょうか? 伊藤(真):例えば、壁から特定の距離と壁の外側のキューのANDで反応する細 胞があれば、場所依存性になると思いますし、方向依存性をなくすのであれば、そ ういう細胞を全部統合してORでとっちゃうといった方法が考えられます。 細谷:身体座標モデルかプール座標モデルのどちらかという話がありましたが、 例えば、これら二つの混合というようなことは考えられないのでしょうか? 伊藤(真):あると思います。私のイメージでは、どっちも状況によって使い分け ているのではないかと思っています。ある環境ではこっちの方がいい、違う環境で はこっちの方がいいというように。ただ方向選択性っていうのが気になっていて謎 なんですけど、だから、混ざるというようなこともあるのかもしれない。 銅谷:2つの座標系を切り分けるということはプラットフォームがいつも同じと ころにあったらなかなか難しいのではないかと思います。だから、プラットフォー ムの位置を変えてやったりして、なるべく身体座標系とプール座標系で状況が違う ように工夫することが求められると思います。あと、この状況だとラットがおぼれ てしまうのではないかと思うんですが。 宮崎:多分、泳げないんじゃないかと思います。でも、なんとか訓練してやりた いと思います。きっと(トライアスロンの選手である) 銅谷さんのようなすばらしい ラットもいると思いますので、泳いでくれるのではないかと思います。(笑) 渡辺:塩をいれたらどうでしょう。軽くなるのではないでしょうか。(笑) ------------------------------------------------------------------ [B2] 題名:  高速シークエンス運動の獲得と小脳への移行 発表者:  田端 宏充  道川 貴章  舘 俊太  西川 淳 要旨:  一流のテニスプレイヤーの流れるような見事なショットは、傍目には一瞬の動作 で完了するように思える。しかし、実際は数百ミリ秒続く一連の筋肉の正確な協調 動作からなっている。これらは大脳や小脳の下降路からの時系列信号と脊髄との反 射動作の信号との複合指令によって駆動される複雑な運動だが、極めて正確で瞬間 的に適応的である。現在の先端的技術を持ってしても、リアルタイム処理で同等の パフォーマンスができるロボットを作ることは不可能といって言いほど難しい。ま た熟達したプロピアニストの演奏は高速で正確な筋肉の連続動作を伴っている。こ のような動作がヒトの大脳系のループによって獲得された後に、小脳へ何らかの形 で移行するという仮説を立て、本サマースクールの講義で紹介された中原先生のグ ループの逐次運動の学習モデルを拡張する形でモデルを構築した。   質疑(敬称略): 渡辺:小脳で運動の自動化が起こるときは、視覚のアナロジーで言えば棹体と錐 体のようなことを考えればいいのでしょうか。夜になれば脳は棹体からの信号を主 に使いますが、錐体の信号が無くなっているわけではありません。それとも自動化 が進めば完全に処理が切り替わると考えていいのでしょうか。 答:運動の獲得が進んでも、各段階の処理は完全に無くなるわけではなく、パラ レルで多重的にそれぞれの部位で残ると考えています。運動がつまったときや必要 に応じて上位の処理が補完するような形ではないでしょうか。鍋谷先生はどうお考 えでしょうか。  銅谷:このモデルは小脳の各構造と対応がつくかどうかがキーだと思います。誤 差信号はどう与えられるのか。背側、腹側、小脳のどの部位か。また切り替えは重 要な構造ですが、セントラル・エクゼクティブ的に今はこちらで処理を、今はこち らという風にやるような考え方は(私には)非常に馴染みにくい。やはり一種ボトムア ップ的にもしくは競合的に最も早く答えを出したような処理が優先されるような感 じではないでしょうか。 面白いのは彦坂研の研究で、一連のシークエンスの中で一つだけキーを換えてあっ たりすると、そこだけ視覚系の活動に移ったりする。これはまだ厳密に分析されて いませんが、こういう所から攻めていって、いつ低次のレベルの処理が行われてい つ高次のレベルに変わるか等をきちんと説明できると非常に面白い研究になると思 います。 ------------------------------------------------------------------ [C1] 題名: 自己の内部モデル、他者の内部モデルは脳のどこに存在するのか? 発表者:  亀山 克朗  松本絵理子  森本 淳  山本 憲司  渡邊 紀文 要旨:  我々は一般に自分で脇の下をくすぐってもくすぐったくない。一方、分裂病の患 者は、自分で脇の下をくすぐることで笑ってしまう。我々の脳の中には、身体の触 覚知覚について逆モデルと順モデルがあるが、先の現象の原因は分裂症患者の場合 自身の四肢の接触感覚を補償する順方向のモデル(自己モデル)が阻害されている為と 解釈されている(Blakemore et al., 1998)。自分で自分をくすぐった時にくすぐっ たいと思う動物を用いて、順モデルの存在部位、表現方法の解明につながる実験を 提案する。  対象はサルを用いる。正常なサルは自己モデルと他者モデルを持っていると仮定 する。これに対し、自己モデルを失っているサルが存在すれば自身のくすぐり刺激 によって笑う筈であり、他者モデルを失っていれば他者のくすぐりによって笑うは ずである。そのような被験者(サル)を探す。次にこのサルと正常なサルが各々自身を くすぐった状態で脳内の活動領域を比べ、自己モデルの部位を特定する。最後に正 常なサルの脳内の対応部位を破壊することによって、現象が再現されるか確認する。 これによって自己のモデル、他者のモデルが脳内でどのように表現されているか研 究できると考えられる。 質疑(敬称略): 伊藤(真):サルのことは良く知らないのですが、サルってくすぐったら笑うんです か。  答:一般のサルは笑いませんので山に行って(頑張って)探します。 銅谷:笑ったか否かをきちんと生理指標を録った方がいいのではないでしょうか。  答:口の周囲の筋電位をとって「笑い」を計測しようと考えています。  伊藤(真):ずっとくすぐると内部モデルが出来て笑わなくなるのでしょうか。  銅谷:他者の内部モデルを使うとしても、いきなりくすぐるとくすぐったいはず ですよね。どのようなトリガーを用いますか。  答:ビープ音を合図にくすぐってもらうようにします。  銅谷:一般にこのようなモデリングの妥当性を示すためには単一のタスクを説明 するのに終わらず、複数の課題にも応用できることが必要です。他にどのようなタ スクが考えられますか。  答:例えば、自分で殴っても泣かないサルとか…ですかね?  五味:くすぐったいというのは微妙な知覚です。自分の内部の心理状態や他者と の関係のような文脈で左右されるものなので、そういうものと順モデルと内部モデ ルときちんと分離して出てくるのでしょうか。例えばある刺激が快楽か否かは辺縁 系がからんでくる問題ですので、計測された「くすぐったさ」がその時々で、内部 モデルのみに準拠したものなのか、違うのか、焦点が絞りにくい可能性はありませ んか。  答:今のところコントロールとタスク状態をfMRIの活動計測で分離するような 手段のみを考えています。(順モデル内部モデルのみで説明できない場合は)、霊長類 の笑いがどのようなものかという(動物行動学的な)知見を深める方向で実験が役立つ 可能性がありますので今後の課題にします。 ------------------------------------------------------------------ [C2] 題名:  もうふられたくない〜恋の強化学習 発表者:  古屋敷智之  正本 和人  和田 克己 要旨:  恋愛を強化学習の枠組でモデル化する。人間の恋愛行動における世界を恋人の有 無、対象への満足度、恋愛の継続日数などといったいくつかの要素の関数で近似し、 各状態の報酬を定義する。モデルにおいては、状態によってドライブする複数のエ ージェントが他のエージェント(異性)を無作為に選択して、その異性にアプローチす るか現状維持かという二つの選択肢のどちらかを報酬の多寡で選ぶと言う形で恋愛 行動を近似する。Matlabを用いたエージェントシミュレーションを行った結 果、安定した学習および定性的性質を見出さなかったが、 このようなモデルを更 に改良していけば、離婚の問題や恋愛における「三日・三ヶ月・三年」問題など、 恋愛行動における定性的性質の因果関係を検討できると考える。   質疑(敬称略):  阪口:僕も昔、適応制御を説明するのに恋愛を例に出したことがあります。相手 を理解しながらアプローチするということですね。コメントがあれば皆さんお願い します。  渡辺:恋愛はそんなに単純ではなくて、失恋するとネガティブな強化学習が行わ れて行動しなくなります。後で恋愛行動が再開されるときは、ネガティブな強化学 習が消去されたわけでなく、視床下部からの信号の影響によるものなんです。一元 的な強化学習で説明していいものでしょうか。  答:行動をどう規定するかはモデルにおいて重要です。発表中に銅谷先生のおっ しゃったように二股をかけない、異性のみを好きになるといったような制限の多い モデルですので、それは考慮できないですね。  銅谷:シングルエージェントの恋愛で独立にランダムにペアを選択をしてると思 いますが、社会としてマルチエージェント的にやると面白いと思います。恋の結果 エージェントの数が増えるとか…。  渡辺:心理学には恋愛に関して面白いモデルがあります。感情には怒りや悲しみ など色々ありますが、通常はベクター(感情の主体自身)で気づいていない感情の喚起 があるのです。恋愛感情というものも大抵そうで、どちらかというと後々で主体が 「これは恋愛だ」とラベリングされるものなんです。ふられると不安状態になりま すが、それが必ずしもネガティブにのみ働く訳ではなく、(補償的に)全然好みではな い対象を無理に作って「これは恋愛だ」と行動付けしたりもする。感情のモデルと いうものはこのように非常に複雑です。  答:僕もその解釈の問題は非常に興味がありましてこの視点はぜひやってみたい と思います。シミュレーションにとり入れるには現象の時間性を考慮しなくてはい けません。今後の課題とします。 ------------------------------------------------------------------ [D1] 題名:  認識が内部モデル生成に与える影響 発表者: 滝 公介  向内隆文  妻藤公啓  前田新一  上田一貴 要旨:  本研究では追跡運動において、外乱を受けた時にそれを認識したかしないかで学 習に差が起こるか、またその外乱を繰り返し与えたときにどのように内部モデルが 更新されるか検証する。  坂口(NISS2000)の課題に基づき被験者に追跡運動をさせ、fMRIの計測を行う。 追跡運動は、被験者が気づかない程度の外乱を加えた環境で行う。外乱を加えた状 態を一定時間続け被験者がその環境に十分習熟した後、再び外乱を与えるというこ とを繰り返す。被験者は外乱を与えることを知らされるグループと知らされないグ ループとに分けて実験を行い、以下のような点を検討する。    1.外乱を与えたことを知らせた被験者と知らせなかった被験者との間で学習時に 活動する脳の機能部位に差がでるかどうか。もし差が出れば、あらかじめ知らされ た被験者は外乱のある環境での追跡運動を一種の「道具使用の熟練」という形で学 習できたと考えられる。この被験者A群と、意識しないで学習を行った被験者B群 とを比べて、脳内の学習する部位が異なるか否かを確認する。 2.外乱を与えることを知らされなかった被験者では、外乱を変更するたびにAfter Effectが観察されることが期待される。繰り返し外乱を与えた時に、このAfter Effect の時定数が減少する(学習が起こる)のか、もしくは変わらない(学習が起こらない)の か計測し、脳が外乱に対する新たな内部モデルをいかにして作り上げているのか検 証する。   質疑(敬称略):  銅谷:脳のどういうところにこの機能があるのでしょう。どこを調べたらいいの でしょうか。  答:恐らく小脳だと思います。  答:阪口先生の実験でアフターエフェクトが気がついてないときのみ出るという 現象に非常に関心がありました。階層的な構造が効いているかと思いますが、もし それがあるなら小脳を調べた時に活動パターンの違いが出てくる筈です。これらは 我々できちんとしたモデルを作ったわけではありませんが…。またいわゆる上位か ら、例えば大脳皮質から切り替えの信号が来ている可能性もありますが、それが見 つかっても面白いですね。繰り返し構造で外乱を与えることによって、アフターエ フェクトが減少するか減少しないか見るわけですが、このときモデルとして単一の モジュールによる学習モデルを考えた方が適切なのか、それとも複数の競合モジュ ールから機能が成立しているのかという点をこの研究を通して考察できると思いま す。  銅谷:実験中、教えられて気がつくのと自分で気がつくのとの違いがありました が、これは(例えば意識といった)、どの部位の脳内信号処理の違いとして反映される のでしょうか。また、ただ小脳が活動するというだけは説得力が弱いですね。どう いった活動パフォーマンスとどの小脳のアクティビティが対応付けられるかが必要 じゃないでしょうか。  答:まさにその点は調べてみたいです。 ------------------------------------------------------------------ [D2] 題名:  仮想研究計画 発表者:  森岡 涼子  細谷 俊彦  浦久保 秀俊  石田 文彦  小林 祐喜 要旨:  北澤(NISS2000)の到達運動の課題を枠組みとし、運動学習において誤差信号がど こから発して報酬系とどのように関わるのか、検証するタスクを提案する。具体的 には以下のようにアレンジしたタスクを通して運動学習と報酬系の仕組みを定性・ 定量的に調べる。    1. クライミングファイバーを切除した状態で下オリーブ核を発火させる。(到達 誤差の変化にどう影響するか。)  2. タッチ終了後に目標を見せない。(目標と手の位置をいかに比べて誤差信号を 出しているか?)  3. 手を見えないようにする。(位置を憶えていて実際の手の位置と比較できるか?)  4. エラーシグナルの発生に報酬期待が必要か? (何回かに一度、間違っていて も報酬を与える。これをULタスクと呼ぶ)  5. タスク開始後、エラーシグナルが出る前にULであることを教える(ターゲ ットの色を変えて知らせる)  6. エラーと報酬のタイミングをずらす。 質疑(敬称略):  阪口:私も誤差信号がどこから来るのかというのは、教師有り学習において非常 に本質的な話で、前半に述べられたような話を以前考えたことがあるので「あ、言 われてしまったな」と思いました。このタスクは、サルなら報酬でドライブできる のでこのような実験ができますね。人間では報酬でドライブするのは少し難しい部 分はある。  渡辺:アメリカ人では特に効果があるんですが、あってると何セント足す、間違 ってると何セント引くとやると報酬ドライブな学習も結構できます。  銅谷:どうやっても報酬が貰えてしまうと、サルがやる気を起こさなくなったり してきちんとコンシステントなデータが取れないのではないかという不安はありま すね。彦坂先生がやられたように工夫して、今回は報酬は無いけど、次回にまとめ てあげるといった方法を取ったり、或いは両方やってみるといった方が実験のデー タとしてはより揃った物がでるかもしれませんね。  答:そうですね。これは単純なタスクなので、現在はここで誤差信号が何をコー ディングしているかということをはっきりさせる第一段階だと考えています。  五味:細かいことですが、タスク時にターゲットの色を変えることは刺激を変え ることなので、報酬を与えたか与えなかったことによって信号が変わったのか、そ れともターゲットが変化したために信号が変化したかの判断が難しいのでは?  答:それははっきり分離させなくてはいけないですね。  阪口:特許じゃないですが、請求範囲をもっと広く言えばいいのです。北澤先生 の実験は誤差の信号と報酬が比例してて分離していなかったわけですよね。これを 分離したパラダイムを提案しましたという風に発表すれば、細かい問題はそんなに 重要でなくなります。  銅谷:質問ですが、コンプレックススパイクの最初のピークが何をやってるかで すね。  答:その部分では何らかの到達位置の予測をしてる訳です。発表するかどうか迷 ったのですが、タスク開始直後に下オリーブ核を刺激してやって強制的にピークを 誘発させたりして、結果、到達位置の分布が変わったりするかもしれない。それだ けでも面白い実験になると思います。  銅谷:その実験に関して言えば、どの範囲の下オリーブ核を刺激するかは非常に トリッキーな問題ですね。近傍に左方向や右方向をコーディングしてる領域がある わけですから。それよりも考えられるのは、視覚刺激の与え方を換えてやったらど うでしょう。今は刺激する場所もタイミングも同時に変えてます。例えば、どの場 所に行けばいいのか予め与えていてタイミングだけ変化させる。逆にタイミングは キューを与えておいてその一秒後とかに固定して予測できるようにし、場所だけか えてやる。そうすると始めのピークが何を意味しているか分析できる可能性がある と思いますね。