\documentstyle{jarticle} \begin{document} 内部モデル学習制御と腕の柔らかさ調節の統合に関して \section{はじめに} 到達運動(目標まで手先を伸ばす運動)に関する研究は古くから行われ,フィー ドバック制御機構(Feedback Control Mechanism)に基づいて説明されてきた. しかし,生体の運動制御系では,神経伝達,神経情報処理,筋や固有受容器 (筋紡錘,ゴルジの腱器官など)などにより生じる時間遅れが存在するために, フィードバック制御のループ時間(1回の制御ループに必要な時間)が大きく なってしまう. そこで,腕の運動制御機構において,フィードバック制御機構だけでなくフィー ドフォワード制御機構(Feedforward Control Mechanism)が重要な役割を果 たしていると考えられるようになり,20年程前から生理学や行動学の分野でそ の存在が実験的に確かめられた(例えば,Politら,1979; Bizziら,1984). そのようなフィードフォワード制御や軌道計画規範の存在を裏付けるような実験 に関しては以下の物が挙げられる. \begin{itemize} \item 求心神経を切断しても到達運動は可能. $\longrightarrow$フィードフォワードの可能性.(Polit,Bizzi) \item 外乱を与えても目標軌道に戻る. $\longrightarrow$運動軌道の計画.(Bizzi) \item 2点間の軌道と速度がベル型. $\longrightarrow$規範の存在(Marasso) \end{itemize} \section{3つの計算問題} 到達運動をフィードフォワードで実現するためには,3つの計算問題,すなわち \begin{itemize} \item 軌道生成:腕の運動軌道を計画する問題 \item 座標変換:作業座標系(または視覚座標系)から関節角や筋長など身 体座標系に変換する問題 \item 制御:計画した軌道を正確に実行するための運動指令(運動ニューロ ンや筋の活性化レベルを決める指令値)を求める問題 \end{itemize} が少なくとも解かれなければならない(図1). [[図1. 3つの計算問題]] ロボティクスでは,座標変換の問題を逆運動学(Inverse Kinematics),制御 の問題を逆動力学(Inverse Dynamics)と呼ぶ. これらの問題は解が一意に定まらないという意味で不良設定問題である(図2). つまり,軌道生成では腕の軌道が無数に存在し,座標変換ではある手先位置を 実現する腕の姿勢は無数に存在する. さらに,関節トルクは屈筋と伸筋の筋張力の差で生成される. このため,制御では運動に必要な関節トルクを生成するための運動指令の組み 合わせは無数に存在する. 以上のような不良設定性の存在は,運動軌道,腕の姿勢,腕の柔らかさなどが 運動の種類や目的に応じて調節可能であることを意味している. つまり,人は何らかの拘束条件や最適化原理に基づいて上記問題を解決し,運 動や対象物操作を巧みに行っていると考えることができる. [[図2. 3 つの計算問題における冗長性]] \section{フィードフォワード制御機構} 生体の運動制御系では,神経伝達,神経情報処理,筋や固有受容器(筋紡錘, ゴルジの腱器官など)などにより生じる時間遅れが存在するために,フィード バック制御のループ時間(1回の制御ループに必要な時間)が大きくなってし まう. 例えば,単シナプス性の反射(伸張反射など)でさえ約30ミリ秒必要であり, さらにトランスコーティカルループ(大脳皮質を介して閉ループ制御系)では そのループ時間は50ミリ秒以上必要となり,視覚情報によるフィードバック系 では少なくとも150ミリ秒程度以上必要となる. このため,大きすぎるフィードバックゲインは運動を振動的にさせたり不安定 にさせるため,単純なフィードバック制御だけで腕を安定に精度良く制御する ことは困難である. 従って,腕の運動制御機構において,フィードバック制御機構だけでなくフィー ドフォワード制御機構(Feedforward Control Mechanism)が重要な役割を果 たしていると考えられるようになり,20年程前から生理学や行動学の分野でそ の存在が実験的に確かめられた(例えば,Politら,1979; Bizziら,1984). フィードフォワード制御機構に関する研究は内部モデルを仮定するものとしな いものとの2種類のアプローチに大別することができる. \subsection{内部モデルを仮定しない制御機構} 内部モデルを仮定しない制御機構の代表的なものとして,仮想軌道制御仮説 (Virtual Trajectory Control Hypothesis)がある(Bizziら,1984; Hogan, 1984; Flashら,1987). これは,神経・筋骨格系のバネのような特性(粘弾性特性)を直接利用するこ とにより逆動力学(Inverse Dynamics)の計算を行わないでフィードフォワー ド制御機構を説明するアプローチである. \subsection{内部モデルを仮定する制御機構} 内部モデルを仮定する代表的な制御機構としては,フィードバック誤差学習法 により逆動力学モデルを獲得する階層神経回路モデル(Kawatoら,1987)があ る. これは,筋骨格系の内部モデル(逆動力学モデル)を学習することによって フィードフォワード制御機構を説明するアプローチ(内部モデル学習制御)で ある. このアプローチでは運動中の弾性係数は低いと仮定している. 最近,運動中の腕の機械的インピーダンスが低いことが示され(Katayama and Kawato, 1993; Gomi and Kawato, 1997), 仮想軌道制御仮説においても逆動力学の問題を解いて仮想軌道を計画する必要があることが 明らかになった. 従って,どちらの制御仮説においても内部モデル(逆動力学モデルなど)を用 いたフィードフォワード制御機構が重要な役割を果たしていると言える. \section{順モデルと逆モデル} Ito(1970)は小脳に内部モデルを形成していることを30年も前から指摘して おり,Marr(1969)とAlbus(1971)は同時期に小脳パーセプトロン仮説を提 案している. その後1980年ころから内部モデルを用いたフィードフォワード制御メカニズ ムのモデル化が盛んに行われるようになった. さらに,Kawatoらは,ItoやAllen \& Tsukahara(1974)の研究を発展させて, 大脳小脳連関,赤核,小脳の神経回路モデルとして,順モデルと逆モデルを用 いた制御メカニズムを提案した(図3). このように,学習制御系では内部モデルとして順モデルや逆モデルの存在が指 摘されており,重要な役割を果たしていると考えられている. 順モデルの主な役割は運動指令の遠心性コピーを用いて,1)次の状態や実 現軌道を予測する,2)内部フィードバック制御を構成する,ことなどが考え られ,さらに後述の誤差変換(図6(b))が考えられる (例えば,Wolpert(1997)やKawato(1999)). 一方,逆モデルの主な役割は,制御対象のダイナミクスを補償したフィードフォ ワード制御を構成することであると考えられる(例えば,川人(1996)や Kawato(1999)). [[図3. 随意運動制御スキーム]] [[図4. 順モデルと逆モデルを用いた制御]] \subsection{順モデル} 順モデル(順動力学モデル)は制御対象(Controlled Object)と同じ入出力 関係をもつモデルである. 入力は運動指令(関節トルクや筋への指令など)であり,出力は実現軌道(関 節角度や筋長など)である. ヒトの運動制御系には大きな時間遅れが存在する. このため,フィードバック制御だけでは目標軌道を実現できないが,図4(a)の ように順モデルを用いた内部フォードバックループを構成することにより,目 標軌道を達成できるようになる. この制御系では感覚フィードバックを用いていないため,大きな時間遅れ無し に制御できるためである. しかし,順モデルを用いた内部フィードバックループでも10--30ミリ秒程度の 遅れが存在し,さらに順モデルの出力誤差が積分されていく構造になっている ため順モデルだけを用いた内部フィードバックループだけでは正確に目標軌道 を実現することは困難である. \subsection{逆モデル} 逆モデル(逆動力学モデル)は制御対象とは逆の入出力関係をもつモデルであ る. 図4(b)に示すように,制御対象を関数$f$とすると逆モデルは逆関数$f^{-1}$ となる. つまり,これらの合成写像を考えると,$x = f^{-1}(y), y = f(x)$より, $y = f(f^{-1}(y_{d})) = y_{d}$となり,正確に目標軌道$y_{d}$が正確に実 現されることになる. つまり,逆モデルに目標軌道を入力して出てきた出力を制御対象に与えること により正確に目標軌道が実現できるのである. 従って,逆モデルは理想的なフィードフォワード制御器である. また,ヒトの筋骨格系は非線形性が強いため,特に逆モデルを用いた制御は有 効である. \section{内部モデル学習} 順モデルは,図5(a)に示すように,制御対象と順モデルに同じ入力を与え,そ のそれぞれの出力の誤差を用いて学習することができる. つまり,この誤差を小さくするように順モデルのパラメータを更新すればよい (誤差逆伝搬法など). [[図5. 順モデルの学習と逆モデルの学習の困難さ]] 一方,逆モデルの学習においては,図5(b)に示すように,逆モデルの教師信号 (正解値)が既知の場合には逆モデルの出力と教師信号との誤差を用いて学習 することができる. しかし,教師信号が既知であれば逆モデルを学習する必要はないし,一般的に は逆モデルの出力(筋の活動度を決める運動指令)の教師信号は存在しない. 観測できるのは実現した軌道だけである. そこで,この困難さを解決した3種類の学習スキームが提案されている. [[図6. 逆モデルの3つの学習スキーム]] \subsection{直接逆モデリング} この学習スキームでは,制御対象の出力を逆モデルに入力し,制御対象への入 力と逆モデルの出力との誤差を用いて学習することができる. この学習スキームはJordanによって直接逆モデリング(direct inverse modelling)と呼ばれている. この手法はもっともシンプルである. しかし,いくつかの欠点がある. 例えば, \begin{enumerate} \item 目標指向性が無い, \item 制御対象に冗長性がある場合には使用できない, \item 学習と制御で逆モデルの接続を変更する必要がある, \end{enumerate} ことなどである. \subsection{順逆モデリング} Jordan ら(1992)によって提案された順逆モデリング(forward and inverse modelling)では,順モデルを用いることにより,軌道での誤差を逆伝搬させ ることにより運動指令での誤差に変換する. この変換された運動指令の誤差を用いて逆モデルを学習することができる. この学習スキームでは,直接逆モデリングの欠点1〜3を解決しているが,予め 順モデルを学習しておく必要がある. \subsection{フィードバック誤差学習} フィードバック誤差学習(feedback- error learning)(図6(c))はKawatoら によって提案された学習スキームであり,図3における大脳小脳連関,運動野, 小脳外側部,小細胞性赤核,トランスコーティカルループの部分をモデル化し たものである. この学習スキームでは,フィードバックコントローラの出力を逆モデルの出力 誤差として用いることにより,逆モデルを学習する. つまり,フィードバックコントローラの出力が小さくなるように逆モデルを学 習するのである. 学習則は, \begin{equation} \frac{dw}{dt} = \epsilon \left( \frac{\partial x_{\mathit{ff}}}{\partial w} \right)^{T} x_{\mathit{fb}} \end{equation} と表せる. このため,学習前ではフィードバックコントローラ主体で制御されるが,学習 するにつれて逆モデルの出力を用いたフィードフォワード制御に移行する. 理想的には学習後に逆モデルだけを用いたフィードフォワード制御が可能とな る. この学習スキームでも直接逆モデリングの欠点1〜3を解決している. この学習スキームは実際に,産業用マニピュレータやゴム製の人工筋(空気圧 駆動)をもつマニピュレータの学習制御に成功しており,特に後者の場合には 200〜300ミリ秒程度の時間遅れが存在するにも関わらず精度の良い制御が可能 となっている(片山ら(1990)). \section{モジュール学習} 持っているものに応じて腕のダイナミクスは変化するので,順逆モデル をモジュールとしてそれらを複数用意し適切なモジュールを選択して利用する 多重順逆モデルが提案されている(Wolpert \& Kawato(1998)). このモデルを利用することにより,さらに適切な制御を行うことも可能である. \section{一方向性,双方向性理論} 「軌道計画→座標変換→制御」の方向に情報が流れるとする考え方(一方向性理論)が 古くからあったが,10年ほど前に逆の方向にも情報が流れるとする考え方(双方向性理論) が提唱された.一方向性理論では情報が一方向にしか流れないので,軌道計画は座標変換 や制御に関する知識なしに解かれる.それに対して,双方向性理論では双方向の情報の 流れが許されるので,軌道計画は制御の問題を考慮に入れて行うことが出来る. 双方向性理論に基づいて,経由点を通る運動や運動の認識に関するモデル(和田ら)や 見まね学習に関するモデル(宮本ら)が提案されている. [[OHPでの図]] \section{質疑} Q1:モジュール(順モデル,逆モデルなど)を繋ぐという考え方は工学的に分かりやすく スターティングポイントしては良いが,脳の中でそのようにインプリメントされていることを どの程度期待しているのか? また,他のインプリメンテーションは考えられないか? A1:理論的な話と実際どうインプリメントされているのかは分けて考えている.実際に どうインプリメントされているのかは分かっていないので,現在調べられている. モジュール構造の存在についても心理物理的な実験などで検討されている. Q2:モデルを作る上では,計算効率,神経回路的なもっともらしさ,行動学的な もっともらしさ,のどれかに力点を置くことになると思うが,そのような観点に関しての 哲学を聞きたい? A2:フィードバック誤差学習は,工学的なものから出てきたのではなく,塚原先生が 研究されていた生理学的な知見を基にしている.フィードバック誤差学習の存在については, 現在生理学的に検討されている.行動学的なレベルに関しては,モデルの構成をいろいろに 変えてシミュレーションを行った結果と実際の運動を比較したところ,順モデルと逆モデルの 必要性を示唆するような結果が出ている. Q3:今回の話は到達運動に関するものだったが,一般的な運動を脳はどのように 制御しているのか? そのような運動に関するモデルはあるのか? A3:現在検討中だが,到達運動がある程度説明できないと,より複雑な運動は 説明できないのではないか.躍度最小軌道仮説などの軌道生成のモデルは,経由点を 指定することで2点間の運動よりも複雑な運動に拡張できる. \section{演習課題} 生体運動制御系では,神経伝達や感覚器の遅れなどにより生ずる大きな時間遅 れが存在する. そこで,フィードバック制御系における時間遅れやゲインの値を変更して制御 結果(実現した腕軌道)を調べることにより,30 msec程度での時間遅れでさ え制御結果に大きく影響することをMATLABでのシミュレーションで確認する. さらに,フィードバック制御だけでは正確に制御できないため,制御対象の内 部モデル(逆動力学モデル,順動力学モデル)を用いることにより,制御性能 が向上することも確認する. \end{document}