Comments
Description
Transcript
修士論文 ダーツを題材とした 適応的運動学習支援システムの開発 大林
NAIST-IS-MT0851018 修士論文 ダーツを題材とした 適応的運動学習支援システムの開発 大林 千尋 2010 年 2 月 4 日 奈良先端科学技術大学院大学 情報科学研究科 情報生命科学専攻 本論文は奈良先端科学技術大学院大学情報科学研究科に 修士 (工学) 授与の要件として提出した修士論文である。 大林 千尋 審査委員: 池田 和司 教授 (主指導教員) 小笠原 司 教授 (副指導教員) 柴田 智広 准教授 (副指導教員) ダーツを題材とした 適応的運動学習支援システムの開発∗ 大林 千尋 内容梗概 近年,効果的な運動学習支援を行うシステム開発を目的として,ロボットを応 用した歩行学習支援システムなど様々なシステムが提案されている.これらの運 動学習支援システムでは,学習者の上肢や下肢を拘束し駆動させ,運動軌跡を強 制することで運動学習に一定の成果を得ているが,身体的な特徴や学習時間に依 存する熟達度の変化に適応するシステムではないため,駆動力や拘束の強さなど の支援量を学習者毎に調整を必要とする. 本研究では,強化学習を用いることで運動学習者の学習段階に応じて支援量を 調整する運動学習支援学習システムを提案する.その有効性の検証のためにダー ツ投擲動作を対象にした実験環境を整備し,熟達者と非熟達者の動作比較し,運 動のパフォーマンスと相関のある特徴量を検討した.学習者の利き腕の上腕を 6 自由度マニピュレータによる拘束を行うこととし,特徴量を用いて強化学習を設 計し実装を行った.実証実験は,3 条件:1)補助がなし,2)補助があり(ロボッ トの制御なし),3)補助あり(ロボットの制御あり)を設定し,非熟達者に適用 して,本システムの有効性を示した. キーワード 運動学習,学習支援,強化学習, 個人適応, オンライン最適化, 上肢 ∗ 奈良先端科学技術大学院大学 情報科学研究科 情報生命科学専攻 修士論文, NAIST-IS- MT0851018, 2010 年 2 月 4 日. i Development of an adaptive support system for darts throwing∗ Obayashi, Chihiro Abstract Recently, many motor learning systems with robot have been proposed for the purpose of effective assistance. Some of these systems have shown successful results by enforcing to trace desired angular trajectories on a user’s limbs. However, the systems cannot adapt to variation of users in their skills, body characteristic and habituation. The systems need to be designed for every user. In this study, I propose an online learning system for motor learning that adapts for a user’s performance level using reinforcement learning. I prepared an experiment environment for darts throwing as an example of motor learning. I evaluated expert’s motion and electromyography and beginner’s its to design the learning system. I built the learning system for darts throwing using an 6DOF manipulator for restrain user’s forms. In experiments, I use the following three condition to evaluate the system perfomance: 1) without robot, 2) with robot (adaptation off), 3) with robot (adaptation on). Result, demonstrates the system’s effectiveness. Keywords: motor learning, adaptive system, reinforcement learning Master’s Thesis, Department of Bioinformatics and Genomics, Graduate School of Information Science, Nara Institute of Science and Technology, NAIST-IS-MT0851018, February 4, 2010. ∗ ii 目次 1. はじめに 1 1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 ロボットによる運動学習支援 . . . . . . . . . . . . . . . . . . . . 3 1.3 本論文の構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2. 関連研究 5 2.1 運動学習支援システム . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.1 Hands-Off 方式 . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.2 Hands-On 方式 . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 本研究の位置づけ . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3. 運動の熟達度の指標に関する研究 8 3.1 熟達度の指標について . . . . . . . . . . . . . . . . . . . . . . . . 8 3.2 ダーツ投擲運動 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2.1 ダーツボード . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.2.2 一般的なダーツ投擲動作の状態分類 . . . . . . . . . . . . . 11 3.3 比較検討する指標 . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.3.1 得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.3.2 肩のブレ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.3.3 手先軌道 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.3.4 PDS (Proximal to Distal segment Sequencing) . . . . . 13 3.3.5 上肢運動の最適化規範 . . . . . . . . . . . . . . . . . . . . 13 3.4 熟達者と非熟達者の技能比較実験 . . . . . . . . . . . . . . . . . . 15 3.4.1 実験タスク設定 . . . . . . . . . . . . . . . . . . . . . . . . 15 3.4.2 実験環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.4.3 計測環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.4.4 被験者 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4.5 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 iii 計測データの同期と後処理 . . . . . . . . . . . . . . . . . . 19 3.5 結果と考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.5.1 得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.5.2 手先軌道 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5.3 肩のブレ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.5.4 筋活動 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.5.5 手先の躍度軌道 . . . . . . . . . . . . . . . . . . . . . . . . 25 3.5.6 関節トルク変化量 . . . . . . . . . . . . . . . . . . . . . . . 26 3.5.7 関節角躍度 . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.6 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.4.6 4. 運動学習支援学習システムの開発 29 4.1 強化学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.2 離散時間システムの状態空間表現における TD 誤差 . . . . . . . . 30 4.3 方策勾配法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.4 支援方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.4.1 物理的拘束の方法 . . . . . . . . . . . . . . . . . . . . . . . 33 4.4.2 装具 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.4.3 インピーダンス制御 . . . . . . . . . . . . . . . . . . . . . 35 4.5 システム概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 PA10 と運動学習者の位置関係 . . . . . . . . . . . . . . . . 38 4.6 強化学習の実装 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.7 実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 実験の条件設定と実験方法 . . . . . . . . . . . . . . . . . . 42 4.8 結果と考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.5.1 4.7.1 5. まとめと今後の課題 49 謝辞 51 参考文献 52 iv 付録 55 A. 実験システム詳細 55 v 図目次 1 hands-off 方式の例 Socially robot . . . . . . . . . . . . . . . . . . 6 2 hands-on 方式の例 Lokomat . . . . . . . . . . . . . . . . . . . . . 6 3 ダーツボードの各部名称 . . . . . . . . . . . . . . . . . . . . . . . 10 4 ダーツ投擲動作における状態の一般的分類 . . . . . . . . . . . . . 11 5 ダーツ投擲動作における状態と対応関係 . . . . . . . . . . . . . . 12 6 評価規範と得点の相関計算の模式図 . . . . . . . . . . . . . . . . . 15 7 ダーツの計測環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 8 計測環境のシステム構成図 . . . . . . . . . . . . . . . . . . . . . . 17 9 ワイヤレス式テレメータ TU-4 . . . . . . . . . . . . . . . . . . . . 17 10 小型アンプ BA-1104 . . . . . . . . . . . . . . . . . . . . . . . . 17 11 マーカの取付け位置 . . . . . . . . . . . . . . . . . . . . . . . . . 18 12 表面筋電位計測用電極取付け位置 . . . . . . . . . . . . . . . . . . 18 13 各被験者の得点の分布 . . . . . . . . . . . . . . . . . . . . . . . . 21 14 各被験者の投擲動作における手先マーカの z 軸の軌道 . . . . . . . 22 15 各被験者の肩のブレ . . . . . . . . . . . . . . . . . . . . . . . . . 23 16 各被験者の筋活動の開始タイミング . . . . . . . . . . . . . . . . . 24 17 各被験者の手先の躍度 . . . . . . . . . . . . . . . . . . . . . . . . 25 18 非熟達者の例(被験者 A) . . . . . . . . . . . . . . . . . . . . . . 26 19 熟達者の例 (被験者 F) . . . . . . . . . . . . . . . . . . . . . . 26 20 全被験者の各関節の躍度 . . . . . . . . . . . . . . . . . . . . . . . 27 21 肘のブレ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 22 肩のブレ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 23 補助の模式図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 24 固定用の装具 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 25 インピーダンス制御のブロック線図 . . . . . . . . . . . . . . . . . 36 26 提案システムの構成図 . . . . . . . . . . . . . . . . . . . . . . . . 37 27 提案システムにおけるデータの流れ . . . . . . . . . . . . . . . . . 37 28 PA10 と運動学習者の位置関係 . . . . . . . . . . . . . . . . . . . . 38 vi 29 1 回の実験のフロー . . . . . . . . . . . . . . . . . . . . . . . . . . 43 30 1 回の投擲における計測の方法 . . . . . . . . . . . . . . . . . . . . 43 31 被験者 A に適用した様子 . . . . . . . . . . . . . . . . . . . . . . . 44 32 1 日目 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 33 2 日目 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 34 被験者 B に適用した際の強化学習の学習曲線 . . . . . . . . . . . . 45 35 1 日目 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 36 2 日目 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 37 各パラメータの試行間変化(1 日目) . . . . . . . . . . . . . . . . 46 38 条件 2 における肩のブレ . . . . . . . . . . . . . . . . . . . . . . . 47 39 条件 3 における肩のブレ . . . . . . . . . . . . . . . . . . . . . . . 47 40 条件 2 における肘のブレ . . . . . . . . . . . . . . . . . . . . . . . 47 41 条件 3 における肘のブレ . . . . . . . . . . . . . . . . . . . . . . . 47 42 2 日間の各条件における練習前後における得点のヒストグラム *: (p < 0.05) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 43 検出用のカメラ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 44 検出アルゴリズム . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 表目次 1 方式による差異 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2 ダーツボードの部位と得点の関係 . . . . . . . . . . . . . . . . . . 12 3 矢の詳細 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4 被験者 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 5 インピーダンスパラメータ設定値 . . . . . . . . . . . . . . . . . . 40 6 PA10 control system . . . . . . . . . . . . . . . . . . . . . . . . . 56 7 Darts board observation system . . . . . . . . . . . . . . . . . . . 57 vii 1. はじめに 1.1 背景 近年,スポーツにおける生体情報の計測技術の応用が盛んであり,世界大会に 出場する水泳や野球などのアスリートの体調管理やトレーニング支援に用いられ ている.例えば,3 次元モーションキャプチャや高速カメラから得られた客観的 で定量的な情報をインストラクタとアスリートが共有することで,インストラク タの指導方針や内容をアスリートに正確に伝達することが可能となり,効果的に フォームの改善を行うというものである. 短期間で効果的な運動を行いたいという欲求はトップアスリートも一般ユーザ にも同等にあり,からだに負担をかけずに目標(例えば,パフォーマンスの向上 や体力増進,リラクゼーション等)を達成することができる練習支援環境が強く 望まれている. スポーツにおいて効果的な技能向上を目標とすると,これにはどのスポーツ においても適切なフォームの習得が重要とされている.例えば,野球選手が投球 フォームを変更することは,選手生命を大きく左右する.片麻痺患者のリハビリ テーションでも,はじめに動作そのものを獲得させ,次にそのパフォーマンスと して運動の精度を高め達成時間を短くしていく. 短時間でフォームを習得するための効果的な練習とはどのようなものだろうか. 適切なフォームを習得するために運動学習者は,繰り返し運動を行い試行錯誤的 に身につける方法がある.このような運動学習のメカニズムを説明するアプロー チとしてボトムアップな方法とトップダウンな方法の二つがある.運動単位,反 射や脊髄神経などの研究から,中枢神経における運動制御のメカニズムを解明し ようとするボトムアップな手法が伝統的に行われているのに対して,脳における 情報表現とアルゴリズムそして計算理論を明らかにするというトップダウンアプ ローチによって,運動制御のメカニズムを解明しようという試みを脳の計算理論 的神経科学と呼ぶ [1].この計算論的神経科学のアプローチとして小脳における 制御則を明らかにしたものとして,川人によるフィードバック誤差学習理論がよ く知られている.運動中の学習によって小脳は,筋骨格系への入出力関係,つま 1 り,運動指令とその結果として生じる軌道との関係の情報を蓄える.このような 小脳内に保持される筋骨格系の情報は内部モデルと呼ばれ,運動指令から軌道を 出力する神経回路を順モデル,逆に軌道に見合った運動指令を出力する神経回路 を逆モデルと呼ぶ.内部モデルの概念を含む運動制御理論としてフィードバック 誤差学習理論 [2] を提案した.まず連合野から運動野に目標軌道が送られ,運動 野から運動指令が脊髄へ伝えられる.実現した運動についての感覚情報は脊髄を 上行し,大脳皮質レベルでのフィードバックループとして知られているトランス コーチカルループによって体性感覚野から運動野にフィードバックされる.この フィードバック回路でも運動は可能だが,フィードバック時間の遅れなどの理由 で速いなめらかな運動は実現できない.そこで,小脳-赤核系は運動指令と軌道の 関係を表現する内部モデルを学習によって形成し,速いスムーズな運動を可能に するとともに運動前に軌道誤差を予測して運動指令の修正を行うことを可能にす る.目標軌道と実現軌道の間の誤差は,誤差信号(教師信号)として下オリーブ 核から小脳に伝達され小脳の内部モデルの修正が行われる.より正確な逆モデル を学習することで,フィードフォワード入力が最適化され,次試行での高速で正 確な応答を可能とする.しかしながら,フィードバック信号によってモデルが学 習される時間がかかるという問題点がある.実際に経験がない競技を一人で何も 見ずに上達するまでには多くの時間がかかってしまうことは経験的にわかる.よ り効果的に学習するために運動の熟達者の動きを見て真似ることやインストラク タに指導を仰ぐことがより一般的に行われる. しかしながら,自分が学びたいスポーツのインストラクタが身近にいるとは限 らない.指導を仰ぐために時間や場所の制約が発生する.この時間や場所の制約 を解決するものとして,バーチャルリアリティ(Virtual Reality :VR)を用いた 運動学習支援システムが提案されている.人間は聴覚,触覚,視覚などの 5 感を 用いて身体外の情報を脳に取り込むが,このうち 80%は視覚情報とされているこ とから,見せて実演することに焦点を当てたものに VR を用いたシステムが提案 されている.このシステムはユーザの動作を 3 次元モーションキャプチャにより 計測し,VR 内にユーザと熟達者のアバターを表示することで比較表示を可能と するインターフェイスを備える.熟達者と自身の動作を比較することで運動学習 2 者のフォームの問題を明確にし,自らにフィードバックをかけるものである.さ らに最近では,筋肉の力みの情報を可視化し,熟練者と学習者の身体の内部状態 の違いを認識できるシステムも開発されている [3].学習者の表面筋電位を用いて 力みを推定し,VR 空間上の学習者のアバターの該当部位に色の変化を加え視覚 的にフィードバックすることで,より効果的な学習効果を狙っている.このよう に VR を用いた運動学習支援システムが提案されているが,視覚情報から得られ る目標とする軌道と,実際に運動して生成される軌道が食い違うことがある.頭 でわかっていても体がついていかないという状態である.このような場合は,運 動学習者を直接操作して動作を学習させる方が効果的といえる. 1.2 ロボットによる運動学習支援 運動学習者を直接操作する研究は,リハビリテーションロボット分野において 盛んに行われている [4].麻痺した上肢や下肢の失われた機能を代替する駆動装置 のついた装具が提案されている.近年では,この機能代替を目的とした装具を用 いて患者の機能回復を目指したリハビリテーションが提案されている.これは, 常に支援した状態で練習することで患者は支援された環境に適応してしまい,支 援がなくなると患者はその運動を遂行できなくなることが患者にとって本当に良 いことであるかという疑問に答えるものである.脳卒中などで麻痺した身体のリ ハビリテーションを行う患者の脳にも失われた運動機能を補うために脳の可塑性 が働く.例えば,非片麻痺上肢による片麻痺上肢の機能代替がある.しかし,片 麻痺上肢が「使えない」ために非麻痺側上肢による代償によって,さらに片麻痺 上肢が「使わない」という悪循環が形成され,片麻痺上肢は物理的にも身体に存 在しているにも関わらず使用しなくなる. 「学習された不使用」が示唆されている [5].このような問題に対して患者の意図に応じた支援を行う制御戦略が提案され ている.例えば,歩行学習支援装置 Lokomat を用いて,繰り返し学習制御を行い 患者の関節に作られる力場を患者に適応させる制御戦略が提案されている.これ は患者毎に支援する量を調節する適応型の制御戦略である.この分野の個人適応 の研究では,失われた運動機能の再学習を目的としている.再学習を行うために 適切な運動軌跡を追従させつつ,適切な負荷をかけることで,その運動を構成す 3 るために新たに脳-神経系-筋骨格系の繋がりを強化していく.しかし,健常者を 対象としてスポーツの運動フォームをロボットによって矯正して学習させる場合 は,運動フォームの学習には効果的であるといえるが,運動フォーム生成という 行為を学習するだけであることが多く,そのスポーツを行うための動作のコツを 学習するわけではない.本来,運動フォームの学習を行うこととは,運動フォー ムの運動軌跡を正確になぞるだけではなく,動作の目的の理解や動作遂行のため の身体の制御戦略を身に着けることであるとされる [6]. 以上をまとめると,視覚情報提示型,運動軌道の物理的矯正はいずれにしても, 運動フォームを生成すると言う行為,運動単位を学習する.運動単位の学習には, 川人らのフィードバック誤差学習理論に基づけば,運動学習には多くの時間を必 要とする.しかし,実際には人はインストラクタの指導や見真似によって運動の コツを学習することで短時間の練習でも上達は可能である.本研究では,運動の コツを学習者に提示することで運動学習を加速させるシステムの構築を目指し, 学習目標とする競技を比較的単純な動作であるダーツとして,効果的にダーツを 上達するためにコツを教示する運動学習支援システムを提案する. 1.3 本論文の構成 2 節では,関連研究について述べる.次に 3.1 章では学習度について行った熟 達者と非熟達者との身体運動の比較について述べ,4 章では,提案システムにつ いて述べる.5 章では,現状と今後の課題について述べる.また、付録 A に構築 したシステムで用いたアルゴリズムの説明や実装法などを解説する. 4 2. 関連研究 前章においてスポーツでは適切なフォーム習得のためにインストラクタが介入 を行うとき,その操作量を適切に調節する必要があると述べた.本章では,運動 学習支援システムの関連研究について述べる. 2.1 運動学習支援システム 運動学習支援システムは,リハビリテーションロボットの分野で盛んに研究さ れている.Tapus らの分類によれば,これらのシステムは,運動学習者に直接作 用する Hands-On 方式と運動学習者に間接的に作用する Hands-Off 方式であると している.この分類に基づいてそれぞれの特徴について述べる. 2.1.1 Hands-Off 方式 運動学習者を直接操作せずに運動学習者の学習意欲の増進や定量的な情報を 提示することで自身の動作と熟達者の動作の差異について理解を深めることを 促すシステムである.この方式の例として,VR を用いた運動学習支援システム [8][3][9],図 1 に示す移動ロボットを用いた Tapus ら [7] の患者と適切な距離や指 示方法,音声を選択し適応するシステムがある.この方式では,運動学習者の拘 束が少なくリハビリテーションに限らず健常者の運動学習にも適用される.特に VR を用いた方法では,CG やアバターを用いて運動学習者と熟達者の動作や内 部情報(力み)を比較して見せることで運動軌道や力み,そのタイミングやその 量を確認することが出来る. 2.1.2 Hands-On 方式 運動学習者を直接操作するもので,上肢や下肢を直接マニピュレータを用いて所 望とする軌道となるように補助を行う.先駆的な研究は,MIT Manus や Burgar[10] らによる上肢の訓練システムがある.これらは,VR 技術とロボティクス技術を用 いて,リハビリテーションのために開発された.近年の代表例として,運動学習 5 図 1 hands-off 方式の例 Socially robot 図 2 hands-on 方式の例 Lokomat 6 表 1 方式による差異 教示精度 方式 拘束 適用例 Hands-On 多い 高い リハビリテーション Hands-Off 少ない 低い リハビリテーション,スポーツ 者が練習のために繰り返し運動することを利用して繰り返し学習制御を行い各関 節トルクの発生するトルク場を学習することで,個人適応を行うシステムが提案 されている.このシステムは,これは下肢の運動学習支援システム Lokomat(図 2)を用いて実現されている.これらのシステムは,運動軌跡を正確に教示が可 能であるが,上肢や下肢を完全に拘束する.また,リハビリテーションを目的と して開発されたものが多く,健常者を対象としていない.以上をまとめると表 1 となる. 2.2 本研究の位置づけ 本章では,運動学習支援システムの関連研究について Hands-Off 方式と Hands- On 方式に分類しその特徴を述べた. Hands-Off 方式は,直接運動学習者を操作しないが,運動教示精度は比較的低 い.また,スポーツを対象とした運動学習支援システムとして比較的多く提案さ れている.Hands-On 方式は,直接運動学習者を操作することで,運動教示精度 は高いが,多くはリハビリテーションで行われている.早期のリハビリテーショ ンに適用し回復することが示されているが,スポーツ動作の学習を目的として適 用した例は少ない.また,近年,個人適応を行う例も増えているが,スポーツに 適用した例は少ない. 以上から,本研究では,ロボットを用いてスポーツ動作のコツを教示すること を試みる.位置づけとして,ロボットによる拘束を個人適用することがスポーツ の運動学習に,効果的な方法である可能性を検討する基礎的研究となる. 7 3. 運動の熟達度の指標に関する研究 この章では,運動熟達度の指標を検討するために,熟達者と非熟達者の技能比 較実験と動作分析について述べる.熟達とは,人がある技能を身に着けるために 必要な機能である習熟によって,その動作を上手に行い自身の技能にすることで ある.ここで言う熟達者とはある運動に長けた人のことを指す.具体的には,プ ロのスポーツ選手や職人と呼ばれる人のことをいう.また,アマチュアや初心者 のことを非熟達者と定義し,その動作,技能を身につけていない人のことを指す. 3.1 熟達度の指標について 熟達度の指標として,北佳ら [11] は,外部座標による評価と内部座標による習 熟度の評価として分類している.前者は,運動を行った結果として得られる客観 的な量のことである.例えば,移動時間であったり,運動の精度と言ったもので ある.スポーツ工学やリハビリテーション工学で盛んに研究されており,松永は 内野手の投球動作について,その習熟過程をフォームの変化に着目して分析して いる [12].リハビリテーションでは,対麻痺用歩行補助装置を装着した患者の訓 練効果を,歩行時の ZMP 軌跡や,下肢標準点の軌跡,歩幅を計測することで評 価している [13].後者は,運動を行っているときの学習者の生体情報を用いる方 法である.例えば,心拍変動や筋剛性の変化といった運動中の人間の内部状態の 変化に着目したものである.この方法は学習過程における人間の微細な変化を捉 えているとされる.この評価の例として,大須らは,前腕から肩関節までを 2 関 節 6 筋のモデルを用いて表現し,表面筋電位から筋剛性を推定し,動作の熟達に 伴う変化を分析している [14]. 本研究では,運動学習者の外部座標系による評価として,得点や精度及び被験 者の運動軌跡を観察し,内部座標系による習熟度の評価基準として,表面筋電位 を観察することとした. 8 3.2 ダーツ投擲運動 まず,上肢による運動を検討する.検討に当たって SIMM などの筋骨格シミュ レータを用いて,最適化理論に基づいた軌道生成との比較検討が可能か否かにつ いても考慮することとした.以上を踏まえて,今回は以下の 2 つの条件を満たす 運動を検討する. • 得点などによって客観的なパフォーマンス評価が可能 • 上肢の動作生成において最適化理論による評価が可能 この二項目を満たすスポーツとして,本研究ではダーツの投擲運動を対象とした. ダーツ投擲動作は,体幹を固定し主に上肢のみで構成されており,他のスポー ツ動作に比べて比較的自由度は低い.例えば,ボールやラケットなどの道具を用 いた運動のような競技の場合,ヒトはその全身の自由度を活かして様々な運動軌 跡を描き,技能も多種多様に存在すると考えられる.また, ボールやラケットな どに比べてダーツの矢の質量は軽いため,ダーツ投擲動作に与える矢の影響は小 さいことが期待される.このため,何かしらの最適化規範を用いて投擲軌道が生 成されているとすると,人間の手先の軌道について最適化規範に基づく結果が得 られることが考えられ,手先軌道の脳の計算論による評価が可能である. 9 図 3 ダーツボードの各部名称 3.2.1 ダーツボード ダーツボードには PC DARTS(Epoch CO., LTD)を用いた.セグメントの名 称と位置関係について図 7 に示す.このダーツボードは PC に接続することで, ゲームコントローラデバイスとして Windows 上で認識され,DirectInput API を 用いて各部位をボタンとして状態を計測することが可能である. 10 !" #$%& 図 4 ダーツ投擲動作における状態の一般的分類 3.2.2 一般的なダーツ投擲動作の状態分類 一般的にダーツの投擲動作は 3 つの状態に分類される.図 4 に詳細を示す.狙 1 の動作),投げる前に肘を中心に腕を引くテイ いを定めるエイミング(図 4 の 2 の動作)と矢を投げ出すスローイング(図 4 の 3 の動作) クバック(図 4 の である.図 5 は,計測データとダーツ投擲における状態との関係を示している. 本研究では,テイクバック開始時刻を手先マーカの z 軸の投擲開始から最初の位 置のピークとした.テイクバック終了時刻を次の位置のピーク,リリース時刻を 次のピークとした. 3.3 比較検討する指標 得点と手先軌道,肘と肩の変化量及び PDS (Proximal to Distal segment Se- quencing), 最適化規範の代表的な手法である躍度最小規範とトルク変化量最小 規範による比較検討を行った.それぞれについて述べる. 3.3.1 得点 ダーツボードの中央に位置するブルを最高得点の 5 点として,ダーツボード中 心から離れたセグメントになるにつれて離散的に低くなるものとした (表. 2) . 11 テイクバックで標準化したz軸の高さ [mm] リリースタイミング テイクバック終了時刻 テイクバック開始時刻 ̻ ̻ ̻ 時間[s] 時間[s] 時間[s] z軸の速度 [m/s] ̻ ̻ [m/s2] ̻ [b ̻ z軸の加速度 ̻ ̻ ̻ ̻ ̻ ̻ 図 5 ダーツ投擲動作における状態と対応関係 部位名称 ブル 得点 5 表 2 ダーツボードの部位と得点の関係 シングル(内側) トリプル シングル(外側) 4 3 2 ダブル 1 3.3.2 肩のブレ テイクバック終了時刻からスローイング動作終了時刻間の肩のマーカーの位置 のずれについて検討を行った.数式で表現すると式(1)となる. Eshoulder = |P~se − P~ss | 12 (1) ここで,P~se は,テイクバック終了時刻における肩の位置,P~ss スローイング動 作終了時刻における肩の位置である. 3.3.3 手先軌道 各被験者の手先のマーカーの z 軸に関する軌道の被験者の試行間での再現性に ついて検討を行った. 3.3.4 PDS (Proximal to Distal segment Sequencing) 体幹から末梢の順番に筋活動タイミングや関節トルクの発生タイミングが遷 移する現象のことを言う.上肢を用いた投球運動 [15] やピアニストの伴奏動作で 報告されている [16].人間がこのように体幹から抹消へ運動開始時期をずらすの は,順番に生成されるトルクを活用して,最終的に末梢で発揮するトルクをコン トロールするためである.ダーツにおいても,この運動を行っている可能性が高 く,今回は,筋活動タイミングにおいて PDS が見られるか確認を行った. 3.3.5 上肢運動の最適化規範 ダーツの投擲軌道を躍度最小規範とトルク変化最小規範を用いて分析を行った. 具体的には,それぞれの規範にしたがって運動を生成している仮定し,各試行ご とのそれぞれの評価関数値と獲得点数との相関関係を調べた.それぞれの最適化 規範を次に説明する.この最適化規範は平面のリーチング運動でよく議論されて いる.さまざまな最適化規範が提案されているが,このうち代表的な手先躍度最 小規範と関節トルク変化量最小規範,関節躍度最小化規範による検討を行うこと とした. • 躍度最小規範 躍度最小規範は Flash と Hogan [17] によって提案された手先軌道の最適化 規範である.手先に外力が作用していない到達運動をよく説明する規範と して知られている.この規範は 2 点間の到達問題や経由点を有する場合の軌 13 道も再現できる.ダーツの投擲動作は,ダーツの矢が非常に軽いため, 手先 に外力が働かないものとして,手先の運動軌跡がこの最適化規範を用いて 説明される可能性がある.本研究ではダーツ運動の特徴としてほぼ鉛直平 面に拘束することから手先の z 座標のみを用いて評価関数を構成した.評 価関数は次式となる. 1 Cj = 2 tend Z tstart d3 z dt3 2 dt (2) ここで,z は,手先作業座標系の z 軸のことである.また,tstart は,テイク バック開始時刻,tend はリリース終了時刻である. • トルク変化最小規範 手先に外力が作用する場合を取り扱える,人の筋骨格系のダイナミクスを 用いる躍度最小規範としてトルク変化最小規範が宇野ら [18] によって提案 された.ヒトの筋骨格系のダイナミクスを考慮した規範である. 本研究では 次の評価関数を用いた. 1 Ct = 2 Z tend tstart dτi dt 2 dt (3) ここで,τi は,i 関節目のトルクである.また,tstart は,テイクバック開始 時刻,tend はリリース終了時刻である. • 関節角躍度最小規範 大須ら [19] によって提案されたもので,各関節の躍度を最小とする評価規 範である. Caj 1 = 2 Z tend tstart d3 θi dt3 2 dt (4) ここで,θi は,i 関節の関節角度である.また,tstart は,テイクバック開始 時刻,tend はリリース終了時刻である. 以上の 3 つの評価規範の計算値について,図 6 に示す方法で得点と評価規範値の 相関関係を調査した.この方法をとることで,熟達者と非熟達者のどちらがこれ らの評価規範を用いて最適化しているかどうか傾向を調べることとした. . 14 ]¿l XRA Ö 45 6 í±Òª 1 図 6 評価規範と得点の相関計算の模式図 全長 [mm] 重量 [g] 141 10 表 3 矢の詳細 羽の形状 バレル直径 [mm] 標準 4 枚羽 最大 5 シャフト長 [mm] 46 3.4 熟達者と非熟達者の技能比較実験 3.4.1 実験タスク設定 被験者に実施した実験タスクは,ダーツの矢をダーツボードの中心(ブル)に 当てることとし,利き腕を用いて自由なタイミングで投げることを教示した.非 熟達者にはルールで示されている横投げで行ってもらった.持ち方については, 特に強制は行わなかった. 3.4.2 実験環境 図 7 に示すようにダーツボードと被験者の位置関係はダーツの World Darts Federation (WDF) のルールに基づき設定した.ダーツの矢は,ダーツの矢の 先端がプラスチックであるソフトダーツとして,一般的に標準的な形状とされる ものを利用した.矢の詳細を表 3 に示す. 15 1730[mm] 2440 [mm] 図 7 ダーツの計測環境 3.4.3 計測環境 ダーツボードの矢がダーツボードに到達した場所は PC DARTS により自動検 出され,USB 接続された計算機によって取得し得点計算を行った.上肢の運動軌 跡と表面筋電位(EMG)信号の計測には,光学式モーションキャプチャシステム と 64ch のアナログデータを同時計測可能な MAC3D System (Motion Analysis Corp.) を利用した.この計測システムの構成図を図 8 に示す.モーションキャ プチャ及び EMG 信号のサンプリング周波数はそれぞれ 200[Hz],2000[Hz] とし た.モーションキャプチャ用のマーカの取付け位置は Helen Hayes Marker set に したがった(図 11).EMG の計測では,アクティブ電極と小型アンプ BA1104 (TEAC 電子計測)図 10 とワイヤレス式テレメータ TU-4(TEAC 電子計測)図 9 を利用し,以下に示す利き腕の 8 つの筋肉を計測した: 三角筋 (DL), 上腕二頭 筋長頭 (LB), 上腕二頭筋短頭 (SB), 上腕三頭筋長頭 (LT), 上腕筋(BU), 腕橈骨筋(BR), 橈側手根屈筋(FC), 長橈側手根伸筋(EC). これらを図 12 に示す. 16 z x y 図 8 計測環境のシステム構成図 図 10 小型アンプ BA-1104 図 9 ワイヤレス式テレメータ TU-4 17 図 11 マーカの取付け位置 ³Êæè FC BR EC BU LB wÊ©ç DL LT SB 図 12 表面筋電位計測用電極取付け位置 18 3.4.4 被験者 6 人の健康な成人男性(年齢 25 ± 1 歳,右利き 5 名,左利き 1 名) を被験者 とした.被験者の熟達具合の分類は被験者のスコアに基づいて熟達者と非熟達者 の2つに分類した.各被験者の身体パラメータを Table 4 に示す. 表 4 被験者 A B C D E F 体重 [kg] 80 67 80 身長 [kg] 183 172 172 176 182 171 被験者 65 61 67 3.4.5 実験方法 被験者は実験前に 30 投練習を行った.本実験では,1 トライアル 4 投として合 計 12 トライアルの計測を行った. 3.4.6 計測データの同期と後処理 各投擲に対応したデータ間で比較を行うために何らかのイベントを用いた同期 を取る必要がある.本研究では,テイクバックとスローイングが切り替わる時刻 を基準として各投擲に対応するデータ間の同期をとることにした. • 運動データ 計測したマーカの位置データは,遮断周波数を 10[Hz] とした.2 次の時間 遅れのないローパスフィルタ(バターワース型)を用いて平滑化した.上 肢は肩 3 自由度,肘 1 自由度,手首 1 自由度をもつ 3 つリンクモデルとし てモデル化した.各リンクの質量,重心などのパラメータは被験者の身長, 体重から [20] に基づいて決定した.関節トルクは,Newton Euler 法により 逆動力学演算を行って推定した. このとき,関節角度から角速度を求める微 分操作では,ラグランジュ多項式近似による数値微分を実施した. 19 • 表面筋電位データ EMG 信号は 200[Hz] にダウンサンプリング後,運動データと同等の設定で LPF を施した. 20 3.5 結果と考察 40 30 20 20 0 10 0 0 1 2 3 4 5 30 20 20 10 0 0 0 1 2 3 4 5 40 0 1 2 3 4 5 30 20 20 0 0 1 2 3 4 5 40 10 0 0 1 2 3 4 5 0 1 2 3 4 5 図 13 各被験者の得点の分布 3.5.1 得点 図 13 は被験者毎の得点を示している.被験者 C, D と F(図中右側のヒストグ ラムに対応)は全体の 30 %以上をブルに当てた.これに対して,被験者 A, B と E (図中左側のヒストグラムに対応)ではこの条件を満たしていない.したがって, 被験者 C, D と F を熟達者とし,被験者 A, B と E を非熟達者として分類した. 21 Subject a Subject c 200 200 100 100 0 0 −100 −100 −200 −0.75 0.25 0.00 0.25 −200 −0.75 0.75 0.25 Relative hand position of Z coordinate [mm] Subject b 200 100 100 0 0 −100 −100 0.25 0.00 0.25 −200 −0.75 0.75 0.25 Subject e 200 100 100 0 0 −100 −100 0.25 0.75 0.00 0.25 Relative time [s] 0.00 0.25 0.75 0.25 0.75 Subject f 200 −200 −0.75 0.25 Subject d 200 −200 −0.75 0.00 −200 −0.75 0.75 0.25 0.00 図 14 各被験者の投擲動作における手先マーカの z 軸の軌道 3.5.2 手先軌道 図 14 の灰色のラインは被験者が行った全投擲分の手先の z 軸の時系列軌道を示 している.黒色のエラーバーは各時刻の全投擲に渡る分散である.左の 3 つのパ ネルは,非熟達者の結果であり,右側の 3 つのパネルは熟達者のものである.’*’ 印はテイクバックからスローイングへ遷移する時刻の分散と比較して,有意に異 なる分散を示した時刻を表している (F(47,47)=2.16).この図から熟達者と 非熟達者のエイミング時の手先位置の分散が有意に異なること,非熟達者と比較 して熟達者の方がテイクバック動作時における分散が有意に小さくなることが示 された. 22 140 120 Displacement [mm] 100 80 60 40 20 0 A B E C D F Subject 図 15 各被験者の肩のブレ 3.5.3 肩のブレ 図 15 は,スローイング時の水平面内の移動量(ブレ)を各被験者毎に箱ひげ 図で示している.横軸は被験者に対応している.この図から非熟達者の方が熟達 者に比べて明らかにスローイング時の肩のブレが大きいことがわかる.全被験者 の平均得点とブレとの相関係数は −0.6625(p < 0.05)であり,肩のブレが小さい ほど得点は高い傾向であることがわかった. 23 10 10 10 8 8 8 6 6 6 Normalized Start Time [ms] 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 10 10 10 8 8 8 6 6 6 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 Muscle number 図 16 各被験者の筋活動の開始タイミング 3.5.4 筋活動 図 16 は4人の被験者の筋活動の発生タイミングを示している.左側の 2 つが 非熟達者,右側の 2 つが熟達者である.横軸の数字は各筋肉に相当し,それぞれ, DL, LB, SB, LT, BR, FC 及び EC である.数字が小さい値方が体幹,大きい値の 方が末梢に対応する.この結果から熟達者と非熟達者共に PDS を示さなかった. 24 Subject A 4 2 0 −2 −0.25 Jerk (km/s3) 4 2 0 −2 −0.25 4 2 0 −2 −0.25 0.00 0.25 Subject B 0.00 0.25 Subject E 0.00 0.25 Time (s) Subject C 0.50 4 2 0 −2 −0.25 0.50 4 2 0 −2 −0.25 0.50 4 2 0 −2 −0.25 0.00 0.25 Subject D 0.50 0.00 0.25 Subject F 0.50 0.00 0.50 0.25 図 17 各被験者の手先の躍度 3.5.5 手先の躍度軌道 図 17 は全被験者の手先の躍度軌道を示している.左の 3 つのパネルは非熟達 者の,右側の 3 つのパネルは熟達者の躍度軌道を示している.熟達者と比較して 非熟達者の躍度の分散が大きいように見える.平均振幅は被験者 A のものが最も 大きい.躍度規範の評価関数値と得点の間に有意な相関は見られなかった. 25 Shoulderx 0 0.00 0.25 0.50 Shouldery −1 −0.25 6 x 10 1 0 0.00 0.25 0.50 Shoulderz −1 −0.25 5 x 10 2 0 0.00 0.25 0.50 Elbow −2 −0.25 6 x 10 1 0 −1 −0.25 5 x 10 2 Wrist 6 x 10 0.00 0.25 0 −2 −0.25 0.00 0.25 1 x 10 0 −1 0.75 6 x 10 1 −1 0.75 5 x 10 2 Time (s) 1.25 1.50 1.00 1.25 1.50 1.00 1.25 1.50 1.00 1.25 1.50 1.25 1.50 0 −2 0.75 6 x 10 1 0 0 −2 0.75 0.50 1.00 0 −1 0.75 5 x 10 2 0.50 Wrist Elbow Shoulderz Shouldery Shoulderx 6 1 1.00 Time (s) 図 18 非熟達者の例(被験者 A) 図 19 熟達者の例 (被験者 F) 3.5.6 関節トルク変化量 図 18 及び図 19 は,それぞれ非熟達者である被験者 A と熟達者である被験者 F の全投擲のトルク変化量の推定値を示している.5 つのパネルは上から順にそれ ぞれ肩の 3 自由度の関節トルク変化量の軌道,肘の 1 自由度のトルク変化量,手 首の1自由度のトルク変化量に対応している.この図から非熟達者のトルク変化 26 量の分散が熟達者と比べて大きく見える.躍度規範とは異なり,全被験者の得点 と肩関節の x 軸,y 軸周り,肘関節及び手首関節のトルク変化量との間に有意な 相関が見られた.相関係数はそれぞれ −0.26, −0.17, −0.19(p < 0.05)であった. 6KRXOGHUb[ 6KRXOGHUb\ 6KRXOGHUb] [b [b (OERZ [b :ULVW [b score C_aj [b 図 20 全被験者の各関節の躍度 3.5.7 関節角躍度 図 20 は,各関節における全被験者の全トライアルでのスコアと評価値の散布 図である.肩の x,y 関節角度に正の有意な相関(p < 0.05),手首の関節角度に負 の有意な相関(p < 0.05)が見られた. 27 3.6 まとめ 本実験では,ダーツの投擲運動を対象として,得点や運動データ及び EMG 信 号を計測し,熟達者と非熟達の定量的な比較を行った.その結果,熟達者の上肢 の運動軌跡は有意に小さいことがわかった.また,肩位置のブレは,熟達者の非 熟達者に比べて小さくなった.さらに投擲運動軌道を躍度変化量やトルク変化量 による評価を行った結果,トルク変化量を評価関数として上肢の軌道が決定され ている可能性が示唆された.得点と肩関節及び肘関節,手首関節のトルク変化量 は負の相関(p < 0.05)をもちつが,躍度変化量ではこれが見られなかった.ま た,関節角躍度では,肩の x,y 関節角度に正の有意な相関(p < 0.05),手首の関 節角度に負の有意な相関(p < 0.05)が見られた.以上の結果から,ヒトがトル ク変化量の最小化を用いて最適化していることが考えられるが,厳密には筋骨格 モデルを用いて最適化計算を行いシミュレーションする必要がある.これについ ては今後の課題である. 28 4. 運動学習支援学習システムの開発 前章で述べたように,熟達者と非熟達者の間には,運動のパフォーマンスに違い が現れると共に運動動作そのものに違いが生じる.これらの結果を基にして学習 者の熟達度に応じた適応を行う運動学習支援学習システムを実現し,その有効性 を検証する.パフォーマンスを改善し熟達者の動作に近づけるために不必要な動 作を静止するために物理的に拘束することが良いと考え,この拘束の強さを運動 学習者の熟達度に応じて強化学習を用いて適応させることとした.すなわち,適 応させるパラメータは,拘束する強さを意味するロボットのスティフネスである. 次にパフォーマンスの改善と動作の改善を目的として,報酬関数を構成した.学 習システムは運動学習者の 1 投ごとにこの報酬関数を最大化するようにパラメー タを学習し,運動学習者に個人適応する.また,運動練習において練習を何度も 繰り返し行うことは可能であるが,不必要に行えば疲労を伴いパフォーマンスの 低下や怪我の恐れがあるため,適応における収束の速さは可能な限り速いことが 重要である.また,運動学習者に適切なパラメータを指定させることは困難なた め,学習手法として教師なし学習が必要となる.これらを考慮し学習アルゴリズ ムに方策勾配法を用いる. 4.1 強化学習 強化学習は試行錯誤を通じて目標タスクに適応した制御則を獲得する統計学習 手法の一つであり,心理学でいえば条件付けに相当する人間の学習モデルを模し た学習アルゴリズムである.強化学習は制御入力に対して正確な出力信号の対を 与えられてそれを学習するニューラルネットワークとは異なり,正しい出力信号 が与えられない問題に対しても適用可能である.出力信号の変わりに行動のよし あしを示す報酬と呼ばれる値を評価値として,その累積和がより多く得られるよ うに制御入力(行動)を改善していく.強化学習では,制御工学でいうコントロー ラに当たるものをエージェントとよび,エージェントが相互作用を行う対象を環 境と呼び,制御工学でいう制御対象となる.エージェントは報酬の最大化を目的 として,状態観測を行った結果から行動出力へのマッピング(方策)を獲得する. 29 4.2 離散時間システムの状態空間表現における TD 誤差 制御対象となる環境の不確実性を考慮し,確率分布を用いて表現すると, xk+1 ∼ p(xk+1 |xk , uk ) (5) となる.ここで,u ∈ RM は制御入力,xk , xk+1 ∈ RN はそれぞれ現在と次の状 態を表す.制御入力は,確率的な探索も加味した方策 π によって決定される. uk+1 ∼ π(uk |xk ) (6) 強化学習では,即時報酬 rk として, rk ≡ r(xk , uk ) ∈ R (7) を得ることで,状態の価値関数 π V (xk ) = E X H al rl |xk = x l=k (8) があたえられる [21].ここで al は報酬の割引率で [0, 1] ある.H → ∞ のとき, V π (x) で時不変な定常価値となる.次の状態価値の予測値が正しくない場合は, 以下の式(9)予測誤差を減らすように価値関数の更新を行う.価値関数の現在 及び次の状態の予測値を Vk , Vk+1 とすると, δk = rk − Vk + ak Vk+1 (9) この式はひとつ後の時刻の価値関数の予測値を用いるため Temporal Difference:TD 誤差と呼ばれる. 4.3 方策勾配法 方策勾配法とは,パラメータ化された確率的方策(行動則)に従って行動選択 を行い,方策を改善する方向に方策のパラメータを少しずつ更新する方法である. 方策勾配法は,動的計画法などの value-iteration 法では適用困難な部分観測マル 30 コフ過程(Partially Observable Markov Decision Process: POMDP)環境にも適 用可能な頑強性を持つ.強化学習を実装する場合,センサの性能や性質によって はセンサに入るノイズ(例:ドリフト,サージ)などのためにマルコフ決定過程 を保障することは困難となる.この場合,動的計画法や greedy policy などの価値 関数の評価を元に学習を行うアルゴリズムでは,マルコフ決定過程の環境でなけ れば期待した性能を得ることができない [22].しかし,方策勾配法は,価値関数 とともに試行中に得られた報酬系列を考慮することで,このようにマルコフ決定 過程を保障しない部分観測マルコフ過程としてモデル化される環境にも適用する ことができる [23].ここで,パラメータ θ を持つ方策 πθ を用いた場合,次の関係 が得られる. ∂ E{V (t)|πθ } = E{δ(t)ei (t)} ∂θi (10) ただし,方策パラメータ θi の eligibility trace ei (t) は次の式の通り更新される. ∂ ln πθ dei (t) = βei (t) + dt ∂θi (11) ここで,β は eligibility trace の時定数である.TD 誤差 δ と eligibility trace ei (t) により価値関数の方策パラメータ θi に関する勾配の不偏推定量を求めることがで き,更新則は次のようになる. dθi (t) = αδ(t)ei (t) dt (12) ただし,α は学習係数である. 上記の更新則により方策パラメータを更新することによって,価値関数の評価 だけでなく将来の報酬も考慮に入れて更新される. 31 4.4 支援方法 熟達者の特徴として,スローイング時の肩のブレが非常に小さいことを前章で 述べた.これについて再実験を行い精査した結果を Fig. 21 及び図 22 に示す.再 実験では前章の実験環境と同一で行った.詳細は以下の通りである. • 被験者 健康な男性(年齢 25 ± 1 歳,右利き 6 名).このうち,前章での熟達者は 2 名参加し,そのほかはダーツ経験はない. • 実験プロトコル 3 投ずつ,計 150 投行う.投げるタイミングは被験者の自由とした. • 得点 カメラを用いて中心からの距離を計測し,最大距離で正規化したものを用 いた.詳細は 4.6 節で述べる. • 計測方法 前章の計測に準ずる • 実験環境 前章の実験環境に準ずる 図 21 及び図 22 は,左のパネルは肘のエイミング開始から終了までのブレの大 きさで,右のパネルは肩のエイミング開始からスローイング終了までのブレの大 きさを示している.被験者 1(s1)及び 2(s2)が熟達者でその他が非熟達者であ る.肘についてもエイミング開始から終了までのブレが小さいことがわかる.ま た,前章で述べたとおり,エイミングからスロー終了までの再現性がある.以上 から,上腕を固定することで,エイミング開始から終了までの肘の動きとエイミ ングからスローイングまでの肩や肘の動きを抑制することが可能であると考え, 本研究では,上腕の物理的拘束を運動学習者に行うものとした. 32 displacemnet [mm] displacement [mm] V V V V V V V 6XEMHFW V V V V V 6XEMHFW 図 21 肘のブレ 図 22 肩のブレ 4.4.1 物理的拘束の方法 拘束方法は学習者の安全やスロー動作の学習の邪魔にならないことを最優先と して次の 3 項目に注意することとした. • エイミング時の上腕と体幹を固定することができること • テイクバックからスローイング動作までの運動学習者の邪魔をしないこと • 拘束条件がオンラインで可変できること これらの条件と拘束に用いる三菱重工業製汎用マニピュレータ PA10-6C の応答 性能との兼ね合いを考え,拘束の位置,方法は実験的に決定し次の通りとした. 制御アルゴリズムは次の通りとした. • 拘束方法 運動学習者の上腕をマニピュレータのエンドエフェクタに取り付けた装具 (図 24)で上腕下部のみ固定(支持)すること • 拘束位置 図 23 に示すように,エイミング動作時の上腕の中部,上腕 3 頭筋の頭を固 定すること 33 図 23 補助の模式図 装具 図 24 固定用の装具 • 支援アルゴリズム マニピュレータ手先を仮想的にバネマスダンパ系とした制御を行うことが できる能動インピーダンス制御を行う 34 4.4.2 装具 図 24 に示す固定用の装具については,上腕の直径が 85[mm] の被験者に対応可 能な形状を選択した.ダーツを投げる動作の邪魔をしないことを優先し,装具の 幅は小さめにした.装具の形状や接触点については大きさや接触方法など改良の 余地がある. 4.4.3 インピーダンス制御 インピーダンス制御は,マニピュレータのエンドエフェクタの発揮力をバネマ スダンパ系として制御する力制御の1つである.エンドエフェクタにバネ,マス, ダンパなどの機械要素を取り付けて手先のインピーダンスを変更する受動イン ピーダンスと,手先の位置,速度,力などの測定値を用いたフィードバック制御 器を設計しインピーダンスを変更する能動インピーダンスがある.本研究では, インピーダンスがオンラインで任意に変更可能な能動インピーダンス制御を採用 した.図 25 は速度入力型インピーダンス制御のブロック線図である.図 25 にお ける x は,エンドエフェクタの変異ベクトル,θ は PA10 の各関節角度をベクトル 表記したもの,f はエンドエフェクタで発揮される力のベクトルである.エンド エフェクタの各軸のインピーダンスパラメータとしてバネ係数 K, ダンパ係数 C, 仮想質量 M を設定することで,エンドエフェクタを触れた際の応答が決定する. 本システムでは,マニピュレータに 6 自由度汎用マニピュレータ PA10-6C(三 菱重工業)を用いた.一般にマニピュレータの滑らかで安定な力制御を行うには, フィードバックゲインを大きくとり,制御周期を出来るだけ高速にする必要があ る.Mac3D システムを介してアナログデータを収録する兼ね合いにより,制御周 期を 200[Hz] とした.フィードバックゲイン Kf は,実験的に次の通りとした. Kx 2.0 Kf = Ky = 2.0 Kz 2.0 (13) インピーダンス制御は,エンドエフェクタの各軸に行うこととした.また,マニ ピュレータの制御入力には関節角速度とした. 35 K M x ∫ PA10 C M + + &x& ∫ x& J - -1 θ& f θ K_f 図 25 インピーダンス制御のブロック線図 4.5 システム概要 図 26 に提案システムの模式図を示す.提案システムは,モーションキャプチャ 及びアナログ入力の同時収録を行う Mac3D system(Nac イメージテクノロジー), ダーツボードの状態観測を行う Darts Board Ovservation System: DBOS 及びこ れら 2 システムから必要な情報を受け取り運動学習者を支援するマニピュレータ PA10(三菱重工業)の制御を行う PA10 Control System の3つにより構成され る.本システムを利用する運動学習者には,モーションキャプチャ用のマーカー を体幹と上肢に取付ける.取付け位置は,図 11 と同じにした.図 27 に提案シス テムでのデータの流れを示す.Mac3D System は,モーションキャプチャ及びア ナログ入力はいずれもサンプリング周波数 200[Hz] で収録し,イーサネットを通 じて PA10 Control System に送信する.DBOS は,ダーツボードの状態を観測し, ダーツボードにダーツが到達した情報をダーツボードから,ダーツの到達位置情 報を web カメラを用いて計算し,ダーツボード中心からの距離をスコアとして PA10 Control System に送信する.PA10 control system では,Mac3D System か ら送られてくるアナログ入力値からエンドエフェクタの力の情報を得て PA10 を インピーダンス制御を行う.また,運動学習者のモーション,スコア及び PA10 の手先で発揮されている力を入力信号として,強化学習によりオンラインでイン ピーダンスパラメータを調整する. 36 Mac3D system Hark System ADC Gigabit Ethernet PA10 control system Arcnet PA10 controller Camera Darts board Human with Robot USB 2.0 Ethernet Darts board ovservation system 図 26 提案システムの構成図 Environment Mac3D system PA10 control system Sampling frequency: 200 [Hz] Human with Robot motion motion capture force ADC (12bit) score darts board and camera Darts board ovservation system RL controller Impedance parameter Impedance controller Control freqency: 200[Hz] joint angle : θ 図 27 提案システムにおけるデータの流れ 37 Darts board PA10 Human 図 28 PA10 と運動学習者の位置関係 4.5.1 PA10 と運動学習者の位置関係 図 28 に PA10 と運動学習者の位置関係を示している.支援を行わないときは, PA10 の姿勢を下げる.このとき,運動学習者の視界に入らないように注意した. ダーツボード中心からフットラインに線を結んだときに PA10 中心が線上でかつ, フットラインと PA10 取付け架台(固定用の延長ロッドを完全収納した状態)が 交わる場所に設置した. 4.6 強化学習の実装 状態 sk ,報酬関数 rk 及び方策 πk は次の通りとした. • 状態 状態は,運動学習者の熟達度を推定するために次のように設定した. " # ds sk = (14) de 38 ここで,ds 及び de は,それぞれ投擲期間中の肩の位置変化量とエイミング 動作前後の肘の位置変化量である. • 報酬関数 報酬関数は,運動学習者が提案システムを利用することで,熟達者の持つ 動作を獲得することを目的に構成した.ダーツボードの中心(ブル)を狙っ て当てることを練習と設定しているため,運動学習者が投げたダーツがダー ツボード中心に到達するほど良いということになる.また,運動学習者の 熟達度に応じてロボットの補助量を変化させる必要がある.運動学習者が 熟達するほど,ロボットの補助量を減らすことが良いと考え,補助量の指 標として,エンドエフェクタが作用した力を用いて次のように報酬関数を 設計した. rk = snorm − ηfnorm (15) ここで,snorm 及び fnorm はそれぞれダーツボード中心からダーツ到達点ま での距離を正規化したものとエイミング期間中の単位時間にロボットが作 用した力の量をあらわしている.具体的には,それぞれ次のように処理を 行った. sraw − smax smax faiming = taiming snorm = (16) fnorm (17) ここで,sraw はダーツボード中心からダーツ到達点までの距離 [mm] であ る.smax はダーツボードの半径であり smax = 195 とした.faiming は,エ イミング期間中のロボットの作用力,taiming はエイミングに要した時間で ある. • 方策 方策 πk によって上腕の完全な固定から緩い固定まで行うことが必要である. 方策によって PA10 のスティフネスを変化させることでこれを実現する.具 体的には,方策にはガウシアンユニットを用いて,インピーダンスパラメー 39 表 5 インピーダンスパラメータ設定値 インピーダンスパラメータ K D M 最大値 400 - - 最小値 0 - - 初期値 400 10 5 タのバネ項 K を更新する. πk ∼ N(πk , µk , σk ) µk = T ws σk = 1 1+exp(−w3 ) K = Kdef ault + πk (18) (19) ここで,Kdef ault は,バネ項の初期値である.ガウシアンユニットの平均は, 状態 s とフィードバック係数 w の重みつき和,標準偏差 σ をシグモイド関 数によってあらわす.運動学習者は肩と肘のブレが大きくなる傾向がある ため,実験の初期はエンドエフェクタのスティフネスを高くし上腕を出来 るだけ固定する必要がある.このため,K の初期値にはエンドエフェクタ のスティフネスが最大となる値を設定した.インピーダンスパラメータの 初期値や最大値は実験的に求めた.これを表 5 に示す. • eligibility ガウシアンユニット式(18)の平均 µ と標準偏差 σ に関する eligibility は 式(18)をそれぞれについて偏微分した at − µ ∂ ln π = ∂µ σ2 ∂ ln π (at − µ)2 − σ 2 = ∂σ σ3 (20) (21) で表すことができる.しかしながら,分母が標準偏差 σ となっているため, σ が 0 付近では急速に発散してしまう.このため,更新のステップ幅を σ 2 40 に比例させると,適正度は以下のように計算される. ∂ ln π = at − µ ∂µ ∂ ln π (at − µ)2 − σ 2 = ∂σ σ (22) (23) 次節の実験では,報酬関数の補助力に関する割引率を η = 0.08 とし,eligibility の時定数 β = 0.95,方策パラメータの学習係数 α = 0.02 とした. 41 4.7 実験 実験は次の 2 項目を確認することを目的として行う. • 動作確認 提案システムを利用することで提案システムが強化学習により個人適応し ているかどうか. • システム評価 提案システムが被験者の運動学習を支援し加速させているかどうか. 4.7.1 実験の条件設定と実験方法 再実験で肘と肩のブレについて最も大きな被験者について運動学習支援学習シ ステムを用いて実施した. 被験者 健康な 24 歳の男性 2 名に次に説明する条件をすべて適用した. 条件設定 実験は次の 3 条件を被験者に適用した. 条件1:支援なし 何も支援を行わず人間だけで練習を行う. 条件2:支援あり(制御なし) ロボットが支援するが,支援したままの状態を維持する. 条件3:支援あり(制御あり) ロボットが支援をする.拘束の強さは,被験者の熟達度にあわせて適 応する. 実験方法 図 29 に示すように,被験者は練習前テスト,練習,練習後テストの順番に 行う.練習前後のテスト期間では,ロボットは姿勢を低くして被験者の邪魔 42 䝔䝇䝖ᮇ㛫 15 150 計測開始 電子音 計測終了 ダーツがボードに到達 時間 15 運動学習者:投げる ⦎⩦ᮇ㛫 㛫 ⟽䛾୰䛾ᩘᏐ䠖ᢞ䛢䜛ᮏᩘ䠄ᮏ䠅 図 30 1 回の投擲における計測の方法 図 29 1 回の実験のフロー にならないようにしておき,練習前テストと練習の間にロボットの支援位 置の調整を行う.調整時は,ロボットの手先の仮想インピーダンスからバ ネ成分を取り除いた状態で操作し,被験者とディスカッションしながら上 肢の固定場所やその高さを決定する.高さ決定の工夫としては,被験者は ダーツボードに向かって狙いをつけた姿勢をとり,このときの上腕の位置 よりも少し高めの位置に設定することとした.どの条件でも実験では,練 習前テストとして 15 投,練習フェーズとして 100 投,練習後テストとして 15 投を行った.全体で 130 投を行う.これは,ダーツを対象とした練習に おけるスコアの変化やダーツのリリースタイミングについて調査した研究 [24] において連続して 100 投することで練習後半にスコアが良くなることを 示されていることから,これを参考にし実際に数名の被験者に適用し,疲 れすぎず集中した状態を維持する回数として設定した.どの条件において も練習前後のテストでは支援を行わないこととした.練習フェーズでは各 条件に基づいた支援方法が適用される.また,いずれの条件でも,図 30 に 示すとおり,一回の投擲につき計測または制御が行われる.被験者は計測 開始の電子音を聞いた後は,好みのタイミングで投擲を開始する.計測ま たは制御は,ダーツボードにダーツが到達した時点で終了する. 実験期間 一日一回実験を行うものとして,1 条件につき 2 日間行い計 6 日間で実施し た.1 条件を実施するにつき 1 日以上の休日を入れることで連続に行う順序 効果を出来る限り除くように配慮した. 43 4.8 結果と考察 図 31 被験者 A に適用した様子 44 Action Action 0 100 0 -100 -200 -300 1.5 1 0.5 0 -500 20 20 40 60 Reward 40 60 80 80 -1000 100 1 0.5 0 -0.5 100 20 20 40 60 Reward 80 100 40 60 80 100 60 80 100 K 400 300 200 100 20 40 K 60 80 300 200 100 0 100 図 32 1 日目 20 40 図 33 2 日目 図 34 被験者 B に適用した際の強化学習の学習曲線 動作確認 図 32 と図 33 に被験者 B に提案システムを適用したときの試行に対する 各パラメータの推移を示している.図 32 は練習フェーズの一日目の結果で 上から方策,報酬及び方策によって実際に指定されたインピーダンスパラ メータ K である.図 33 はその二日目を示している.図 35, 図 36 はそれぞ れ一日目と二日目のスコア,補助力,肩のブレ及び肘のブレを示している. すべてのパネルは横軸が投擲数である. 図 35 及び図 36 から被験者 B は,体幹のブレが小さくスコアも高くどち らかと言えば熟達者よりの被験者である.したがって,提案システムの望 ましい挙動としては,ロボットのスティフネスを減少させることである.一 日目の結果の図 32 からは,70 投目から行動が減少に転じているが,報酬は あまり反応していない.図 35 の計測された補助力は,0 付近の値をとり全 体としては大きな変化は見られない.一日目の補助位置では被験者の補助 45 Score 1 0.5 0 2 0 -2 60 40 20 60 40 20 20 40 60 Force Score 80 20 40 60 80 Shoulder Displacement 20 40 60 80 Elbow Displacement 1 0.5 0 100 5 0 -5 100 60 40 20 100 100 50 0 20 40 60 80 100 20 80 100 20 40 60 80 Shoulder Displacement 100 20 40 60 80 Elbow Displacement 100 20 40 60 Force 40 60 80 100 図 36 2 日目 図 35 1 日目 図 37 各パラメータの試行間変化(1 日目) が適切に行えていないということであり,二日目からは補助位置をより高 くすることとした.図 33 の二日目の結果は,スコアの上昇に伴ってスティ フネスを下げているいることが確認できる.図 36 からは,補助力が一日目 よりも改善されていることがわかる.また,スティフネスが 0 となった際 はロボットの利用をしないため補助力が 0 付近の値を取っていることも確 認できる. 学習支援の効果 • 肘と肩のブレ 図 38 と図 39 にそれぞれ条件 2 及び条件 3 における被験者 A の肩のブ レの練習前後のテスト(Test1 と Test2)を示し,図 40 と図 41 にそれ ぞれ条件 2 及び条件 3 における被験者の肘のブレを示している.いず れのパネルも横軸は時間経過に従ってならべており,左側から初日の 46 160 160 140 140 120 120 100 100 80 80 60 60 40 40 20 20 0 Test1 Test2 Test1 0 Test2 図 38 条件 2 における肩のブレ 160 140 140 120 120 100 100 80 80 60 60 40 40 20 20 Test1 Test2 Test1 Test2 Test1 Test2 図 39 条件 3 における肩のブレ 160 0 Test1 0 Test2 図 40 条件 2 における肘のブレ Test1 Test2 Test1 Test2 図 41 条件 3 における肘のブレ テストとなる.被験者 A は,肩と肘のブレを確認した予備実験の被験 者 s3 にあたる.図 21 と図 22 からわかるようにそれぞれのブレが大き い.図 38 と図 40 に示す肘及肩の条件 2 の結果の練習初日のテスト 1 及びテスト 2 を比較すると,明らかに練習後にブレが小さくなってい ることがわかる.しかし,その後は一時的に大きくなっているかそれ 以上小さくなってはいない.これに対して,図 39 と図 41 の条件 3 の 結果は,肘及び肩のブレは練習が進むにつれてなだらかに小さくなっ ていることがわかる. 47 without robot * * 7HVW 7HVW 7HVW 7HVW with robot (assist off) * * 7HVW 7HVW * 7HVW 7HVW with robot (assist on) 7HVW 7HVW 7HVW 7HVW 図 42 2 日間の各条件における練習前後における得点のヒストグラム *: (p < 0.05) 以上から,練習中に一定の拘束力で抑えるだけでは,使用初回に固定 した効果が現れるが,実験を繰り返しても頭打ちしてしまい飽和して しまう現象が見られる.適応的に拘束力を調整する手法では,条件 2 に比べるとブレは徐々に小さくなる傾向があると考えられる. • 得点 各条件の 2 日間の得点についてヒストグラムを図 42 に示す.*は, p < 0.05 で平均に差がある場合の印である.各条件の初日と最終日で得点 48 の差はなかった.この被験者はどの条件でもなかなか学習しない被験 者である.条件 1 から条件 2,条件 2 から条件 3 への切り替わりとなる Test2 と Test1 の間に有意な差は見られなかった.各条件の 3 条件を連 続して適用することによる順序効果は出ていないと考えられる.しか しながら,初日の最初の Test1 の結果から次の日の Test2 で有意な差 が見られず,二日間という期間は短かったと考えられ,得点に練習成 果が現れるにはより日数を要すると考えられる.また,この被験者に とっては練習量が多すぎであることが考えられ,練習後テストでは集 中力が切れてしまったという可能性もあり,練習量についても見直す 必要があると考えられる. 5. まとめと今後の課題 本論文では,ある目的を達成するための動作は,コツを学習することで促進さ れることに着目し,熟達者の身体の制御戦略をコツと見なし,非熟達者に教示す ることを行った.具体的には,ダーツボードの中心に当てる動作について熟達者 が身体の自由度を落とすことを行っていることを非熟達者に教示することとし, ロボットによる運動自由度の拘束を行うものとした.拘束の方法については,熟 達度に応じて拘束の強さを変化させることとし,強化学習の方策勾配法を用いて 運動学習者に適応するシステムを提案した.まず,報酬や状態などを設計・設定 するために,ダーツにおける熟達度の指標を検討する実験を行った.この実験で は,熟達者と非熟達者の動作及び筋活動を比較し,熟達者がもつ特徴を抽出した. 観察された特徴のうち肘及び肩のブレが熟達者は非常に小さいことに着目し,こ れら特徴を身体の制御戦略,すなわちコツとした.非熟達者にこの戦略を教示す るためにマニピュレータを用いて非熟達者の上腕を固定して支援を行う運動学習 支援学習システムを構築した.熟達者に近い被験者を用いて評価実験を行い構築 した運動学習支援学習システムが運動学習者に適応していることを示した.次に, 構築した運動学習支援学習システムによる効果はスコアには現れなかったが,正 しいフォームの学習促進に効果があることを示唆した. 49 今後の課題としては,より少ない試行回数で適応させるようにパラメータを チューニングする必要がある.また,運動学習者の行動モデル,身体の筋骨格モ デルとダーツの実験環境を物理モデル化を行って 事前にシミュレーションを行っ たパラメータを用いて実験を行う環境を構築し,より短時間で収束させることも 考えられる.また,一回の練習量についても,被験者に適応させることも考えら れる.そのためには筋疲労をモデル化し,EMG などの身体内部の情報を入力し て被験者の疲労を予測し,練習量を調整することもひとつの解決方法であると考 えられる.評価実験としては,適応的な物理的拘束方法がよいというより一般的 な結論を導くために,今後は被験者数を増やし提案システムの有効性を検証する 必要がある.環境の物理モデルを用いることで VR 表示も可能になるため,物理 的な拘束による運動学習支援に限定せず,より臨機応変に運動学習者への教示方 法を切り替える適応的な運動学習支援学習システムの構築も可能ではないかと考 えている. 50 謝辞 本研究および本論文作成における全過程を通じて,懇切なるご指導,ご鞭撻を 賜りました池田 和司 教授に甚大な謝意を表します. 副指導教官としてゼミナー ルでは数多くのご助言を頂きました小笠原 司 教授に深く感謝いたします. 本研 究を行うにあたり,副指導教官として数多くの可能性をご指摘していただき,さ らには研究や数多くの研究発表の場を与えてくださいました柴田 智広 准教授に 厚くお礼申し上げます.報告書から研究発表の資料や発表方法,計測機器利用ま で幅広くご指導いただきました為井 智也 研究員に心から感謝申し上げます.研 究に必要な備品購入では大変お世話になりました,谷本 史 秘書に心より感謝申 し上げます.研究室配属から研究生活における多くの助言や指導をいただきまし た研究室の先輩方に感謝いたします.実験の手伝いや有益な助言をしてくれた研 究室の後輩の皆さんありがとうございました. 最後に,論文審査委員を快く引き受けてくださった池田 和司 教授,小笠原 司 教授,柴田 智広 准教授に改めて感謝致します. 51 参考文献 [1] 川人光男. 脳の計算理論, 産業図書, 1996. [2] M. Kawato, K. Furukawa K and R. Suzuki. A hierarchical network model for motor control and learning of voluntary movement, Biol Cybern,57 pages 169–185, 1987. [3] K. Urawaki, Y. Masuda, Y. Yasumuro, Y. Manabe, and K. Chihara. Development of the Learning Environment for Sport-form Education with the Visualization of Biophysical Information, Proceedings of the 14th International Conference on Artificial Reality and Telexistence, pages 576–579, 2004. [4] A. Duschau-Wicke, T. Brunsch, L. Lunenburger, and R. Riener. Adaptive support for patient-cooperative gait rehabilitation with the Lokomat. IEEE/RSJ International Conference on In Intelligent Robots and Systems, pages 2357–2361, 2008. [5] T. Shiomi. Intervention strategy for optimizing motor skill in strokepatients, Rigakuryouho Kagaku, 19(1) pages 1–5, 2004. [6] 國吉 康夫. ロボット模倣の創発・発達的構成論にむけて, バイオメカニズム 学会誌, 29(1) pages 20–25, 2005. [7] A. Tapus, C. Ţăpuş, and M.J. Matarić. User―robot personality matching and assistive robot behavior adaptation for post-stroke rehabilitation therapy. Intelligent Service Robotics, 1(2) pages 169–183, 2008. [8] K. Tanaka, T. Kataoka, and M. Hasegawa. Virtual Sport System for Optimum Exercising Based on a User Model. Journal of Computer Science in Sport, 7(2) page 290, 2009. [9] A. Murai, K. Kurosaki, K. Yamane, and Y. Nakamura. Realtime Estimation and Visualization of Muscle Tension Based on Motion Caputure, EMG, and Dynamic Muscle Model. The 14th Robotics Symposia, 2009 52 [10] C.G. Burgar, P.S. Lum, P.C. Shor, and H.F.M. Van der Loos. Development of robots for rehabilitation therapy: the Palo Alto VA. Stanford experience. J Rehabil Res Dev, 37(6) pages 663–674, 2000. [11] K. Kita, R. Kato, H. Yokoi, and T. Arai. Analysis Method of Skill Acquisition Process using Electromyogram for Autonomous Assistive Devices. JOURNAL-JAPAN SOCIETY FOR PRECISION ENGINEERING, 74(3) page 298, 2008. [12] 松永尚久. 内野手の投球動作の習熟. 体育の科学, 23 pages 448-452, 1974. [13] 森本 正治, 鈴木 祥生, 元田 英一, and 隅谷 政. I-l1-4 対麻痺用歩行補助装具 (walkabout,argo) の訓練効果の計測・評価. リハビリテーション医学 : 日本 リハビリテーション医学会誌, 36(11) pages 762–763, 1999. [14] 大須 理英子. 運動技能の獲得とそれに伴う柔軟性の変化: 表面筋電図による 検討 (特集 運動学習). バイオメカニズム学会誌, 25(4) pages 161–166, 2001. [15] CA Putnam. Sequential motions of body segments in striking and throwing skills: descriptions and explanations. Journal of biomechanics, pages 26–125, 1993. [16] S. Furuya and H. Kinoshita. Roles of proximal-to-distal sequential organization of the upper limb segments in striking the keys by expert pianists. Neuroscience letters, 421(3) pages 264–269, 2007. [17] T. Flash and N. Hogan. The coordination of arm movements: an experimentally confirmed mathematical model. Journal of neuroscience, 5(7) page 1688, 1985. [18] Y. Uno, M. Kawato, and R. Suzuki. Formation and control of optimal trajectory in human multijoint arm movement. Biological Cybernetics, 61(2) pages 89–101, 1989. 53 [19] 大須 理英子, 宇野 洋二, 小池 康晴, and 川人 光男. 運動軌道データから計 算される評価関数による軌道計画規範の検討. 電子情報通信学会技術研究報 告. NC, ニューロコンピューティング, 96(331) pages 71–78, 1996. [20] V. Zatsiorsky and V. Seluyanov. The mass and inertia characteristics of the main segments of the human body. Biomechanics VIII-B, pages 1152–1159, 1983. [21] J. Peters and S. Schaal. Reinforcement learning of motor skills with policy gradients. Neural Networks, 21(4) pages 682–697, 2008. [22] T. Matsubara, J. Morimoto, J. Nakanishi, M. Sato, and K. Doya. Learning CPG-based biped locomotion with a policy gradient method. Robotics and Autonomous Systems, 54(11) pages 911–920, 2006. [23] H. Kimura and S. Kobayashi. An Analysis of Actor-Critic Algorithms Using Eligibility Traces: Reinforcement Learning with Imperfect Value Functions. JOURNAL-JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, 15(2) pages 267–275, 2000. [24] J.B. Smeets, M.A. Frens, and E. Brenner. Throwing darts: timing is not the limiting factor. Experimental Brain Research, 144(2) pages 268–274, 2002. 54 付録 A. 実験システム詳細 • PA10 control system このシステムの課題となったのは, – Mac3D システムからのデータ取得と PA10 の制御を同時に行うこと – 安定した制御周期を得ること – 手先のマーカから,切り出しのためにテイクバックなどのタイミング を検出すること である.表 6 にシステムの詳細やプログラムの開発環境を示す.PA10 の 制御には,Windows の高性能な QueryPerformanceCounter を利用した.注 意点として,昨今,マルチコア CPU の普及や CPU 負荷に対して動的に FSB を変更することで,消費電力を抑える省電力機能が稼動している.こ のカウンタは CPU の FSB を用いて計算されるため,プログラム実行中に 動的に FSB を変更されてしまうと正確な時間を計測することが不可能に なる.このため BIOS でこの機能を OFF に設定するなど対策を行う必要 がある.また,プログラム実行中にコアが変更されても問題となるため, QueryPerformanceCounter を用いる関数が実行されるスレッドの実行優先 度を高くしておく.また,常にネットワークを監視し,Mac3D システムか ら送られてくるマーカーやアナログ情報を含むフレームを取り込む処理と, PA10 を制御する処理と同時に行う必要があるため,これらを別々のスレッ ドとして駆動することとした.Mac3D システムから送られてくる運動デー タは,カットオフ周波数 [10Hz] のローパスフィルタをかけた後,マーカ位 置欠損部分の補間処理を行った.補間処理には,GNU Scientific Library for Windows の Cubic spline を用いた.検出後の確認として,Matlab の API に よるグラフのプロットを行うことで,テイクバック終了時刻を基準とした 切り出しの確認を効果的に行えるよう工夫した. 55 表 6 PA10 control system OS CPU メモリ Windows Vista 32bit Core2 Duo 3.3GHz 4GB 開発環境 VisualStudio 2008 Professional Win32 API, BoostPro 1.41.0, GNU Scientific Library for Windows, API やライブラリ Matlab 7.1 • Darts board observation system 表 7 にシステムの詳細やプログラムの開発環境を示す.このシステムの課 題となったのは, – ダーツボードの状態を観測すること – ダーツの矢の到達位置を検出し,中心からの距離を計算すること – ダーツの矢を検出できなかった場合に柔軟に対応できること である.まず,1 については,ダーツボードにダーツが当たった瞬間だけ,到 達部位のスイッチの状態変化を捉えることが必要である.1[ms] 間隔でダー ツボードを監視していても,ダーツ到達時の瞬間のボタンの状態変化を見 逃してしまうため,常にダーツボードの状態を監視するスレッドを用意す ることとした.2 については,図 43 に示すように Web カメラ 2 台を用いて, ダーツの矢を検出し簡易的な計算により中心距離を得ることとした.検出 には,図 44 にしめすアルゴリズムとして OpenCV の関数を利用した.3 に ついては,人間による修正を手軽に行えるように OpenCV の関数を利用し た.具体的には,ウインドウ上の画像をクリックすると,その位置を用い て計算するようにした. 56 表 7 Darts board observation system OS CPU メモリ Windows XP professional 32bit Pentium 4 3.0GHz 1GB 開発環境 VisualStudio 2008 Professional Win32 API, BoostPro 1.41.0, DirectInput, OpenCV API やライブラリ ⤯ᑐ್ᕪศ⏬ീ䛾ྲྀᚓฎ⌮ 2್ฎ⌮ 䝜䜲䝈㝖ཤ 㔜ᚰ⥺᳨ฟ 䝝䝣ኚ no 図 43 検出用のカメラ ┤⥺䛿᳨ฟ䛥䜜䛯䛛 ⧞䜚㏉䛧ᅇᩘ䛾ୖ㝈䛛 ⤊ 図 44 検出アルゴリズム 57