...

修士論文 人間の歩行・転倒回避メカニズムの理解のための CPG位相に

by user

on
Category: Documents
6

views

Report

Comments

Transcript

修士論文 人間の歩行・転倒回避メカニズムの理解のための CPG位相に
NAIST-IS-MT0451039
修士論文
人間の歩行・転倒回避メカニズムの理解のための
CPG 位相に注目したアプロ−チ
門脇 千智
2006 年 3 月 10 日
奈良先端科学技術大学院大学
情報科学研究科 情報生命科学専攻
本論文は奈良先端科学技術大学院大学情報科学研究科に
修士 (工学) 授与の要件として提出した修士論文である。
門脇 千智
審査委員:
石井 信 教授
(主指導教員)
植村 俊亮 教授
(副指導教員)
川人 光男 教授
(副指導教員)
銅谷 賢治 助教授
(副指導教員)
柴田 智広 助教授
(副指導教員)
人間の歩行・転倒回避メカニズムの理解のための
CPG 位相に注目したアプロ−チ∗
門脇 千智
内容梗概
現代では高齢化は著しい勢いで進展し,近い将来には超高齢化社会が到来するこ
とが危惧されている.そのような状況の中で,日常生活の中で遭遇しやすく寝たき
りの原因としても大きな割合を占める「転倒」に関して,転倒対策の強化が重要視
されている.一方,ロボットにおいても,環境変化や外乱等に対し優れた適応性を
持つ歩行の生成を目指し様々な研究がなされている.近年では神経生理学等の実験
から示唆される知見に基づいた Central pattern generator を用いた制御手法が注目
されている.CPG を用いた研究の中に,CPG の位相に注目し,外乱等に対し位相
をリセットすることで歩行を安定化させる手法が報告されており,脚接地時におけ
る位相リセットの有効性は実ロボットにおいて実験的に示されている.しかしなが
ら,位相リセット量を与える位相反応曲線の設計手法は無く,実験者が経験的に決
定する必要があった.
本研究では,外乱や環境変化に対して現れる転倒回避動作や現象について,計測・
実験による解析と,工学的な再現による検証の 2 方向からアプローチを行い,転倒
回避のメカニズムの理解を目指す.
計測では,特に歩行の位相に注目して解析を行なう.実機によって有効性が示さ
れている脚接地時の位相リセットの考えに基づき,人間の脚接地時における位相反
応曲線により,脚接地位相に対する位相変位量の依存について調べる.また,一方
で強化学習を用いて,2 足歩行ロボットモデルの望ましい位相反応曲線を自律的に
獲得する手法を提案し,数値シミュレーションによって手法の有効性について検証
する.更に,ロボットの躓き時に人間に観察される転倒回避の動作を導入し,その
動作の歩行の安定化への影響を検証する.また,小型のヒューマノイドロボットに
∗
奈良先端科学技術大学院大学 情報科学研究科 情報生命科学専攻 修士論文, NAIST-IS-MT0451039,
2006 年 3 月 10 日.
i
対し,実験的に作成した位相反応曲線を用いた歩行実験を行い,2 次元平面状に拘
束されない系に関しても位相反応曲線が有効であることを示す.
本論文では,計測と数値シミュレーションの結果から,人間の歩行において脚接
地時の位相リセットが観察されること,位相リセットと転倒回避 Strategy が外乱等
による動揺からの回復に影響していることが確認できた.また,強化学習による位
相反応曲線の設計の有効性を示した.
計測実験による解析と工学的手法による歩行・転倒回避動作の再現の双方から得
られる知見の融合により,人間の生活とロボット技術の双方の発展が見込める.ロ
ボットによって,計測から得られた人間の歩行・転倒回避動作を工学的に実現する
ことで,転倒回避が不可能な状況・可能な状況に関する詳細な解析が行える.ここ
から得られる知見は転倒回避策を講じる上で有効であると考えられる.また,人間
の歩行・転倒回避動作の理解により,ロボットの環境変化・外乱に対し柔軟な 2 足
歩行の生成技術の開発が期待される.
キーワード
歩行,CPG, 転倒回避,位相反応曲線, 位相リセット,強化学習
ii
An approach toward understanding of the
mechanism of humn walking and recovery
movement from stumbling with the focus the
phase of walking pattern∗
Chitomi Kadowaki
Abstract
In recent years, the population of elderly people is growing rapidly and it is inevitable that we will face the arrival of the growing society in near future. For
elderly people, fall down is one of the major causes of long-term hospitalization or
bedridden conditions which often happens in the daily life. Therefore, understanding of the mechanism of falling down and devising measures to prevent falling down
are becoming important issue. On the other hand, in robotics, there have been
a growing number of studies of biped locomotion in an effort towards developing
control strategies to achieve robust walking against environmental changes and unexpected perturbations. Recently, biologically inspired approaches using a Central
Pattern Generator (CPG) have been drawing much attention. Previously, strategies
to introduce phase resetting to the CPG have been suggested in order to achieve
synchronization of the phase of pattern generator with the rhythm of walking. The
effectiveness of phase resetting at the instance of heel strike was empirically demonstrated with robotic experiments to improve the robustness of walking. However,
design principles of phase response curve (PRC) are not well established to achieve
the desired behavior of the oscillator.
In this thesis, our goal of this study is to understand the mechanism of recovery
from stumbling during locomotion from two different approaches. One is to analyze
∗
Master’s Thesis, Department of Bioinformatics and Genomics, Graduate School of Information
Science, Nara Institute of Science and Technology, NAIST-IS-MT0451039, March 10, 2006.
iii
the recovery movement from stumbling of human locomotion by measuring the behavior of human subjects in a stumbling experiment in collaboration with a group
of medical doctors specialized in rehabilitation from a biomechanics approach. The
other is to verify of the stumbling strategies in numerical simulations and robotic
experiments from a robotics and machine learning approach. In the measurement
experiments of human walking and stumbling behavior, we focus on the phase of
walking. Based on the idea of phase resetting, we investigate the amount of phase
resetting depending on the timing of heel strike by examining the phase response
curve obtained from the measurement data. In the robotics study, we suggest an
approach to acquire an appropriate PRC for locomotion with a simple planar biped
robot model using reinforcement learning, and demonstrate the effectiveness in numerical simulations. Furthermore, we investigate the effectiveness of phase resetting
for biped locomotion in a small full body humanoid robot, HOAP-2, by applying an
experimentally designed PRC.
It is expected that this study will be useful for future development of an effective methodology for rehabilitation and prevention of fall over based on scientific
evidence. It will be possible to analyze various movements in more detail in detail,
for example, recovery procedure from tripping during walking by reproducing human gait in numerical simulations based on the measured data, in particular, this
is useful in investigating extraordinary cases that might not be possible to test on
human subjects. In addition, the direction of this study will provide insights into
further improvement of biped locomotion controllers in robotics.
Keywords:
biped locomotion, CPG, recovery, PRC, phase resetting, reinforcement learning
iv
目次
1. はじめに
1
1.1
研究の動機
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
従来研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.3
本研究のアプローチ
. . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4
本論文の構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2. 人間の歩行及び転倒回避動作
5
2.1
二足歩行運動 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2
神経振動子
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2.1
人間の中枢神経系 . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2.2
中枢神経系が作り出すリズムと歩行運動生成 . . . . . . . . . .
6
2.2.3
リズムパターン発生器の生体実験 . . . . . . . . . . . . . . . .
7
転倒回避 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.3.1
歩行運動と CPG リズムのリセット . . . . . . . . . . . . . . .
8
2.3.2
人間の躓きに対する転倒回避戦略 . . . . . . . . . . . . . . . .
9
2.3
2.4
位相反応曲線を用いた歩行解析 . . . . . . . . . . . . . . . . . . . . . 10
3. 人間の歩行および転倒回避動作計測
11
3.1
計測・実験装置および実験手法 . . . . . . . . . . . . . . . . . . . . . 11
3.2
計測結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3
3.2.1
躓きのタイミングと転倒回避動作戦略
. . . . . . . . . . . . . 12
3.2.2
脚の接地タイミングと位相変位量 . . . . . . . . . . . . . . . . 13
計測結果に関する考察 . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4. 強化学習による位相反応曲線の学習
16
4.1
位相反応曲線の学習システム
. . . . . . . . . . . . . . . . . . . . . . 16
4.2
価値関数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3
位相反応曲線 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5. 2 リンク 2 足歩行ロボットモデルにおける位相反応曲線の獲得
20
5.1
学習システム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.2
シミュレーション . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
v
5.3
シミュレーション結果 . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6. 5 リンク 2 足歩行ロボットモデルにおける位相反応曲線の獲得
27
6.1
学習システム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.2
シミュレーション . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.3
シミュレーション結果と考察
6.4
外乱に対するロバスト性の検証 . . . . . . . . . . . . . . . . . . . . . 34
6.5
人間から観察される転倒回避動作の導入 . . . . . . . . . . . . . . . . 34
6.6
まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
. . . . . . . . . . . . . . . . . . . . . . 29
7. ヒューマノイドロボットの歩行への位相反応曲線の適用
38
7.1
HOAP‐2 の仕様 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
7.2
実験に用いる自由度・センサ
7.3
実験結果および考察
. . . . . . . . . . . . . . . . . . . . . . 39
. . . . . . . . . . . . . . . . . . . . . . . . . . . 39
8. 結論
42
謝辞
44
参考文献
45
付録・床反力モデル
48
vi
図目次
1
歩行のパターンにおけるリズム生成及び肢間強調の制御モデル . . . .
2
右・左脚前後のトレッドミル速度が異なる環境での除脳猫の歩行実験
7
[27] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
3
elevating strategy . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
4
lowering strategy . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
5
位相リセットの様子
6
計測風景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
7
Elevating Strategy の脚軌道 . . . . . . . . . . . . . . . . . . . . . . . 12
8
Lowering Strategy の脚軌道 . . . . . . . . . . . . . . . . . . . . . . . 12
9
Elevating から Lowering . . . . . . . . . . . . . . . . . . . . . . . . . 12
10
転倒回避戦略の選択:(a) 躓きのタイミング (遊脚期),(b) 躓き時の位相 13
11
障害物を置かない状況でのトレッドミル上歩行の PRC(a)(c)(e)(g) と
. . . . . . . . . . . . . . . . . . . . . . . . . . . 10
躓き後の歩行に関する PRC(b)(d)(f)(h):被験者 1 の結果 (a)(b),被験
者 2 の結果 (c)(d),被験者 3 の結果 (e)(f),被験者 4 の結果 (g)(h).計
4 名の被験者に関して計測を行なっている . . . . . . . . . . . . . . . 14
12
躓き直後及び躓き以降の歩行と転倒回避戦略の関係 . . . . . . . . . . 15
13
学習システム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
14
2 リンク 2 足歩行ロボットモデル . . . . . . . . . . . . . . . . . . . . 20
15
学習システム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
16
累積報酬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
17
学習により獲得された価値関数 . . . . . . . . . . . . . . . . . . . . . 23
18
学習により獲得された位相反応曲線 . . . . . . . . . . . . . . . . . . . 23
19
位相リセットを行わない場合の PRC(上) と歩行軌道 (下)
:2 歩後に転
倒している
20
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
人手により作成した PRC(上) と歩行軌道 (下):接地時に与えられる
位相変位量が適切でないため,歩行できず,数歩後に転倒している . 25
21
学習により獲得した PRC(上) と歩行軌道 (下):ここでは,位相反応
曲線により接地毎に与えられる位相変位量を用い,位相をリセッ ト
している.適切な変位量により,転倒せずに歩行を継続できている . 26
22
5 リンク 2 足歩行ロボットモデル . . . . . . . . . . . . . . . . . . . . 27
23
5link 学習システム . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
vii
24
脚軌道:(a) 右腰関節角 (b) 右膝関節角 (c) 左腰関節角 (d) 左膝関節角 [1] 29
25
累積報酬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
26
学習によって獲得した位相反応曲線 (左) と価値関数 (右):位相反応曲
線の破線は標準偏差を示している . . . . . . . . . . . . . . . . . . . . 30
27
位相リセットを行わない場合の PRC(上) と歩行軌道 (下):歩行を行
なうことが出来ずに転倒している . . . . . . . . . . . . . . . . . . . . 31
28
人手により作成した PRC(上) と歩行軌道 (下)
:位相反応曲線が適切
でないため,歩行が継続できずに 2 歩で転倒している . . . . . . . . . 32
29
学習により獲得した PRC(上) と歩行軌道 (下):学習により獲得した
位相反応曲線により適切に位相をリセットし,歩行を継続することが
出来ている
30
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
障害物の存在する路面上での歩行シミュレーション:破線は障害物に
躓いた瞬間を示している . . . . . . . . . . . . . . . . . . . . . . . . . 34
31
Strategy を用いない場合の歩行軌道 (上),Strategy を用いた場合の歩
行軌道 (下):位相 φ = 5.01 で躓いている.Strategy を用いない場合
では転倒しているが,Elevating strategy を行なった場合では躓き後
も歩行を継続できている . . . . . . . . . . . . . . . . . . . . . . . . . 35
32
膝関節軌道 (右脚):破線は転倒回避戦略を用いていない場合,実線は
転倒回避戦略を用いた場合の膝関節軌道を表す.ここでは,Elevating
Strategy の場合を示している . . . . . . . . . . . . . . . . . . . . . . . 36
33
Strategy を用いない場合の歩行軌道 (上), Strategy を用いた場合の歩
行軌道 (下):位相 φ = 5.557 で躓いている.戦略を用いない場合では
転倒しているが,Lowering strategy を用いた場合では躓き後も歩行
を継続できている . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
34
膝関節軌道 (右脚):破線は転倒回避戦略を用いていない場合,実線は
転倒回避戦略を用いた場合の膝関節軌道を表す.ここでは,Lowering
Strategy の場合を示している . . . . . . . . . . . . . . . . . . . . . . . 37
35
HOAP-2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
36
HOAP-2 を用いた歩行実験環境 . . . . . . . . . . . . . . . . . . . . . 40
37
位相反応曲線を用いない歩行:位相反応曲線を用いない場合では,3
歩目でバランスを崩し転倒している . . . . . . . . . . . . . . . . . . . 41
viii
38
位相反応曲線を利用した歩行:位相反応曲線を利用した場合では,バ
ランスを崩さずに歩行を継続できている . . . . . . . . . . . . . . . . 41
表目次
1
2 リンク 2 脚歩行ロボットの物理パラメータ . . . . . . . . . . . . . . 21
2
5 リンク 2 脚歩行ロボットの物理パラメータ . . . . . . . . . . . . . . 28
3
サーボゲイン . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4
実験で使用する HOAP-2 の自由度と関節角許容可動範囲 . . . . . . . 39
ix
1. はじめに
1.1 研究の動機
近年において高齢化は著しい勢いで進展し,近い将来には超高齢化社会が到来す
ることが危惧されている.そのような状況の中で,日常生活の中で遭遇しやすく寝
たきりの原因としても大きな割合を占める「転倒」に関して,その予防策や転びに
くい歩行を獲得するためのリハビリテーション方法など,転倒対策の強化が重要視
されている.
転倒の発生状況については国内外において種々報告されており,多くは滑り,つま
ずきなどの外的要因に起因することが調べられている.また,転倒のリスクファク
ターとしては,体重,BMI および生活の質(Quality of life:QOL)の低さが挙げら
れ,これらに対し転倒の防御因子として,身体活動の実践と意識の高さが挙げられ
ている [14]. このような調査結果から,早期から活発な身体活動により体力を高め
ることや,適正な体格の維持など,様々な転倒予防策が講じられている [18]. しかし
ながら,これらの予防策やリハビリ治療は臨床的な実験・観察等から得られた知見
であり,人間の歩行や転倒回避動作のメカニズムに基づいているわけではない.実
際,人間がどのようなメカニズムに基づき転倒の回避を実現しているのかについて
は解明されていない.今後,科学的根拠に基づいた効率的かつ有効な転倒予防策や
歩行改善策等を講じるためにも,人間の歩行・転倒回避のメカニズムの解明は重要
である.
本研究では,外乱や環境変化に対して表れる転倒回避動作や現象について,計測・
実験による解析と,工学的な再現による検証の 2 方向からアプローチを行い,転倒
回避のメカニズムの理解を目指す.転倒回避動作のメカニズムの理解により,科学
的根拠に基づいた効率的なリハビリ手法や転倒対策の検討・開発が期待できる.同
時に,ロボットの 2 足歩行の生成技術の発展が期待できる.
1.2 従来研究
人間の転倒回避の研究としては,躓き時の転倒回避動作は 2 種類に分けられ,更
に,それらの行動選択が躓きのタイミングに関係していることが報告されている.
1
[21] しかしながら,その行動の実現手法に関するメカニズムはわかっていない.
また,生物の周期的な現象や運動に関して,外部刺激等によって乱れた周期に対
しリズム位相変位による修正が行われており [2],歩行に関しても,刺激に対する位
相の遅れや進みが観察されることが報告されている [13].
一方,近年ロボティクス分野においてヒューマノイドロボットに関する研究が多く
なされている.一般にヒューマノイドロボットは重心が高いのに対し接地面が小さ
く,非常に転倒しやすいという特徴をもつ.また,一般的なマニュピレータのよう
に固定点が存在しないことによる系の不安定性や,運動方程式の非線形性から,安
定した歩行の実現は多くの困難を抱えている.これらの問題に取り組む研究者は多
く,例えば歩行運動生成の指針として Zero Moment Point(ZMP) を利用した手法に
よって,様々な実ロボットにおいて歩行動作が実現されている [8],[9],[22].
また,近年では生体から得られた知見に基づいた手法による歩行の研究も数多く
報告されている.生理学的実験から,生物における心臓の鼓動や呼吸,歩行のよう
な周期的な運動は,自律的にリズムを発生する神経系によって制御されていること
が示唆されている [6].リズムを発生する神経回路網は脊髄内に存在することが調べ
られており,Central pattern generator(CPG),あるいは神経振動子と呼ばれる.
このような見地に基づいた運動生成手法として,CPG に対してロボットの状態に応
じたフィードバックを適切に入力してやることで CPG がロボットのリズムを引き
込み,環境変化等に対し柔軟な歩行を実現する研究が報告されている [24],[4].従
来,CPG のパラメータは設計者の経験に基づいて決定されてきたが,強化学習を用
いることでパラメータを自律的に獲得する研究が行なわれ,成果が報告されている
[16].また,前述した生物の外部刺激に対する位相リセットの知見に基づき,位相リ
セットによって制御器と制御対象を迅速に同調させることにより安定した歩行を実
現する研究が行なわれており [25],実ロボットに適用した例も報告されている [15],
[23].文献 [15] では脚接地時に位相を 0 にするというルールを用いている.しかしな
がら,望ましい位相変位量を設計するための手法は確立されておらず,人手によっ
て実験的に決定する必要がある.
2
1.3 本研究のアプローチ
本研究では,まず人間の歩行・転倒動作に関する計測を行った.歩行は一定速度
で稼動するトレッドミル上で行い,足元に障害物を設置することにより躓き動作を
作り出した.被験者は故意に障害物を避けることが出来ないように,足元が見えな
いよう加工された眼鏡を着用する.このような実験の元,3 次元位置測定装置によっ
て身体動作データの計測を行う.計測データから,文献 [15] で実ロボットによって
有効性が実証されている脚接地時の位相リセットの考えに基づき,人間における脚
接地時の位相反応曲線を作成し,脚接地位相と位相変位量のについて検証する.
また,一方で,強化学習手法によって望ましい位相反応曲線を設計することを試
みている.目標とする理想的な姿が未知である位相反応曲線に対し,モデルを必要
とせず,試行錯誤を通じて望ましい方策を獲得するアルゴリズムである強化学習を
用いる枠組みは有効であると考えられる.強化学習の枠組みとして方策勾配法を用
い [12],確率的な行動則として位相反応曲線を表現している.
歩行ロボットのような多自由度系に対して運動を獲得させるには通常,高次元の
探索空間上を学習する必要があり,学習中の各ステップに必要となる計算量が膨大
となってしまう.しかしながら,位相反応曲線の学習では状態として用いるのは位
相の 1 次元のみであるため,少ない計算量で学習を行なうことができる.
提案手法を用いることで,2 リンク 2 足歩行ロボットモデルに対し望ましい位相
変位量を与える位相反応曲線を設計可能であることを示す.また,5 リンク 2 足歩行
ロボットモデルによって,より多自由度な系に対しても提案手法が有効であること
を示す.更に,位相リセットに加え,人間の躓き時の転倒回避時に観察される動作
をロボットの躓き時に導入することで,外乱に対するロバスト性の向上を図り,そ
の効果について検証する.また,実験的に設計した位相リセットを HOAP-2 の歩行
に利用し,3 次元ヒューマノイドロボットに関しても,位相リセットの有効性を検
証している.
1.4 本論文の構成
本論文では,まず 2 章で人間の中枢神経と歩行および転倒回避動作の関係性につ
いて述べる.この章の中では,人間の中枢神経系,神経振動子,人間の歩行運動,転
倒回避時の動作や現象について説明する.次に,3 章では本研究において実際に行っ
た人間の歩行・転倒回避動作計測について述べる.4 章では,強化学習を用いて位
3
相反応曲線を設計する手法について説明する.5 章では,2 リンク 2 脚歩行ロボット
モデルを用いたシミュレーションによって,4 章で述べた手法により位相反応曲線
が獲得可能であることを示す.6 章では,より多自由度な系である 5 リンク 2 脚歩
行ロボットに対して提案手法を適用し,シミュレーションによりその有効性を示す.
また,ここでは獲得した位相反応曲線による歩行のロバスト性の検証を行う.更に,
人間の転倒回避時に見られる動作を導入によりロバスト性の向上を図り,結果につ
いて考察する.また,7 章では HOAP-2 に対し実験的に作成した位相反応曲線を用
い,二次元平面に拘束されないヒューマノイドロボットの歩行に関しても位相リセッ
トが有効であることを確認している.最後に,8 章にてまとめ及び今度の展望につ
いて述べる.
4
2. 人間の歩行及び転倒回避動作
本章では,人間の歩行や転倒動作の中枢神経系との関わりについて説明する.人
間の運動は中枢神経系によって制御されている.歩行は本章 2.1 節で説明する動作
を周期的に行なうことで達成される.動作の反復は,中枢神経系に筋活動の時間的・
空間的パターンを作り出す機構が存在し,その機構によって達成されていることが
神経生理学等の実験から調べられている.また,外部刺激などに対し,歩行リズム
の位相に注目すると,刺激のタイミングに依存して位相がリセットされることが調
べられている [13].また,刺激のタイミングで転倒回避のための動作が分かれるこ
とが観察されている [21].刺激に対する位相リセットの様子は,位相反応曲線によっ
て調べることができる [10].
2.1 二足歩行運動
本説では二足歩行の簡単な概要について説明する [1].二足歩行は,立位姿勢を保
持しながら全身を移動させるという,複雑な運動である.左右の下肢が交互に支点
となるため,重心位置は上下左右に動揺し,特に重力に抗する運動となる重心の上
下方向への移動は歩行運動中のエネルギー消費の相当の部分を占める.
歩行の 1 周期は床面に片側脚の踵が接地した時点から,同脚が床面を離れ,再び
踵を接地するまでの期間と定義されている.この周期中,床面に脚が接地されてい
る期間を立脚期,離れている期間を遊脚期と呼び,立脚期は周期中約 60 %の時間を
占める.立脚期は更に (1) 踵接地・(2) 足底接地・(3) 立脚中期・(4) 踵離地・(5) 爪先
離地に分けられ,(1)0 %を起点にすると,(2) が 15 %,(3) は 30 %,(4) 爪先離地
は 60 %の時点で生じる.(1)∼(3) の区間では,遊脚相で失われた平衡を元に戻そう
とする時期であり,抑制期と呼ばれる.(4)∼(5) では,爪先が地面を蹴り推進力を
かけるため,推進期と呼ばれる.遊脚相もまた,更にに加速期・遊脚中期・減速期
に分けられる.加速期は脚が体感の後方にある時期,遊脚中期は脚が体幹真下にあ
る時期,減速期は体幹の前方に振り出されている時期を示す.また,歩行には両脚
で体重を支持する時期 (double supporting period) と 1 脚のみで支持する時期 (single
supporting period) が存在する.両脚で支持する時期は立脚相と遊脚期の移行期に
あり,同時定着期 (double stance phase) という.この時期は 1 周期中に 2 回,各 10
%ずつ存在する.二足歩行による移動は,このような相を規則的に反復し,力学的
な意味での平衡を失ったり再び元に戻すことにより達成される.
5
ところで,人の二足歩行の特徴として,1 周期中に膝が 2 回屈曲・伸展する二重膝
作用 (double knee action) と呼ばれる現象が観察される.支持脚は踵接地後ただち
に膝を少し屈曲し,立脚相の後半,体感が支持脚より前方に移動すると膝は伸展す
る.対脚が接地すると再び屈曲し,屈曲速度を増して遊脚相となり,遊脚相の後半
では再び伸展する.屈曲は遊脚中期で最大となり,最大に伸展する踵接地を 0 度と
すると,約 65 度屈曲する.この現象により重心の上昇が抑制され,前述したエネル
ギーの消費を抑えるのに役立っている [1].
2.2 神経振動子
2.2.1 人間の中枢神経系
人間の中枢神経系は脳と脊髄に分けられる.中枢神経系は感覚器からの情報を統
合し,運動や生態内部環境の制御,記憶や学習などの高次機能を司っている.情報
の伝達は末梢神経系・脊髄・脳幹の神経路を通じて行われ,情報の統合と制御は大
脳皮質・小脳・大脳基底核などの中枢神経系内の種々の部位で行なわれている.運
動機能では脊髄が下位中枢であり,機能統合は身体部分の反射運動のように比較的
単純である.脳幹・皮質下核・感覚運動野といった中位中枢では,小脳とともに自
動化した運動,進行中の運動調整などを行う.上位中枢では状況判断・予測等に基
づく複雑な行動の統合を行う.
2.2.2 中枢神経系が作り出すリズムと歩行運動生成
歩行は,多くの筋が複雑な組み合わせで定型的に反復して活動することから,中
枢神経系に筋活動の時間的・空間的パターンを作り出す機構があることが示唆され
る.歩行の神経機構のメカニズムには,中枢神経系にパターン発生器が存在し,歩
行に必要な筋活動の時間的・空間的パターンを決定する,という考えがある.歩行
動作に関して,感覚入力や四肢の状態からのフィードバックに対し,適応的に足並
みを整えねばならず,このような機能が小脳によってなされていることが調べられ
ている [11].しかしながら,感覚障害等が存在しても,まったく歩行動作を行えな
くなるわけではないことから,パターン発生器による周期運動生成の考え方は多く
支持されている.図 1 に歩行の適応制御に関するモデルを示す [11].本研究でもパ
ターン発生器による歩行運動制御の考えに基づき,転倒を回避し歩行を継続するメ
6
カニズムの解明に対するアプローチを行う.
A^·„‹~j
ÊÖFñ
B
á¡ 
Ö
‡G
`¥u›
er§·zè&3*é
^·„‹~j
‡G0Ž
† ·¨®
9»Á
ně-
¸A
‡G0Ž
¾‡
÷
èÙî»Né
‡G0Ž
`¥u› èPRWRUíFRPPDQGé
図 1 歩行のパターンにおけるリズム生成及び肢間強調の制御モデル
2.2.3 リズムパターン発生器の生体実験
脊髄には基本的なリズムを発生するリズム・パターン発生器が組み込まれ,上位
中枢から持続的な入力があるとき,断続的なリズムが生成される.リズム・パター
ン発生器が脊髄内に存在することは,Brown らによるネコを用いた生理学的実験か
ら示唆されている [6],[7].Brown は, ネコの脊髄への感覚神経線維の入り口を切断し
た後,上位中枢から脊髄に持続的な入力を与えると,後肢の屈筋と伸筋が交互に伸
縮することを見出した. この場合, 後肢の筋や関節からのフィードバックによる影響
はないため,リズムを発生する神経回路網は脊髄に存在すると推定した [2].また,
Shik らが脳を脳幹上部で切除し, 脳幹の中脳以下を残したネコを用いた実験を行って
いる [19].この場合,ネコは自発的な歩行を行えなくなったため,ネコをトレッドミ
ルに乗せ,中脳の歩行誘発野と呼ばれる特定部位に電気刺激を与える実験を行った.
その結果,電気刺激の強さに依存した歩容が表れることを示した.また Grillner ら
は,脊髄のみを残したネコでもトレッドミルの回転速度に応じた歩容が表れること
を示し,脊髄内におけるリズム・パターン発生器の存在を支持している [6],[7].柳原
らは 3 つのベルトを持ちそれぞれ異なった速度で駆動できるトレッドミルを用いて
除脳猫の歩行実験を行い,環境変化に応じて記憶している歩行パターンを変化させ
適応する様子を観察している [27].
これらの生理学的実験により,脊髄にはリズムを生成する神経回路網が存在し,歩
行等の生物における様々な周期運動を作り出していることが示唆される.このよう
な神経回路網は Central Pattern Generator(CPG) と呼ばれる.また,自律的にリズ
7
ムを生成する性質から,神経振動子とも呼ばれる.CPG の位相は刺激や環境変化に
よってリセットされることから,本論文では位相に注目し,位相のリセットによる
歩行の安定化に関して検証を行なっている.
図 2 右・左脚前後のトレッドミル速度が異なる環境での除脳猫の歩行実験 [27]
2.3 転倒回避
2.3.1 歩行運動と CPG リズムのリセット
動物を用いた生理学的実験等から,周期的な運動のリズムの位相が外乱等によっ
てシフトすることが調べられている.歩行についても,四肢動物の脚に電気的な刺
激を加えることによって歩行リズムの位相がシフトすることが知られている [2],[19].
また,人間においても,歩行中の遊脚に対するインパルス状の機械的摂動による位
相の変位が実験・報告されている [13].CPG の生成するリズムが制御論的な意味で
の目標軌道の役割を持つと仮定するならば,歩行リズムの位相の変位は目標軌道の
修正の結果であると解釈できる.このような観点から,2 脚歩行モデルによって位
相リセットにより歩行の安定化を図る研究がなされている [25],[23],[15].また,実際
の 2 脚歩行ロボットによって,脚接地時に位相をリセットすることでロバストな歩
行が実現可能であることが実験的に示されている [15].[15] では,位相変位量につ
いては実験的に望ましい値を決定している.本論文では,4 章で強化学習を用いて
2足歩行ロボットモデルにおいて望ましい位相反応曲線を自律的に獲得する手法に
ついて提案し,5,6 章で提案手法についてシミュレーションによる検証を行なって
いる.
8
2.3.2 人間の躓きに対する転倒回避戦略
臨床的な実験・観察結果から,人間が躓いた時にとる動作が 2 種類に分類できる
ことが報告されている.1 つは,障害に躓いた足をそのまま持ち上げ,障害物を越え
て歩行を継続する動作で,elevating strategy と呼ばれる.もう 1 つは躓いた足を床
面に着き,もう一方の足を踏み出す動作であり,lowering strategy と呼ばれる [21].
図 3,図 4 にその概略を示す.
Schilling らは,20∼47 歳の健康な男女を被験者として,躓きの時期と動作の関
係を調べるための実験を行っている.実験は,トレッドミル上を歩行中の被験者の
足元に障害物を落とすことにより行われている.歩行周期中の躓き(障害物との接
触)時期とその時の動作を調べた結果,歩行遊脚期の 5∼25 %の時期では elevating
strategy,55∼75 %の時期には lowering strategy,その間の,30∼50 %の時期には
両方の動作が観察されることを報告している [21].本論文では,3 章で人間の転倒時
の動作計測を行い,転倒回避動作に関して検証している.
図 3 elevating strategy
図 4 lowering strategy
9
2.4 位相反応曲線を用いた歩行解析
外部刺激や環境変化に対する CPG と生体の状態の同期の様子は,位相反応曲線
(Phase Response Curve:PRC)を使って調べることができる [10].位相反応曲線と
は,元々の位相 φ から刺激等の影響により新位相 φnew へ遷移した時の位相の変位量
∆φ を φ の関数で表現したものである.
∆φ(φ) = φnew (φ) − φ
(1)
生体におけるリズムや人の歩行に関しても,位相反応曲線によって摂動や接地の位
相の関係を解析することで,外乱や環境に対する適応の様子を調べることができる.
また,位相反応曲線から得られる望ましい位相変位量によって位相をリセットする
ことで,外乱に対しロバストな歩行の実現が期待できる.位相反応曲線による位相
リセットの様子を図 5 に示す.しかしながら,従来では望ましい位相反応曲線を設
計する手法は確立されておらず,人手によって実験的に設計する必要があった.本
論文では 4 章で強化学習によって自律的に位相反応曲線を設計する手法について提
案し,5,6 章で 2 足歩行ロボットモデルを用いた数値シミュレーションにより,そ
の有効性の検証を行なう.
_¼
Bý +¼U+NÏç
B
BQHZýBë1B
_¼›¥u›
è&3*
Ïç¥v~ƒ‚
1B
Bý\
C¶¶
Bý\
BQHZ
CCC¶¶
B
_”®ƒ
è úɒþé
C¶¶
CCC¶¶
èG
è ú'A(é
C¶¶
図 5 位相リセットの様子
10
3. 人間の歩行および転倒回避動作計測
本章では,人間の歩行および転倒回避動作の計測の手法,実験及びその結果につ
いて述べる.
3.1 計測・実験装置および実験手法
一定速度で回転するトレッドミル上での人間の自由歩行および障害物に対する躓
き時の歩行を三次元位置計測装置を用いて計測した.計測の様子を図 6 に示す.ト
レッドミルの回転速度は人間の平均歩行速度である 3.9km に設定した.また,障害
物は重さ約 10kg・高さ 15cm・奥行き 20cm のものを用いている.本計測は慶友整形
外科病院において,大高洋平医師との共同研究のもとに行なわれた.実験は,20 代
の男性 3 人,女性 1 人の被験者に対して行なった.
図 6 計測風景
実験手順
1. 被験者は足元が見えないように加工された眼鏡をかけた状態でトレッドミル上
を 3 分間歩行.
2. 歩行中のランダムなタイミングでトレッドミル上に障害物を設置し,被験者の
躓きの様子を計測.
11
3. 転倒によるけが等の危険の回避のため,被験者の身体はハーネスによって支え
られているが,歩行や転倒時の動作に影響のないよう考慮している.
3.2 計測結果
3.2.1 躓きのタイミングと転倒回避動作戦略
計測した Elevating strategy の脚軌道を 3.2.1 に,Lowering strategy を 3.2.1 に,
Erevating の失敗により Lowering を行っている様子を 3.2.1 に示す.Elevating では
脚を持ち上げている.Lowering では脚を下げている.Elevating から Lowering に移
行している場合では,一旦持ち上げた足を下ろしている.
80
80
70
70
70
60
60
60
50
50
50
40
40
40
30
30
30
20
20
10
10
80
0
0
10
20
30
40
50
60
70
0
10
20
20
30
40
50
60
70
80
90
10
0
20
30
40
50
60
70
80
90
100
図 7 Elevating Strat- 図 8 Lowering Strategy の脚
図 9 Elevating から Low-
egy の脚軌道
ering
軌道
躓きのタイミングと,選択された動作の関係を図 10 に示す.躓きのタイミングを (a)
では遊脚期中の割合,(b) は歩行周期中の位相によって示している.また,Elevating
strategy を y 軸 1 の位置に, Elevating strategy から Lowering strategy となる場合を
0.5 の位置に,Lowering strategy を 0 の位置に示している.今回の実験では,被験者
はほぼ Lowering strategy を行なっている.しかし,遊脚期の 30∼70 %程度までは
躓き直後には elevating を行なおうとしており,足を持ち上げた高さが足りず,結局
足を下ろし lowering を行なっている場合が多く存在した.また,凡そ 50∼70 %の区
間で,strategy が混在している.Schilling らの実験による結果と本結果では strategy
の選択の区間に差があるが,これは用いた障害物の重さ・高さ等の条件の違いによ
るものと考えられる.遊脚期の後半で lowering となる等の傾向は一致している
12
(a)
(b)
1.5
1.5
testee1
testee2
testee3
testee4
Elevating
strategy
1
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Elevating
↓
Lowering
0.5
Lowering
strategy
0
Elevating
strategy
1
Elevating
↓
Lowering
0.5
-0.5
0.2
testee1
testee2
testee3
testee4
Lowering
strategy
0
-0.5
1
4
4.5
5
5.5
6
躓きのタイミング:位相Φ[rad]
躓きのタイミング:遊脚期中の割合[%]
図 10 転倒回避戦略の選択:(a) 躓きのタイミング (遊脚期),(b) 躓き時の位相
3.2.2 脚の接地タイミングと位相変位量
ここでは,歩行一周期毎における接地タイミングの変化量を位相リセット量とし
て定義している.ここでは,障害の無い状況での歩行の各周期の平均を定常歩行の
1 周期と定義し,定常歩行での左足接地を φ = 0,右足接地を φ = π とした.ここで
の位相変位量 ∆φ は,定常時の周期長を基準とした各周期毎の周期長の変化量であ
る.計測実験により得られた人間の脚接地時における位相反応曲線を図 3.2.2 の (a)
∼(h) に示す.ここで,(a)(c)(e)(g) は障害物が無い状況での歩行,(b)(d)(f)(h) は躓
き後の歩行に関する PRC である.傾向として,脚接地のタイミングが定常より早い
時には位相が advance していることがわかる.また,躓き直後の接地では,接地位
相は通常と大きく変化しないが,位相変位量は大きくなる傾向にあった.躓き後の
歩行では接地位相は変化し,位相変位量も大きくなっている(図 12).
(a)
(b)
Mesured phase response curve for stumbling case in human walking
2.5
2.5
2
2
1.5
1.5
1
1
位相変位量
ΔΦ
位相変位量
ΔΦ
Mesured phase response curve for normal gait in human walking
0.5
0.5
0
0
-0.5
-0.5
-1
0
1
2
3
4
5
-1
6
位相Φ
13
0
1
2
3
位相Φ
4
5
6
(c)
(d)
Mesured phase response curve for stumbling case in human walking
2.5
2.5
2
2
1.5
1.5
1
1
位相変位量
ΔΦ
位相変位量
ΔΦ
Mesured phase response curve for normal gait in human walking
0.5
0.5
0
0
-0.5
-0.5
-1
0
1
2
3
4
5
-1
6
0
1
2
位相Φ
3
4
5
6
位相Φ
(e)
(f)
Mesured phase response curve for stumbling case in human walking
2.5
2.5
2
2
1.5
1.5
1
1
位相変位量
ΔΦ
位相変位量
ΔΦ
Mesured phase response curve for normal gait in human walking
0.5
0.5
0
0
-0.5
-0.5
-1
0
1
2
3
位相Φ
4
5
-1
6
0
1
2
3
位相Φ
4
5
6
(h)
(g)
Mesured phase response curve for stumbling case in human walking
2.5
2.5
2
2
1.5
1.5
1
1
位相変位量
ΔΦ
位相変位量
ΔΦ
Mesured phase response curve for normal gait in human walking
0.5
0.5
0
0
-0.5
-0.5
-1
-1
0
1
2
3
位相Φ
4
5
6
0
1
2
3
位相Φ
4
5
6
図 11 障害物を置かない状況でのトレッドミル上歩行の PRC(a)(c)(e)(g) と躓き後
の歩行に関する PRC(b)(d)(f)(h):被験者 1 の結果 (a)(b),被験者 2 の結果 (c)(d),被
験者 3 の結果 (e)(f),被験者 4 の結果 (g)(h).計 4 名の被験者に関して計測を行なっ
14
ている
Ïçς1B>UDG@
¶(OHYDWLQJ
¶/RZHULQJ
¶(OHYDWLQJ"/RZHULQJ
}šåß
ڂ}ß1§©š
ÏçB>UDG@
図 12 躓き直後及び躓き以降の歩行と転倒回避戦略の関係
3.3 計測結果に関する考察
躓き等の外乱が加えられていない通常の歩行においても,接地タイミングにはば
らつきがあり,接地位相に依存し位相を変位させている.躓き直後の接地位相は通
常の歩行時の接地位相と然程変化しないが,位相変位量は大きくなっている.また,
躓き後の歩行では接地位相は定常とは大きく外れる.このとき,位相変位量は大き
くなる.躓いた後,3∼5 歩程度で接地のタイミングは定常の状態に戻っている.こ
のことから,躓き後の歩行安定化には接地時の位相リセットのみではなく,躓きの
瞬間の転倒回避戦略等も影響していると考えられる.
15
4. 強化学習による位相反応曲線の学習
外乱等に対し,CPG によるリズムと運動制御を同調させ,転倒せずに歩行を継
続させるためには,望ましい位相反応曲線が必要となる.しかしながら,従来その
設計手法は確立されておらず,実験的に人手によって設計する必要があった.そこ
で,ここでは強化学習を用いることにより,適切な位相反応曲線を獲得する手法に
ついて述べる.
強化学習はモデルを必要としないため,位相反応曲線を獲得する手法として有
効と考えられる.
4.1 位相反応曲線の学習システム
Grt›
Ïç¥v~ƒ
Ïç¥v~ƒ‚ú'I
Ïçû›"
I m I 'I
á¡ 
&3*
ÏçúI
T G I 3'
Ùîz
Pµƒ¦j
õ¥®jò÷`¨—~ƒ
T SLWFK
-RLQW
I
T
TOBNQHH
S
­
½
( ®¦J N W U N ¾
¯N W
¿
f
T UBKLS
MRLQW
¶
oP™
9 I W ¶
T OBKLS
MRLQW
¶
TUBNQHH
ɒþ´
Ž=ú2
図 13 学習システム
本論文で提案する学習システムでは,目的とする周期運動の達成度を報酬 r とし
て表現し,この報酬の累積値が最大となるよう,PRC を強化学習により獲得する.
図 13 に提案する PRC の獲得手法の仕組みを示す.歩行ロボットの各関節は,位相
φ に基づき周期的な関節目標軌道 θd (φ) を出力する CPG(Central pattern generator)
により駆動し,PD 制御器を用いて目標軌道 θd に追従するよう制御する.PRC は,
確率分布 P (∆φ(t) | φ(t)) として表現し,接地時に CPG の位相 φ を PRC によって
決定された位相リセット量 ∆φ により修正する.φ は,同期をとるタイミングにお
16
ける制御器の位相である.位相の状態遷移確率は P (φ(t + 1) | φ(t), ∆φ(t)) と仮定す
る.ただし,実際には部分観測問題となっているため,前述したように仮定するこ
とでタスクを達成するための方策を獲得できるという保証はない.
4.2 価値関数
報酬 r は制御器の位相と位相リセット量の条件付確率 P (r(t + 1) | φ(t), ∆φ(t)) に
よって与えられると仮定する.ある位相反応曲線を生成する確率分布 π(∆φ(t) | φ(t))
のもとで,位相 φ(t) における価値関数を
(
V π (φ(t)) = E
∞
X
)
γ k−t r(k + 1)
(2)
k=t
とする.ここで,γ は価値関数の割引率である.式 (2) の両辺の時間差分から
V π (φ(t)) = E {r(t + 1) + γV π (φ(t + 1))}
(3)
という価値関数に対する拘束条件が与えられる.V (φ(t)) = V (φ(t); wc ) を価値関数
の予測値とする.ただし,wc は価値関数の予測値のパラメータである.予測が正し
ければ,価値関数は式 (3) を満たす.予測が正しくない場合,以下の式 (4) に示す予
測誤差を減らすように価値関数の学習を行う.
δ(t) = r(t + 1) + γV (t + 1) − V (t)
(4)
上式は Temporal Difference(TD) 誤差である [20].
価値関数の更新
連続状態における価値関数の表現方法として,価値関数は正規化
ガウス関数ネットワークを用い [3][17],以下のように表現する.
V (φ(t)) =
X
wic bci (φ(t))
(5)
i
bci () は基底関数であり,wic は価値関数のパラメータである.パラメータ wic に対する
eligibility trace eci と TD 誤差を用いたパラメータ wic の更新式は以下のようになる.
eci (t + 1) = γλc eci (t) + bci (φ(t))
(6)
(7)
wic (t + 1) = wic (t) + αδ(t)eci (t)
ここで,α は価値関数の学習率,eci は wic に対する eligibility trace で ある.
17
(8)
4.3 位相反応曲線
PRC の出力 ∆φ は確率的な行動則 π(∆φ, φ; wµ , wσ ) =P (∆φ|φ, wµ , wσ) の実現値と
して表される.
π(∆φ,
φ; wµ ,wσ )
!
Ã
−(∆φ−µ(φ; wµ ))2
1
exp
= √
2σ 2 (wσ )
2πσ(wσ )
(9)
ここで,wµ ,wσ はパラメータベクトル,µ は平均,σ 2 は分散である.よって,そ
の実現値は,
∆φ(t) = µ(φ(t); wµ) + σ(wσ)n(t)
(10)
である.ここで,n(t) ∼ N (0, 1).式 (10) の平均 µ と標準偏差 σ に関する eligibility
は次式で与えられる.
∂ ln π
∆φ − µ
=
∂µ
σ2
(11)
∂ ln π
(∆φ − µ)2 − σ 2
=
∂σ
σ3
(12)
さらに,平均 µ を正規化ガウス関数ネットワークによって,標準偏差 σ をシグモイ
ド関数および正規化ガウス関数ネットワークによって下記のように表す.それぞれ,
µ=
X
wiµ bµi (φ(t))
(13)
i
σ=
1
,
1 + exp(−σ w )
σw =
X
wiσ bσi (φ(t))
(14)
i
ここで,bµi ,bσi は基底関数であり,wiµ と wiσ は,式 (9) の PRC を決定するためのパ
ラメータである.これらのパラメータに対応する eligibility は以下のように求めら
れる.
∂ ln π ∂ ln π
=
∂wiµ
∂µ
(15)
∂µ (∆φ−µ)bµi (φ(t))
=
∂wiµ
σ2
(16)
18
∂ ln π ∂ ln π ∂σj ((∆φ−µ)2 −σ 2 )(1−σ) σ
=
=
bi (φ(t))
∂wσ
∂σ ∂wσ
σ2
(17)
PRC の更新則は次式で与えられる.
wiµ (t + 1) = wiµ (t) + β µ δ(t)eµi (t)
(18)
wiσ (t + 1) = wiσ (t) + β σ δ(t)eσi (t)
(19)
ここで,β µ ,β σ は学習率,eµi (t),eσi (t) はそれぞれのパラメータの eligibility trace
である.
eµi (t + 1) = λµ γeµi (t) +
∂ ln πw
∂wiµ
(20)
eσi (t + 1) = λσ γeµi (t) +
∂ ln πw
∂wiσ
(21)
ただし,λµ ,λσ はそれぞれのパラメータの eligibility trace の割引率である.
19
5. 2 リンク 2 足歩行ロボットモデルにおける位相反応曲線
の獲得
5.1 学習システム
本章では,図 14 に示す 2 リンク 2 足歩行ロボットモデルに対し,前章で述べた手
法を用いて位相反応曲線の獲得を試みる.図 15 は提案手法により構築した 2 リンク
2 足歩行ロボットの位相反応曲線学習システムである.ロボットの物理パラメータ
は表 1 に示す.ロボットには膝関節が無いため,脚が遊脚期中に床面に接触しない
よう,床面を進行方向に 1 度下がるよう傾斜させている.
本システムでは,パターン発生器として位相振動子を用いており,ロボットの各
関節は位相振動子の位相に基づいた周期的な関節目標軌道を追従するように制御す
る.位相反応曲線の学習に用いる状態は位相の 1 次元のみであるため,少ない計算
量で学習を行なうことができる.
/LQN
T OBKLS
/LQN
T UBKLS
図 14 2 リンク 2 足歩行ロボットモデル
5.2 シミュレーション
前章で示した各学習パラメータは,価値関数の学習率 α = 0.95,適格度トレース
の時定数 λc = 0.95 とした.また,NGnet の基底関数は,ロボットが運動を行う際
に必要であると考えられる状態空間に,計 20 個を均等に配置した.報酬は,転倒時
20
表 1 2 リンク 2 脚歩行ロボットの物理パラメータ
Link1 Link2
質量 [kg]
2.0
2.0
長さ [m]
1.0
1.0
慣性モーメント [kgm2 ]
0.1667 0.1667
Grt›
Ïç¥v~ƒ
I m I 'I
Ïçû›"
&3*
ÏçúI
Ïç¥v~ƒ‚ú ∆ φ
á¡ 
T G I 3'
Ùîz
Pµƒ¦j
ò®jò÷`¨—~ƒ
I
T
T OBKLS
oP™
9 S I W ( ® ¦ J N W U N ¾
­f
¯N W
½
¿
T UBKLS
ɒþ´
Ž=
図 15 学習システム
に r = −1,遊脚接地時に r = 0.1 を与える.制御器としては,CPG が周期軌道を追
従する PD 制御器を用いた.ここで,モデルに膝関節が無いことから,床面を進行
方向に 1 度下る傾斜をつけている.また,床反力モデルとして,バネ・ダンパ系モ
デルを用いている (付録A参照).パターン発生器として以下の位相振動子を用いる.
φ(t) = ωt
(22)
τ = Kp (θd − θ) + Kd (θ˙d − θ̇)
(23)
ロ簿との関節トルクは
によって与えられる.φ は振動子の位相である.ここで,リンク間の関節角の目標位
置・速度を θd = cosφ,θ˙d = −ωsinφ とする.サーボゲインは Kp = 1000.0,Kd = 1.0
とした. また,歩行 1 周期を T = 1.83[sec] とした.ここで,角周波数 ω は ω = 2π
の関
T
係にある.τ は関節における出力トルクである.また,θ はリンク間の関節角度を示
す.1 学習試行の終了条件は,50 歩歩行が継続できた場合,及び転倒時とした.こ
こで,転倒は腰関節位置が閾値以下になった時と定義している.ここでは,閾値は
21
0.8[m] に設定している.
5.3 シミュレーション結果
学習過程を示す累積報酬の値を図 16 に示す.また,獲得した位相反応曲線と価値
関数を各々図 18,図 17 に示す.歩行を継続しやすい接地位相で,価値関数の値が高
くなっている.
図 27 に位相反応曲線を用いない場合のシミュレーション結果を,図 28 には人手
によって設計した位相反応曲線を用いたシミュレーション結果を,図 29 には学習に
より獲得した位相反応曲線を用いたシミュレーション結果を示す.学習により設計
された位相反応曲線を用いた場合のみ,転倒していないことがわかる.
6
Accumulated reward
5
4
3
2
1
0
−1
−2
0
20
40
60
Trials
図 16 累積報酬
22
80
100
2.5
2
V
1.5
1
0.5
0
0
1
2
3
4
Phase φ [rad]
5
6
図 17 学習により獲得された価値関数
0.5
∆ φ [rad]
0
−0.5
−1
−1.5
0
1
2
3
4
Phase φ [rad]
5
6
図 18 学習により獲得された位相反応曲線
23
1
0.8
0.6
0.4
位相シフト
ΔΦ[rad]
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
0
1
2
3
4
5
6
位相Φ[rad]
図 19 位相リセットを行わない場合の PRC(上) と歩行軌道 (下)
:2 歩後に転倒して
いる
24
1.5
1
位相シフト
ΔΦ[rad]
0.5
0
-0.5
-1
-1.5
0
1
2
3
位相Φ[rad]
4
5
6
図 20 人手により作成した PRC(上) と歩行軌道 (下):接地時に与えられる位相変位
量が適切でないため,歩行できず,数歩後に転倒している
25
0.5
∆ φ [rad]
0
−0.5
−1
−1.5
0
1
2
3
4
Phase φ [rad]
5
6
図 21 学習により獲得した PRC(上) と歩行軌道 (下):ここでは,位相反応曲線によ
り接地毎に与えられる位相変位量を用い,位相をリセッ トしている.適切な変位
量により,転倒せずに歩行を継続できている
26
6. 5 リンク 2 足歩行ロボットモデルにおける位相反応曲線
の獲得
6.1 学習システム
本章では,5 章の結果に基づき,より多自由度の系として,図 22 に示す 5 リン
クロボットモデルにおいて位相反応曲線の学習を行った.学習システムを図 23 に示
す.ロボットモデルの物理パラメータは表 2 に示す.
/LQN
T SLWFK
-RLQW
T OBKLS
/LQN
¶
/LQN
T UBKLS
MRLQW
/LQN
TOBNQHH
¶
MRLQW
¶
/LQN
図 22 5 リンク 2 足歩行ロボットモデル
27
表 2 5 リンク 2 脚歩行ロボットの物理パラメータ
Link1 Link2 Link3 Link4 Link5
質量 [kg]
2.08
0.64
0.1
0.64
0.1
長さ [m]
0.0
0.2
0.2
0.2
0.2
各関節から重心
0.0
0.12
0.1
0.12
0.1
1.0
6.9
1.4
6.8
1.4
までの長さ [m]
慣性モーメント
(× 10‐4 )[kgm2 ]
Grt›
Ïç¥v~ƒ
Ïç¥v~ƒ‚ú'I
Ïçû›"
I m I 'I
á¡ 
&3*
ÏçúI
T G I 3'
Ùîz
Pµƒ¦j
õ¥®jò÷`¨—~ƒ
T SLWFK
-RLQW
I
T
¶
T OBKLS
TOBNQHH
¶
oP™
9 I W S
­
½
( ®¦J N W U N ¾
¯N W
¿
f
T UBKLS
MRLQW
MRLQW
¶
TUBNQHH
ɒþ´
Ž=ú2
図 23 5link 学習システム
6.2 シミュレーション
5 章で示した各学習パラメータは,価値関数の学習率 α = 0.95,適格度トレース
の時定数 λc = 0.5 とした.また,NGnet の基底関数は,位相空間 0 ≤ φ ≤ 2π の間
に計 20 個を均等に配置した.報酬は転倒時に r = −1,遊脚接地時に r = 1 を与え
る.制御器としては,CPG の位相によって決定される目標軌道 θ(φ) を追従する PD
制御器 (式 24) を用いた.目標軌道には,人間の歩行軌道を用いている [1].目標軌
道 θd (φ) を図 6.2 に示す.また,用いたゲイン値は表 3 に示す.床反力モデルは,前
章同様,バネ・ダンパモデルを用いている (付録A参照).
τ = Kp [Jointi ](θd (φ) − θ) + Kd [Jointi ](θ˙d (φ) − θ̇)
28
(24)
表 3 サーボゲイン
Joint1 Joint2
Joint3 Joint4
初期位置ゲイン
7.0
7.0
9.0
7.0
初期速度ゲイン
1.0
1.0
1.0
1.0
右脚
位置ゲイン
7.0
7.0
9.0
7.0
接地時
速度ゲイン
1.0
1.0
1.0
1.0
左脚
位置ゲイン
9.0
7.0
7.0
7.0
接地時
速度ゲイン
1.0
1.0
1.0
1.0
(a)
(b)
右腰関節軌道
右膝関節軌道
0.3
0.8
0.2
0.7
0.6
0.1
右膝関節角θ[rad]
右腰関節角θ[rad]
0.5
0
-0.1
-0.2
-0.3
0.3
0.2
0.1
-0.4
-0.5
0.4
0
0
1
2
3
4
5
-0.1
6
0
1
2
位相Φ[rad]
3
4
5
6
4
5
6
位相Φ[rad]
(c)
(d)
左腰関節軌道
左膝関節軌道
0.3
0.8
0.2
0.7
0.6
0.1
左膝関節角θ[rad]
左腰関節角θ[rad]
0.5
0
-0.1
-0.2
-0.3
0.4
0.3
0.2
0.1
-0.4
0
-0.5
-0.1
0
1
2
3
4
5
6
位相Φ[rad]
0
1
2
3
位相Φ[rad]
図 24 脚軌道:(a) 右腰関節角 (b) 右膝関節角 (c) 左腰関節角 (d) 左膝関節角 [1]
6.3 シミュレーション結果と考察
学習過程を示す累積報酬の値を図 25 に示す.また,獲得した位相反応曲線と価
値関数の 1 例を図 26 に示す.歩行を継続しやすい接地位相で,価値関数の値が高く
29
なっている.図 27 に位相反応曲線を用いない場合のシミュレーション結果を,図 28
には人手によって設計した位相反応曲線を用いたシミュレーション結果を,図 29 に
は学習により獲得した位相反応曲線を用いたシミュレーション結果を示す.学習に
より設計された位相反応曲線を用いた場合のみ,転倒していないことがわかる.
55
50
45
40
Trials
35
30
25
20
15
10
5
0
0
100
200
300
400
500
Accumulated reward
図 25 累積報酬
22
20
18
16
0.6
14
Value V
phase shift ΔΦ[rad]
0.8
0.4
12
10
0.2
8
6
0
4
-0.2
0
1
2
3
4
5
2
6
phase Φ[rad]
0
1
2
3
4
5
6
Phase Φ[rad]
図 26 学習によって獲得した位相反応曲線 (左) と価値関数 (右):位相反応曲線の破
線は標準偏差を示している
30
1
0.8
0.6
0.4
位相シフト
ΔΦ[rad]
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
0
1
2
3
4
5
6
位相Φ[rad]
図 27 位相リセットを行わない場合の PRC(上) と歩行軌道 (下):歩行を行なうこと
が出来ずに転倒している
31
1.5
1
位相シフト
ΔΦ[rad]
0.5
0
-0.5
-1
-1.5
0
1
2
3
位相Φ[rad]
4
5
6
図 28 人手により作成した PRC(上) と歩行軌道 (下)
:位相反応曲線が適切でないた
め,歩行が継続できずに 2 歩で転倒している
32
phase shift ΔΦ[rad]
0.8
0.6
0.4
0.2
0
-0.2
0
1
2
3
4
5
6
phase Φ[rad]
図 29 学習により獲得した PRC(上) と歩行軌道 (下):学習により獲得した位相反応
曲線により適切に位相をリセットし,歩行を継続することが出来ている
33
6.4 外乱に対するロバスト性の検証
障害物が存在する路面上において,学習により獲得した位相反応曲線を用いてシ
ミュレーションを行なった.障害物は,踏むことによってバランスを崩したりする
のではなく,確実に足先が衝突する程度の高さに設定している.また,衝突後に障
害物が歩行を遮らないよう,脚が接地するか或いは 0.5[sec] 以上時間が経過した場合
に消滅するように設計している.障害物のモデルには床反力モデル同様,バネダン
パ系を用いている (付録A参照).歩行パターンを図 30 に示す.障害に躓いた後,位
相を変位させることによって歩行を継続することができている.
)3452"!.#%
図 30 障害物の存在する路面上での歩行シミュレーション:破線は障害物に躓いた
瞬間を示している
6.5 人間から観察される転倒回避動作の導入
ここでは,前節で学習により獲得した位相反応曲線を用いても転倒の回避が出来
ない場合について,人間に観察される転倒回避動作を用いて検証を行なう.
2 章で説明したように,人間の躓き時の動作は elevating strategy と lowering strategy に分けられる.ここでは,5 リンク 2 脚歩行ロボットモデルが障害物に躓いた時
に,人間に観察されるこの 2 つの動作を行なうよう設計した.動作選択は,躓き時
の位相が φ = 5.4[rad] 以降の場合は Lowering strategy を,それ以前では Elevating
strategy を行なうようにした.この転倒回避戦略は,Lowering strategy について
は躓いた脚の股関節角を正 (+) 方向に 0.3[rad],膝関節角を (+) 方向に 0.1[rad] 変位
34
させることにより実現した (図 22 参照).また,Elevating strategy は,躓いた脚の
股関節軌道を負 (-) 方向 0.2[rad] に,膝関節軌道を正 (+) 方向に 0.3[rad] 変位させる
ことにより実現した (図 22 参照).軌道変化の向き,変位量は躓いた際に選択される
転倒回避戦略に応じた動作となるように実験的に設定している.
前節までで獲得した位相反応曲線による位相リセットに加え,転倒回避戦略を用
いたシミュレーションを行なった.転倒回避戦略を用いない場合の歩行軌道を図 31
上部に,転倒回避戦略 (Elevating strategy) を用いた場合の歩行軌道を図 31 下に示
す.転倒回避戦略を用いていない場合では,躓いた後に転倒している.転倒回避戦略
を用いた場合では,歩行を継続することが出来ている.また,図 32 に躓いた側の脚
の膝関節軌道を示す.また,Lowering strategy による例を示す.Lowering strategy
を場合の歩行軌道を行なっていない場合を図 33 上部に,Lowering strategy を行なっ
た場合の歩行軌道を図 33 下に示す.Lowering strategy を行なっていない場合では,
躓いた後に転倒している.Lowering strategy を行なった場合では,歩行を継続する
ことが出来ている.また,図 34 に躓いた側の脚の膝関節軌道を示す.
VWXPEOLQJ
図 31 Strategy を用いない場合の歩行軌道 (上),Strategy を用いた場合の歩行軌道
(下):位相 φ = 5.01 で躓いている.Strategy を用いない場合では転倒しているが,
Elevating strategy を行なった場合では躓き後も歩行を継続できている
35
1.8
additional recovery strategy
without recovery strategy
1.6
1.4
膝関節角θ[rad]
1.2
1
0.8
0.6
0.4
0.2
0
-0.2
0
2
4
6
8
10
12
時間[sec]
図 32 膝関節軌道 (右脚):破線は転倒回避戦略を用いていない場合,実線は転倒回
避戦略を用いた場合の膝関節軌道を表す.ここでは,Elevating Strategy の場合を示
している
VWXPEOLQJ
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
-0.01
-0.02
0.9
0.95
1
1.05
1.1
1.15
1.2
1.25
1.3
1.35
図 33 Strategy を用いない場合の歩行軌道 (上), Strategy を用いた場合の歩行軌
道 (下):位相 φ = 5.557 で躓いている.戦略を用いない場合では転倒しているが,
Lowering strategy を用いた場合では躓き後も歩行を継続できている
36
1.2
additional recovery strategy
without recovery strategy
1
膝関節角度θ[rad]
0.8
0.6
0.4
0.2
0
0
2
4
6
8
10
12
時間[sec]
図 34 膝関節軌道 (右脚):破線は転倒回避戦略を用いていない場合,実線は転倒回
避戦略を用いた場合の膝関節軌道を表す.ここでは,Lowering Strategy の場合を示
している
6.6 まとめ
多リンク系においても,強化学習により歩行の継続を可能とする位相反応曲線が
獲得できることを示した.また,獲得した位相反応曲線を用いることで,外乱が加
えられた場合でも歩行を継続することができた.躓きによって接地位相が定常時に
比べて変化するが,適切に位相リセットを行うことで転倒を回避できていると考え
られる.
また,人間において躓き時に観察される動作を行なうことにより,外乱に対する
ロバスト性を向上させることが出来た.このことから,転倒回避時に観察される
strategy は歩行の安定化に影響を及ぼしていると考えられる.
37
7. ヒューマノイドロボットの歩行への位相反応曲線の適用
本章では,人手によって実験的に設計した位相反応曲線を 2 次元平面上に固定さ
れないヒューマノイドロボットの歩行に適応し,位相リセットの有効性を富士通オー
トメーション社製,HOAP-2 を用いて実験的に検証する.
7.1 HOAP‐2 の仕様
位相リセットの有効性の検証のための実験には,図 35 の富士通オートメーション
社製 HOAP-2 を用いる.HOAP-2 の主な仕様は以下の通りである.
図 35 HOAP-2
• 身長:500[mm]
• 重量:7[kg]
• 自由度:片腕 4 自由度,片脚 6 自由度の合計 20 自由度
38
• センサ:3 軸の加速度センサ,3 軸の角速度センサ(ジャイロセンサ),足底セ
ンサ(床反力計.足底の 4 隅に配置),2 個の無線カメラ
HOAP-2 は USB ケーブルで PC と接続されている.制御に用いる PC には RT-Linux
が搭載されており,リアルタイムモジュールを用いることで 1.0 × 10−3 [sec] 周期の
制御が保証されている.
7.2 実験に用いる自由度・センサ
HOAP-2 を用いて歩行実験を行なうが,全ての自由度を使用するわけではない.
実際に用いる自由度と関節角の許容可動範囲を表 4 に示す.また,脚接地時の位相リ
セットを行なうには,接地情報が必要となる.ここでは,足底センサを接地情報と
して利用し,センサの値が設定した閾値以上になった瞬間を接地の瞬間と定義した.
表 4 実験で使用する HOAP-2 の自由度と関節角許容可動範囲
自由度
角度最大値
角度最小値
自由度
角度最大値
角度最小値
右股関節左右
21
-31
股関節左右
21
-31
右股関節前後
71
-82
右股関節前後
71
-82
右膝
130
-1
左膝
130
-1
右足首前後
61
-61
左足首前後
61
-61
右足首左右
25
-25
左足首左右
25
-25
右肩前後
151
-91
左肩前後
151
-91
7.3 実験結果および考察
接地時の位相をリセットすることにより目標軌道を修正し,転倒せずに歩行が可
能となった.このことから,2 次元平面上に拘束されないヒューマノイドの歩行に対
しても位相リセットは有効であると考えられる.しかしながら,今回設計した位相
反応曲線は脚接地時にある位相φへリセットするというものであり, ここでは,右脚
接地時にφ=2.34[rad],左接地時にφ=5.8[rad] にリセットしている.φの値は実験
39
の中でチューニングを行なった結果である.現在,より汎用性のある望ましい位相
反応曲線を設計するためにも,4 章で述べた提案手法を実機に対して適用し,シミュ
レータ上ではなく,ロボット自身による位相反応曲線の学習を試みている,HOAP-2
を歩行させる環境を図 36,位相反応曲線を用いない場合の歩行を図 37 に,用いた
場合の歩行を図 38 に示す.どちらの歩行も用いている歩行軌道は同じだが,位相反
応曲線を用いている方は接地時に位相をリセットすることで軌道を修正し,歩行を
継続できている.
図 36 HOAP-2 を用いた歩行実験環境
40
図 37 位相反応曲線を用いない歩行:位相反応曲線を用いない場合では,3 歩目で
バランスを崩し転倒している
図 38 位相反応曲線を利用した歩行:位相反応曲線を利用した場合では,バランス
を崩さずに歩行を継続できている
41
8. 結論
本論文では,人間の歩行・転倒回避動作の計測を行い,躓きに対する転倒回避動
作の Strategy 選択に関する検証を行なった.更に,2 脚ロボットを用いた脚接地時
の位相リセットによる歩行安定化の考えに基づき [15],人の歩行および躓き後の歩
行における脚接地時の位相反応曲線を調べた.
計測では,通常の歩行においても躓き後の歩行においても脚接地位相と位相変位
量の間に相関が見られ,接地位相に位相の変化量が依存していることが観察された.
また,躓き直後には,位相は大きく変位し,リズムリセットを行なっている.
一方で,従来人手によって作成されていた位相反応曲線の設計に強化学習を用い,
自律的に望ましい位相変位量を与える位相反応曲線が獲得可能であることを 2 リン
ク 2 脚歩行ロボットモデルと 5 リンク 2 脚歩行ロボットモデルの歩行シミュレーショ
ンによって示した.しかしながら,今回の学習における報酬は歩行速度等を考慮し
ておらず,遊脚接地の有無にのみ依存しており,必ずしも効率よく歩行安定化を行
う位相反応曲線が獲得できるとは限らない.そのため,報酬を如何に設計するか等
が課題となる.
また,獲得した位相反応曲線によって,躓き等に対する脚接地時の位相リセット
の影響を検証した.躓き後も,脚接地時に適切な位相変位量によって位相をリセッ
トすることで転倒せずに歩行を継続できることを示した.障害物の無い環境下で獲
得した位相反応曲線によって転倒を回避出来ない場合に関しても,人間の躓き時に
観察される転倒回避動作をロボットの躓き時に用いることで転倒を回避し歩行を継
続できることを,シミュレーションによって示した.この結果から,転倒回避時の
動作は歩行の安定化に影響を及ぼしていると考えられる.ここでは転倒回避動作や
その選択のための閾値は実験的に人手によって設計しており,状況に応じた適切な
動作選択の学習による獲得が課題である.
従来の研究から,人間の歩行に関して遊脚期への瞬間的な刺激に対し,その刺激
の加えられた位相に応じた位相リセットが観察されており [13],この位相リセット
の有効性はシミュレーションによって確認されている [25].また,本研究により,脚
接地時の位相に依存した位相リセットと転倒回避動作の歩行安定化への影響を確認
した.
以上のことから,本論文では転倒回避戦略と位相リセットは次に示す関係にある
と考える.
• 躓きなど,外乱が加えられた際に,位相に応じた転倒回避戦略 (Elevating
42
Strategy または Lowering Strategy) を行なう.
• 転倒回避戦略によって同調が乱れた身体リズムと CPG リズムの修正のため
に位相リセットが行なわれる.
• 外乱・躓き時の作用によって定常歩行時には一定のリズムで与えられる接地
情報と CPG 位相(或いは身体リズム)の同調が乱れる.
• 接地のリズムと CPG リズムを同調させるために,位相リセットが行なわ
れる.
今後,転倒回避戦略と位相リセットの関係,位相リセット量との関係等について検
討する必要がある.
また,本論文で注目した位相反応曲線について,今回計測を行なった被験者間で
傾向が一致しており,位相と位相変位量の関係のばらつき等の位相反応曲線から得
られる知見はリハビリにおける歩行改善経過等の指標としての利用が期待できる.
今後は歩行障害を持つ被験者の計測も行なうことにより,位相リセットの影響の更
なる理解を試みる.
更に,2 次元平面上に拘束されないヒューマノイドロボットにおいても,位相反
応曲線が有効であることを実験的に示した.ここで用いた位相反応曲線は実験的に
人手によって設計しており,位相反応曲線の自律的な獲得が課題となっている.
今後の課題として,ヒューマノイドロボットを用い,位相反応曲線の実機学習を
行なう.従来,シミュレータ上で得られたパラメータを実機に利用する際には,モ
デル化誤差など実機とシミュレータとの差異が問題となることが多かった.位相反
応曲線の学習に関しても,同様の問題が生じると考えられる.そこで,シミュレー
タ上で学習するのではなく実機によって学習を行ない,実機に対し適切な位相反応
曲線を獲得することを試みる.
本研究の最終的な目的は,外乱や環境変化に対して表れる転倒回避動作や現象に
ついて,計測・実験による解析と,再現性のある工学的手法を用いた人の歩行・転
倒回避動作生成の 2 方向からのアプローチによって得られる知見を統合し,人の歩
行転倒回避メカニズムを理解することである.ロボットによって,計測された人間
の歩行・転倒回避動作を工学的に実現することで,転倒回避が不可能な状況と可能
な状況についての詳細な解析が行なえ,ここから得られる知見は転倒対策を講じる
上で有効であると考えられる.また,ロボットの 2 足歩行の生成技術の発展が期待
できる.
43
謝辞
本研究の終始にわたり,御墾篤なる御指導御鞭撻を賜りました,森本 淳 ATR 脳
情報研究所情報科学ヒューマノイドロボット研究室研究員,中西 淳 ATR 脳情報研
究所情報科学ヒューマノイドロボット研究室研究員,大高 洋平 慶友整形外科病院
医師に心より感謝致します.
そして,本研究を行う機会を与えてくださり,本研究全般にわたって御指導,御
助言をいただきました川人 光男 教授,銅谷 賢治 助教授に厚く御礼申し上げます.
暖かい目で見守ってくださり,様々な面において本研究をサポートしてください
ました,石井 信 教授,柴田 智広 助教授に心より感謝致します.
また,計測実験を行うにあたって,多大なる御協力をいただきました,大高 洋平
慶友整形外科病院医師,慶友整形外科病院リハビリテーション科の皆様に感謝致し
ます.
また,本研究の終始にわたって多大なる御助力を賜り,また,私生活においても
サポートしてくださいました,計算神経科学講座 博士後期課程 1 年の松原 崇充 先
輩に心より感謝致します。
暖かい目で見守ってくださり,ミーティング等を通して様々な御助言をいただき
ました Gordon Cheng ATR 脳情報研究所情報科学ヒューマノイドロボット研究室室
長及び研究員の皆様に感謝致します.また,研究のみならず精神面でも支えになっ
て頂いた ATR 脳情報研究所,計算神経科学講座,論理生命学分野の研究員やスタッ
フ及び学生の皆様に感謝致します.
最後に,正・副指導教員を快く引き受けてくださいました,石井 信 教授,植村
俊亮 教授,川人 光男 教授,銅谷 賢治 助教授,柴田 智広 助教授に改めて感謝致し
ます.
44
参考文献
[1] 江原 義弘,山本 澄子:歩き始めと歩行の分析,医歯薬出版株式会社.
[2] Brown, T.G.:The intrinsic factor in the act of progression in mammal.Proc.
Roy.Soc.
,London,Ser.B84:308–319,1911.
[3] Doya,K.:Reinforcement learning in continuous time and space.Neural Computation 12(1):219–245,2000.
[4] Endo,G.,Morimoto,J.,Nakanishi,J.,and Cheng,G.
:An empirical exploration of a neural oscillator for biped locomotion control. In IEEE International
Conference on Robotics and Automation:303–3042,2004.
[5] Fukuoka,Y.,Kimura,H.,and Cohen,A.:Adaptive dynamic walking of a
quadruped robot on irregular terrain baed on biological concepts. The international Journal of Robotics Reserch 22(3-4):187–202,2003.
[6] Grillner,S.:On the central generation of locomotion in the low spinal cat.
Exp Brain Res 34(2):241–261,1979.
[7] Grillner,S.and Wallen,P.:Central pattern generator for locomotion, with
special reference to vertebrates. Annu. Rev. Neurosci. 8:233–261,1985.
[8] Hirai,K.,Hirose, M., Haikawa, Y., and Takenaka, T.:The development of
honda humanoid robot. In IEEE International Conference on Robotics and
Automation:1321–1326,1998.
[9] Kagami, S., Kanehiro, F.,Tamiya, Y. Inaba, M. and Inoue, H.:Auto Balancer:
An Online dynamic balance compensation scheme for humanoid robots. A K
Peters, Ltd., 2001.
[10] 川人 光男:生体におけるリズム現象の工学的研究,日本エム・イー学会 医用
電子と生体工学,19(3): 171–178,1981.
[11] 川人 光男:脳の計算理論,産業図書.
[12] 木村 元,小林 重信:Actor に適性度の履歴を用いた Actor‐Critic アルゴリズム:
不完全な Value‐Function のもとでの強化学習,人工知能学会誌 11(1),1996.
45
[13] Kobayashi,M.,Nomura,T.and Sato,S.:Phase-dependent response during human locomotion to impulsive perturbation and its interpretation based
on neural mechanism. Japanese Journal of Medical Electronics and Biological
Engineering, 38(1): 20–32,2000.
[14] 小坂谷 典子:若年期から中高年期における転倒状況と関連要因.
[15] Nakanishi, J.,Morimoto, J.,Endo, G.,Cheng, G.,Schaal,S.and Kawato,
M.:Learning from demonstration and adaptation of biped locomotion. Robotics
and Autonomous Systems, 47: 79–91,2004.
[16] 松原 崇充:方策勾配法による生物規範型二足歩行運動の獲得及び実ロボットへ
の適用.奈良先端科学技術大学院大学修士論文,2005.
[17] Morimoto, J.and Doya,K.:Acquisition of stand-up behavior by a real robot
using hierarchical reinforcement learning.Robotics and Autonomous Systems
36:37–51,2001.
[18] Piirtola, M., Isoaho, R., Kiverä, S.L.:転倒・転倒で生じる障害の経済的かつ効
果的な予防策としての体操.finsole care system 119:599–604,2003.
[19] Shik,M.L.and Orlovsky,G.N.:Neurophysiology of locomotor automatism.
physiol.Rev.56(3):465–501,1976.
[20] Sutton,R.S.and Barto,A.G.
:Reinforcement learning:An Introduction.The
MIT Press,Cambridge,MA,1998.
[21] Schilling,A.M.,Van Wezel,B.M.H.,Mulder,TH.and Duysens,J.:
Musculer responses and movement strategies during stumbling over obstacles.
J.Neurophysiol.83:2093–2102,2000.
[22] Takanishi, A., Tochizawa, M., Karaki, H. and Kato, I.:Dynamic biped walking stabilized with optimal trunk and waist motion. In Proceedings of the
IEEE/RSJ International workshop on Interigent Robots and Systems : 561–
566, 1989.
[23] Tsuchiya,K.,Aoi,S.and Tsujita,K.:Locomotion control of a biped locomotion robot using nonlinear oscillators.In Proceedings of the IEEE/RSJ
46
International Conference on Intelligent Robots and Systems:1745–1750,Las
Vegas,NV,USA,2003.
[24] Taga,G.,Yamaguchi,Y.and Shimizu,H.:Self-organized control of biped
locomotion by neural oscillators in unpredictable environment.Biol.Cybern.
65:147–159,1991.
[25] Yamasaki,T.,Nomura,T.,Sato,S.
:Phase reset and dynamic stability during human gait.Biosystem 71:221–232,2003.
[26] Yamasaki,T.,Nomura,T., Sato,S.:Possible functional roles of phase resetting during walking.Biol.Cybern.88:468–496,2003.
[27] Yanagihara, D., Udo, M., Kondo, I. and Yoshida, T.:A new learning paradigm:
adaptive changes in interlimb coordination during perturbed locomotion in decerebrate cats. Neuroscience Research, 18: 241–244, 1993.
47
床反力モデル
x, y は脚の端位置を表し,xgrand , ygrand を接地点とする.このとき,接地点の床
反力は以下のようにモデル化される.
y < ygrand の場合
Fx = kx (xg − x) − bx ẋ
(25)
Fy = kx (yg − y) − by ẏ
(26)
Fx = 0, Fy = 0
(27)
y ≥ ygrand の場合
ここで,Fx ,Fy はそれぞれ水平方向,垂直方向の床反力である.本論文中で行なっ
たシミュレーションでは,床反力に関する各係数は kx = 1000,bx = 10,ky = 5000,
by = 100 とした.床反力が Fx > µFy を満たすとき,足裏は床面を滑ると定義する.
ここで,µ は静摩擦係数であり,µ = 1.0 とした. また,障害物については,各係数
は kx = 3000,bx = 10,ky = 1000,by = 10 とした.
48
Fly UP