...

多目的タスクにおけるタスク空間分割を利用した multi

by user

on
Category: Documents
8

views

Report

Comments

Transcript

多目的タスクにおけるタスク空間分割を利用した multi
情報処理学会第 76 回全国大会
2U-2
多目的タスクにおけるタスク空間分割を利用した
multi-agent profit sharing
木田 椋子
長行 康男
大手前大学 現代社会学部
1
はじめに
複数の行動主体(エージェント)が存在する環境(マルチ
エージェント環境)において,個々のエージェントが自分自
身の役割を強化学習[1]により獲得するマルチエージェント
強化学習の研究が近年注目を集めており,数多くの研究成果
が報告されている[2].ところで,これらの研究で取り扱わ
れているタスクは,エージェントの学習目的が単一のものが
ほとんどで,学習目的が複数存在するタスクでの研究はあま
り報告されていない.しかしながら,学習目的が単一である
環境は特別な環境で,現実的な環境においては,一般に学習
目的は複数存在する.
Whitehead らは,学習目的が複数存在するシングルエージ
ェント環境において,学習目的ごとにタスク空間を分割して
学習を行う Q 学習[1]に基づいた強化学習法を提案し,その
有効性を示した[3].また,我々は学習目的が複数存在する
マルチエージェント環境においても Whitehead らの手法[3]
(Q 学習に基づいた手法)が有効であることを示した[4].
ところで,マルチエージェント環境における強化学習では,
Q 学習よりも profit sharing[1]の方が,学習性能が良いこ
とが報告されている[5].
そこで本研究では,学習目的が複数存在するマルチエージ
ェント環境において,学習目的ごとにタスク空間を分割して
学習を行う profit sharing に基づいた一強化学習法を提案
し,その学習性能の有効性を評価する.
2
追跡問題
本研究では,実験タスクとして追跡問題を採用する.追跡
問題は,ハンターが獲物を追いかけて捕獲する課題である.
以下に,本研究における追跡問題の問題設定を示す.





2 次元(7×7)のトーラス状グリッド空間中に,2 体の
ハ ン タ ー ( hunter_1, hunter_2 ) と 2 体 の 獲 物
(prey_1, prey_2)が存在する(図 1).
本研究では,ハンターを『エージェント』と定義する.
各時間ステップで,すべてのハンターと獲物は,それ
ぞれ1つの行動を同期して実行する.ここで,ハンタ
ー,獲物が実行可能な行動は,隣接する上,下,左,
右のグリッドへ移動する(図 1(a)の矢印),現在位置
に留まる,の 5 通りとする.
ハンターの目標は,どちらか 1 体の獲物を捕獲するこ
ととする.ここで獲物捕獲の定義は,『2 体のハンタ
ーが獲物を上下,あるいは左右から挟んだ状態』とす
る(図 1(b)).ハンターが獲物を捕獲したとき,ハン
ターは環境から報酬を受け取る.
獲物が各時間ステップで実行する行動は確率的で,
prey_1 の行動確率は,左への移動を 0.25,右へ移動を
0.75,その他の行動を 0 としている.また,prey_2
の行動確率は,上への移動を 0.5,左,下への移動を
そ
(a)
グリッド空間
(b)
捕獲状態の例
○:hunter_1,●:hunter_2,△:prey_1,▲:prey_2
図1

追跡問題のグリッド空間
それぞれ 0.25,その他の行動を 0 としている.これら
の行動確率は時不変とする.
初期配置から,どちらかの獲物が捕獲されるまでを『1
エピソード』とする.どちらか一方でも獲物が捕獲さ
れると,すべてのハンター,獲物はグリッド空間中に
ランダムに初期配置され,新たにエピソードを開始す
る.
本研究では,上記の追跡問題において,個々のエージェン
ト(ハンター)がそれぞれ独立に強化学習を行うことにより,
獲物捕獲行動(協調行動)を学習することを考える.
3 マルチエージェント強化学習
3.1 profit sharing
本研究で採用する強化学習法である profit sharing を上
記の追跡問題にそのまま適用した場合の学習の流れを次に示
す.
エピソードごとに,以下の手続き①~手続き④を獲物を捕
獲するまで繰り返す.
①
②
③
Multi-agent profit sharing by decomposing the task space in a
multipurpose task
Ryoko Kida and Yasuo Nagayuki
Faculty of Moden Social Studies, Otemae University
2-615
ある時間 t において(各エピソードの開始時を t=0 と
する),hunter_i(i=1,2)は,現在の環境状態 st ∈S
(S は環境状態の集合)を観測する.ここで,環境状態
s は,自分(hunter_i)から見た,hunter_j(j≠i),
prey_1,prey_2 のそれぞれの相対位置の組合せとする.
例えば,図 1(a)における hunter_1 から見た環境状態 s
は([1,2],[3,3],[-3,-1])である.
hunter_i は,環境状態 st における行動決定関数 ω(st,
a) を基に,時間 t で実行すべき行動 at∈A(A は行動
の集合)を選択する.この行動選択は確率的で,確率ε
で実行可能な全ての行動の中からランダムに行動を選択
し,残りの確率 1-εで,行動決定関数ωの値が最大で
ある行動を選択する.
hunter_i は,手続き②で選択した行動 at を実行する.
このとき,hunter_j,prey_1,prey_2 も同期して行動
を実行する.これらの行動により,環境状態は st から
st+1 へ遷移する.
Copyright 2014 Information Processing Society of Japan.
All Rights Reserved.
情報処理学会第 76 回全国大会
④
環境状態 st+1 が獲物捕獲状態でなければ,t に 1 を加え
て,手続き①に戻る.
環境状態 st+1 が獲物捕獲状態であれば,hunter_i は,
環境から報酬 r を受け取り,x=0,1,…,t のすべての x
において,行動決定関数ωの値を式(1)の更新式に従っ
て更新(学習)し,このエピソードを終了する.
ω(sx, ax) ← ω(sx, ax) + r × ct-x
(1)
ここで,c∈[0,1] はパラメータ(公比)である.
3.2
タスク空間分割を利用したprofit sharing
複数の学習目的が存在する環境において,従来の profit
sharing をそのまま適用した場合,前節の学習の流れの手続
き①のように,すべての学習目的(獲物)をまとめて一つの
環境状態として扱うことになる.この場合,タスク空間の状
態数(環境状態の集合 S の要素数)は,学習目的の増加に対
して指数関数的に増大する.例えば,上記の追跡問題におけ
るタスク空間の状態数は,49×49×49(「“他エージェント
との相対位置”のパターン数」×「“prey_1 との相対位
置”のパターン数」×「“prey_2 との相対位置”のパター
ン数」)となり,獲物 1 体ごとにタスク空間のサイズは 49
倍となる.強化学習において,タスク空間サイズの指数関数
的増大は,学習の収束を大幅に遅らせる要因となる.
ところで,我々人間が上記の追跡問題のハンターの立場に
置かれた場合,タスク空間を上記のように一枚岩としては捉
えず,獲物ごとにタスク空間を分けて捉えるはずである.そ
の方が効率が良いからである.
本研究で提案する手法では,我々人間が行うであろう方法
と同様,複数の学習目的を 1 つのタスク空間としては扱わず,
学習目的ごとにタスク空間を分割する.これによりタスク空
間の指数関数的増大を防ぐことができ,学習の収束が速くな
ることが期待できる.上記の追跡問題では,自分
(hunter_i)から見た環境状態を,hunter_j,prey_1 のそ
れぞれの相対位置の組合せ(s1 とする)と,hunter_j,
prey_2 のそれぞれの相対位置の組合せ(s2 とする)の 2 つ
に分割する.例えば,図 1(a)における hunter_1 から見た環
境状態 s1 は([1,2],[3,3]), s2 は([1,2],[-3,-1])とな
る.そして,それぞれの状態空間に対応した行動決定関数ω
1
(s1,a),ω 2(s2,a) を用意し,それぞれの行動決定関数で
別々に行動学習を行う.提案手法における学習の流れは,以
下の 3 点を除いて,前節の手続き①~手続き④と同様である.



4
①で観測する環境状態を s から s1 ,s2 に変更する.
②の行動選択では,確率εで,実行可能な全ての行動
の中からランダムに行動を選択し,確率 1-εで,ω
1
(s1t,a),ω2(s2t,a) の両方の行動決定関数値(10 個)
の中で,値が最大である行動を選択する.
④の行動学習では,ω 1(s1,a),ω 2(s2,a)の両方の行動
決定関数を式(1)と同様の更新式で更新(学習)する.
実験結果
前章で述べた「従来の profit sharing(PS)」,前章で
提 案 し た 「 タ ス ク 空 間 分 割 を 利 用 し た profit sharing
(PS_dts)」,「従来の Q 学習(Q)」,「タスク空間分割を利
用した Q 学習[4](Q_dts)」の 4 つの強化学習法を上記の追跡
問題に適用し,コンピュータシミュレーション実験を行った.
ここで,実験に使用したパラメータは,PS と PS_dts で
c=0.2,Q と Q_dts で学習率α= 0.2,割引率γ= 0.9 を使用
した.また,PS と Q でε= 0.3×0.99977num_ep(num_ep は学
習エピソード数),PS_dts と Q_dts でε= 0.3×0.99885num_ep
を使用した.また,獲物捕獲時の報酬 r=1.0 とした.
図2
獲物捕獲までに費やした平均時間ステップ数
実験結果を図 2 に示す.図 2 の横軸は学習エピソード数,
縦軸は 1 エピソード中で獲物捕獲までに費やした平均時間ス
テップ数を表す.図 2 の結果は,10 学習エピソード毎に,
そのときまでの学習性能を評価するため,初期配置を変えた
100 評価エピソード(このエピソードでは学習を行わない)
の実験を行い,その平均時間ステップ数を表示したものであ
る.図 2 の Q と PS,Q_dts と PS_dts を比較することにより,
Q 学習より profit sharing の方が学習の収束が速く,収束
値も profit sharing の方が優れていることが分かる.また,
PS と PS_dts(Q と Q_dts)を比較することにより,タスク空
間を学習目的ごとに分割することで,学習が収束するまでの
速度が圧倒的に速くなっていることがわかる.これは学習空
間を大幅に削減できたことが理由であると考えれる.また,
最終的な収束値も,本研究で提案した PS_dts が,他のすべ
ての手法より優れており,提案手法が最も有効な学習法であ
ることがわかる.
5
おわりに
本稿では,複数の学習目的が存在するマルチエージェント
環境において,学習目的ごとにタスク空間を分割して学習を
行う profit sharing に基づく一強化学習法を提案し,その
学習性能の有効性を評価した.コンピュータシミュレーショ
ン実験により,学習目的ごとにタスク空間を分割することで
学習が高速になることがわかった.また,複数の学習目的が
存在するマルチエージェント環境においては,タスク空間を
分割した場合でも,分割しない場合でも,Q 学習よりも
profit sharing の方が学習の収束が速く,収束値も良いこ
とが分かった.
参考文献
[1] 宮崎和光, 小林重信, “離散マルコフ決定過程下での強化
学習”, 人工知能学会誌, Vol.12, No.6, pp.811-821, 1997.
[2] L. Busoniu, R. Babuska and B.D. Schutter, “A
Comprehensive Survey of Multi-Agent Reinforcement
Learning”, IEEE Transactions on Systems, Man, and,
Cybernetics, Part C,vol.38, no.2, pp.156-172, 2008.
[3] S. Whitehead, J. Karlsson and J. Tenenberg, “Learning
Multiple Goal Behavior via Task Decomposition and
Dynamic Policy Merging”, In Robot Learning, Kluwer
Academic Publishers, pp.45-78, 1993.
[4] 橋本佑馬, 長行康男,“多目的タスクにおけるタスク空間分
割を利用したマルチエージェント強化学習”,情報処理学会
創立 50 周年記念(第 72 回)全国大会講演論文集, Vol.2,
pp.437-438, 2010
[5] 荒井幸代, 宮崎和光, 小林重信,“マルチエージェント強化
学習の方法論-Q-Learning と Profit Sharing による接近
-”, 人工知能学会誌, Vol.13, No. 4, pp.609-618, 1998.
2-616
Copyright 2014 Information Processing Society of Japan.
All Rights Reserved.
Fly UP