Comments
Description
Transcript
じゃんけんゲ`ームの戦略学習
計測自動制御学会東北支部第 2 8 0回研究集会 ( 2 0 1 3年 5月2 9日) 資料番号 2 8 0 ・6 じゃんけんゲ‘ームの戦略学習 StrategyLearningf o r theGameo fS c i s s o r s p a p e r r o c k , 0佐藤隆雅(岩手大・院),西山清(岩手大) OTakaoS a t o u, K i y o s h iN i s h i y a m a 岩手大学, I w a t eU n i v e r s i t y キーワード: 強化学習(Rei n f o r c e m e n tL e a r n i n g )環境 ( E n v i r o m e n t )戦 略 ( S t r a t e g y )Q l e a n i n g価値関数 ( V a l u e Fu n c t i o n s ) 連絡先: 宇0 2 0 ・ 8 5 5 1 盛岡市上回 4-3-5岩手大学工学部情報システム工学科西山研究室 西山清. Te l . :( 0 1 9 ) 6 2 1 ・6 4 7 5 .F a x . :( 0 1 9 ) 6 2 1 ・6 4 7 5 .E m a i l :n i s i y a m a < Oc i s . i w a t e u . a c . j p 1 . はじめに ば遥かに簡単である。そのため、タスク遂行のた めのプログラミングを強化学習で自動化すること 強化学習とは、環境に対する試行錯誤的なイン により、設計者の負荷軽減が期待できる。 タラクションを通じて環境に適応する学習制御の 枠組みである 1 )。学習の主体であるエージエント は環境に関する知識を持たない。また、環境は状 態遷移及び報酬の与えられ方は確率的であるもの が想定される。このような環境において、エージェ ントは試行錯誤により適切な行動規則を獲得して いく。「何をすべきか j をエージェントに報酬とい う形で指示しておくだけで「どのように実現する か Jをエージェントが学習によって自動的に獲得 する枠組みとなっている。環境に不確実性や計測 「じゃんけん」における最適政策はグー・チョ キ・パーをそれぞれ 1 / 3の確率で出すことである ことが知られている。しかし、実際に人間同士が 対戦した際に出された手を調べると、グー・チョ キ・パーのそれぞれが出される確率はほぼ 1 / 3 ずつ であったが、一手前との相関を見るとある程度の ばらつきが見受けられた。本研究ではじゃんけん ゲームの戦略学習に強化学習を適用し、このよう な「癖 Jに対する戦略の学習を行えるかどうか検 証し、またその学習性能について評価する。 不能な未知のパラメータが存在すると、タスクの 達成方法やゴールへの到達方法は設計者にとって 自明ではない。よって、ロポットへタスクを遂行 するための制御規則をプログラムすることは設計 2 . 強化学習 2 . 1 概要 者にとって重労働である。ところが、達成すべき 目標を報酬によって指示することは前記に比べれ 強化学習では、まず学習の主体であるエージエ ントとそれをとりまく環境を定義する。エージエ -1- ントは図 1で表されるような環境との試行錯誤的 動αを実行すると、次の時刻に環境は確率的に状 な相互作用により、状態から行動への写像を学習 態s 'E Sへ遷移する。定常性を仮定し、その遷移 する。 確率を p a ( s, s ' )と表す。このとき確率P r ( r l s ' )で環 エージェントは 境からエージェントへ報酬Tが与えられるが、その a ( 8, s ' )により表す。エージエントにおけ 期待値を R ( 1 ) 環境から状態 sを観測 る状態集合から行動集合への確率分布を政策と呼 ( 2 ) 状態 sに基づき行動αを決定 び 、 π ( 8, α )と表す。 咽 E π ( 8, α ) 一 r ( αt=α1 S t=s )=P r ( α 1 8 ) 一 P 、‘,,, i し、その状態選移に応じた報酬Tを得る 、 ‘ , , ( 3 )行動αを実行することで環境は状態dへ移行 p a ( 8, S ' )一 一 P r ( S t + l=s ' I S t=8, αt=α ) ( 4 )学習が終了するまで ( 1 )' "( 3 )のサイクルを 繰り返す r ( s ' 1 8, α ) 一 P 一 ( 2 ) Ra( 8, s ' ) 一 r t l s t=s , αt=α, S t + l=s ' } 一 E〆{ という一連の環境との相互作用により最も効率の 一 一 良い行動の仕方(戦略)を環境から学んでいく。 ( 3 ) によってエージェントが得る報酬は、 Pr 乞η げ Tt か ( ( 1 r t 可 t 阿 吋 巾 昨 巾 ηψ. ε tWr 円 T 一 一 o や負の数、 乞r tP r ( r t l s ' )P r ( s ' l s, a ) rtEW すなわちペナルティに相当する場合もある。 一 一 εt恥P阿吋州(r川tμ バ 巾 │ s ' ザ 仏 (め S ') η T rη Tt拘 何 , αい hう ( 3 ) r 円tEW ここで、 8t 、向、 Tt はそれぞれ時現~t におけるエー En vironment s r -¥ ジェントの状態、行動、報酬である。 s ' 2 . 3 最適政策 Ag飢 t エージェントは多くの場合、以下のような割引 報酬の期待合計を最大化することを目的とする。 F i g .1 環境とエージェントの相互作用 00 2 T R t=r t+' ) ' T t + l+' ) ・ ・ = 玄 7KTM t + 2+・ ( 4 ) k=O ここで、 γ ( 0~ ' )~ 1 )は割引率であり、将来得ら 2 . 2 環境モデル れる報酬を重視するか、短期間に得られる報酬を 強化学習の多くは、扱う環境がマルコフ決定過 重視するかを調節するパラメータである。 ある政策πを用いたときの状態 s から dへの状態 程( MarkovD e c i s i o nP r o c e s s :MDP)としてモデル 化できることを仮定している。環境のとりうる状 選移確率p π( s, s ' )は以下の式で表される。 ={S S 2, .・ . , S n }、エージエントがと 態の集合を S ! , りうる行動の集合を A={ α 1, α 2, . . ., αm}、報酬の 集合を w={r r2,...,r, }とそれぞれ表す。ここ ! , で 、 nは状態集合の要素数、 mは行動集合の要素 数、 I は報酬集合の要素数である。時刻~tで環境が ある状態sεSにあるとき、エージェントがある行 -2- P r ( s ', s ) p π (8, 8' ) 一 r ( 8 ' l s )=一一一 一 P P r ( 8 ) ゃ Pr ( s ', 8, a ) 一 一 ab(8) 一 一 ,' s, α )P r ( s, a ) ー P r ( s ) P r ( い) て. P巾 お ・ Pr ( s ', s , a)P r ( α, s ) . 一 ab(SJ)b(s) , " " , . = 乞 Pr(8'18, a )P r ( α 1 8 ) また、 αεA = 玄 pα(い ')π(い ) pπ 1 r( s ω 向t ( 5 ) St+1εS aεA ただし、 Prは政策πに対応する確率分布を表す。 これより、 V π ( 8 )は以下のように表される。 また、状態 sにおいて、ある政策πに従った行動 V1r( s ) = Eπ{ R t l s t=s } を行うときの報酬の期待値Rπ(8,ゲ)は以下の式で . - 。 。 r = E1r{乞γk lst=s} 件 k 表される。 k=O Rπ(8, 8 ' ) = Eπ { η 1 8 t=8 , 8 削 = ( 6 ) k=O 00 = E1r{ r t I 8 t=s }+γ E π { L, . . , .k r t + k + l I S t=8 } L 乞r t P r ( r t I 8 ' ) p l l ( 町 内( 8, a ) r tεW l I EA k=O = Rπ ( 8 ) = 乞 π( 8, a )Lr tP r ( r t l 8 ザ1l( 8, 8 ' ) a E A 。 。 = E1r{ r t+γ乞γk r t + k + l l s t=8} 2 :i tPr(rt18')Pπ(8, 8 ' ) r t E W = 8 ' } = + γLLR 削 P r ( r l s l l ) p π ( いつ ε TWs"ES r t E W = 乞 π( 8, a)R I l (い') ( 7 ) a E A 環境が MDP であるということは、将来の状態は 2 : R削 P 8 )+γL r ( r I 8 " ) = R1r( rEWs " E S S, 8 ' ) P π( 8 ', S " ) . L P1r( s ' E S = R1r( s )+,..,.L Pπ( s, S ' ) 8 ' ε s 現在の状態とそのときとる行動にのみ依存し、過 去の状態や行動の系列には依存しないことを意味 ( 日 する。 MDPにおいてエージェントが定常な政策π + 1L 阿 r l . " ) p n( s ' ,. " )) s " E S ( 1 1 ) 8 )+,..,.L P7r(い ' ) V7r( 8 ' ) = R1r( s ' E S をとるとき、割引報酬の期待合計は時間に関係せ ε r阿 ず環境の状態のみに依存するため、状態 s の関数 として表すことができる。これを状態価値関数と ここで、定常性より V宵 ( 8 ) =E7r{R l st=s }= t π ( 8 )で表す。 呼び、 v E π{ R t + l I S t + l=s }を用いた。 π ( 8 )~ V7r'( s )となると 全ての状態 sにおいて V v π ( 8 ) = Eπ{R l 8 t=8 } t き、政策πは政策がより優れているといえる。 MDP = LRt乞 P r ( r I 8 ' ) P π ( い') ( 8 ) rEW s ' E S ここで、 1次のマルコフ性 P r ( α 1 8 ', 8 )= P r ( α 1 8 ' ) においては他のいかなる政策よりも優れた、もし つ存在し、これを くは同等な政策が少なくとも 1 最適政策f と呼ぶ。最適政策をとるときの状態価 より P r ( α, 8 ) P r ( s ) E向 5Pr(a,8 ', 8 ) 一 P r ( s ) =Zpr(α , 8 ', S ).P r ( 内) 'S P r ( d , s ) P r ( s) s ' E 値関数は以下のようになる。 P r ( α 1 8 ) = 一 一 一 乞 Pr(αI s ', s s ' E S Pr α (I s ' )P r ( 内) s ' E S 乞 Pr(αIs')Pπ( s, S ' ) s 'εs V7r.( 8 )=可. xv 吋8 )f o ra l 1 8ES ( 1 2 ) 2 . 4 政策反復法 状態遷移確率PIl( 8, s ' )と報酬の与えられ方RIl( 8, 8 ' ) 2 : が与えられているとき最適政策を求める手法とし て政策反復法がある。以下にこれを説明する。 ( 9 ) 政策πに従うときの各状態における状態選移確率 q o と報酬の与えられ方を以下の p π とR π で定義する。 rpπ(81, 8 1 ) pπ= pπ ( 8 1, 8 2 ) Pπ ( 8 2, 8 2 ) I Pπ( 8 2, 8 1 ) ここで VI=zf=07t(pπ ) tR πとすると、 S I 1 8n)1 p π( p π ( 8 218 n) I V π 必+ 1 k + l =乞ゲ (Pπ)tRπ t = o p π (8n, 8π )J ( 1 3 ) LPπ ( 8 n, 8 I ) Pπ ( 8 2 ) n I8 =R 1 f k + l +乞γt(Pπ)tR π t = l = R'π+(γpπRπ +y 2(pπ)2R π+γ3(p π)3R π+・ ・ ・ rRπ(81) 1 = Rπ+γpπ (Rπ+γpπRπ +y 2(p π)2R π+・ ・ ・ =I R 句) I 一 R1f 1f( k = R +γpπ Ly t ( Pπ)tR π ( 1 4 ) 1 f t = O LR π( 8n) J = Rπ+γpπv; ( 1 7 ) 式( 1 1 )より ここで、 V1f( 8 ) = R1I"( 8 )+γL P 1f(い ' ) V1I"( 8 ' ) = が存在するとき、 8 ' ε s Rπ ( 8 ) 完 忍 叩 ) イl ト ト 的 R ト ト 附 い v 川 い = ε + γ V π V π 一γpπVπ π ぺ 1 I 市 " 1 ( ( 1 8 " ' s'eS LP ( 1y Pπ)-lR π ( 1 8 ) s"eS = Rπ(8)+-yLP~(8, 8')Rπ(8') +γ2 1 f vπ= 乞 pπ(8, 8 ' )乞 pπ(8γ )V π ( 8 " ) +γ2 s 'ε S = R +γpπVπ = Rπ ( 1y Pπ) V π = Rπ pπ 1 f( 8 削, め 8 ' ' ) 川 Rπ 1 1 1 I " "的 ( 8 ' μ め d) Rπ ぺ 1f ( ( ω 吟 S 吟 ) 十 + 竹 γ Vk→ vπωk→∞、すなわち定常状態 となる。 s ' ε s ここで、ある状態 s においてのみ政策がに従い、 い')乞 P 山 ")R π ( 8 " )・ + 1 f ( 1f( s'ES それ以降は政策πに従って行動するときの状態価 s"ES ( 1 5 ) 値を V1I",1I"'( 8 )=R1f'( 8 )+γ 乞 p1 l " ' (い ')V1I"( 8 ' ) ( 19 ) であるから、政策 πに従うときの各状態における s'ES π は以下のように表される。 状態価値 V とすると、 v=v:) π vバ'(8)>Vπ ( s ) V1f( 8 2 ) であれば、がに従う政策の価値は π の価値よりも π v( 8n) r R( S I )1 r 1 : 内 1 r = IR π ( 8 2 )I 5P ( 8 1, 8 ' ) R π ( 8 ' ) 1 改善されることが証明されている。よって、以下 1 f 玄白sP ( 8 2 ;8 ' ) R ( 8 ' )I 1 r 宵 の手順により最適政策を得ることができる。 I+ yI LRπ ( 8n) J LES'ESPπ ( S n lS ' )R' π ( 8 ' )J 「乞ι 5P ( S l l8 ' )乞内 Sp ( 8 ', 8")R π ( 8 " )1 1 r 1 )確定的な政策πについて V π を計算する。 1 ' l " ' > Iει5P (S2, 8 ' )乞内 SP ( S ', 8")R( 8 " )I 1r 1 ' I " +~I 宵 1+・ ・ ・ うながを得る。 LE 内 sP ( 8 n, 8 ' )ES"ESP吋8 ', s")R π ( 8 " )J Rπ+y pπ R π +y 2(p π)2R π+・ ・ ・ = 2) すべての 8~こおいて Vπ〆 (8) が最大となるよ 宵 3 ) ここでが何 πのとき、 πは最適政策なので処 理を打ち切る。そうでなければ π←がとし て手順 1より繰り返す。 -4- 3 . Q-learning 1 . 環境の状態 8tを観測 2 . 任意の行動選択法に従い行動向を実行 3 . 環境より報酬η を受け取る 4 . 状態遷移後の環境の状態 8t+lを観測 5 . 式( 2 3 )により行動価値関数を更新 6 . 時間ステップを t から t+lに進め、手順 1へ戻る 3 . 1 価値関数 状態 sにおいて行動 αを行い、その後は政策 πに 従った行動をとるときの割引報酬の期待合計を行 F i g .2 Q l e a r n i n gアルゴリズム π( S, α )と表す。 動価値関数と呼び、 Q C l Q π( s, a )=乞 PCl(い ' ) ( R ')+γVπ ( s ' ) )( 2 0 ) (い l e a r n i n gには次の収束定理が知られている この Q 8 ' ε S 最適な行動価値関数は以下のようになる。 「エージェントの行動選択において、全 σ(s, a )=吋; xQπ( s, α ), vsεs ,Vαε A ( 2 1 ) ての行動を十分な回数選択し、かつ学 t )→ ∞ か つ 習率αが乞立。 α( これは次の方程式 ( B e l l m a n方程式)の解である。 E :(t)2 。α く ∞を満たす時間 t の関数となっている Q( s, α ) = E{ η+γ75Q*(8t+l, d)│st=s, αt=α } l e a r n i n gのアルゴリズムで得 とき、 Q 場 で最適な Q値に収束する = 玄 pa(s, s ' )I R( s, s ' )+γF 雪 σ( , ' sa ' )I るQ値は確率 1 C l 8 ' εS L . J ( 2 2 ) 状態選移確率p a ( s, s ' )と報酬の与えられ方R a ( s, s ' ) (概収束)。ただし、環境はエルゴート 性を有する離散有限マルコフ決定過程 であることを仮定する。 J が与えられれば価値関数の値を計算により求める 3 . 2 行動選択法 ことができるが、実環境においては環境モデルが 予め与えられるとは限らず、 PCl( S, S ' )や Ra(s, s ' )は 上記の収束定理は、全ての行動を十分な回数選 通常未知である。そのため、エージェントはなん 択しさえすれば行動選択方法には依存せずに成り らかの方法で「価値 Jを推定しなければならない。 立つ。よって行動選択はランダムでもよい。しか 最適な Q関数が与えられれば、状態 sにおいて Q し、強化学習ではまだ Q値が収束していない学習 関数の値が最大となる行動αを行うことで最適に の途中においてもなるべく多くの報酬を得るよう 行動することができる。 な行動選択を求められることが多い。学習に応じ 強化学習においては、環境との相互作用の試行 て徐々に挙動を改善していくような行動選択方法 錯誤により価値関数を推定していく。 として、 Q l e a r i l i n gは最適な行動価値関数 Q * ( S t, 向)を試 • e g r e e d y選択: 行錯誤により推定するものである。以下に Q ( S t, a t ) 事 εの確率でランダム、それ以外は最大の Q値 の推定値である Q ( S t, αt )の更新式を示す 2 )。 を持つ行動を選択する。 Q ( S t, 向)← (1-α) Q ( S t, a t ) + α( r t+γFEQ(S 削 , a ' ) )( 2 3 ) -ポルツマン選択: ここで、 αは学習率、 γは割引率であり、 S t + lは状 eQ(s, a)/Tに比例した割合で行動選択する。た 態S tで行動向をとったときの遷移先の状態を表す。 だし、 Tは時間とともにゼロに近付く。 図幻こ Q l e 紅凶ng のアルゴリズムの概要を示す。 などの手法が提案されている。 F n υ なお、本研究ではボルツマン選択(式 ( 2 4 ) )を用 いる。 なお、ここでじゃんけんの手と行動及び状態は 以下の通りとする。 , sQ (sa)jT π(s, α)=~ _1')(" J , 'l'1 1 ( 2 4 ) 4 . じゃんけんの戦略学習 4 .. 1 Q l e a r n i n gの適用 じゃんけんにおける戦略を Q l e a r 凶n gを用いて学 習させることを考える。まず、じゃんけんにおけ ゲームの流れは以下のようになる。 る環境を定義した。環境の状態はエージェントの 1 )対戦相手の現在の手sを観測 対戦相手の出した手の組み合わせとした。例えば 1手前までの手を見る場合は 3通り、 2手前までの手 2 )エージエントが次の手 αを決定する を見る場合は 9通りの状態が存在する。本研究に 3 )対戦相手の手 8'が決定される おいては 1手前に出された手を環境として用いた。 じゃんけんゲームにおいては環境の状態遷移確 ゲームが始まると、まずエージェントは現在の 環境の状態s を観測する。次に Q値から得られる政 策制こより出す手αを決定する。ここで、エージエ 率はエージェントの行動αには依存せず、状態 sと 遷移先の状態 8'にのみ依存する。 P r ( s ' 1 8, a )=P r ( s ' l s ) ントの対戦相手の手はある一定の戦略から決定す るものとする。エージェントとその対戦相手の出 す手が決定すると、その行動を行い、環境の状態 ( 2 5 ) また、報酬はエージェントの行動αと遷移先の状 態s 'によって決まり、状態 8には依存しない。 が変化する。遷移後の状態を 8'とし、環境の変化 R a ( s ' , s ' )=R a ( s ' ) によって報酬Tを得る。以上のようにして得られた s , a, s' , r と現在の Q 値を用いて、 Q~直をより最適な 値へと更新していくことでじゃんけんの戦略を学 ( 2 6 ) 式( 5 ), ( 2 5 )より、環境の状態遷移確率は以下の式 であり、これは政策πに依.存しない。 習する。 pπ( い') =2 :Pr(s'ls,a)π(s,a) ( 2 7 ) αεA 4 . 2 ・じゃんけんゲームにおける環境 = P r ( ゆ)玄 π( 8, a ) aεA = Pr(s'ls) じゃんけんゲームにおいて、環境は以下の通り となる。 式( 7 ), ( 2 5 ), ( 2 6 )より、 S2, S3} -状態集合 s={8t, RiT( s ) = a 玄乞 π( s, a)R ( い')P r ( s ' 1 8, ~8) s 'ε SaEA -行動集合 A={ α}, a2, α a } = 玄 Pr(s'ls)乞π( s, a ) R a ( s ' ) -状態s・・・対戦相手によって出された現在の手 -状態 8' ...対戦相手の次の手 s'ES aEA L v π ( 8 )= R1l'( s )+γ P1 r ( い' ) Vπ( s ' ) 8 ' ε s -行動α・・・エージェントの次の手 -6- ( 2 9 ) 5 . 実験 5 . 1 学習に用いたデータ まず、学習に用いるデータに関して説明する。被 験者AとBが80回じゃんけんの対戦を行い、その際 にAが出した手における一手前の手とその次の手 の関係から、ある手が出された次に出された手の 頻度を表2に、表3にAが出したグー・チョキ・パー それぞれの数を示した。 2.4章に示した政策反復法を用い、以上の p a ( 8, 8 ' ) 及び Rα(8, 8 ' )において最適政策f を求めた結果を 以下に示す。 Table2 被験者Aにおけるある手が出された後の Table5 得られた最適政 次の手の数とその確率 次の手 現在の手 グー 数 確率 チョキ 数 確率 パー 数 確率 グー 9 0 . 3 3 3 1 1 0. 4 07 7 チョキ 8 0 . 2 9 6 4 パー Table6 最適政策に従う ときの状態価値 V1l"*( 8 ) 0 . 2 5 9 0 . 1 4 8 15 0 . 5 5 6 . 3 8 5 1 2 0. 4 62 4 1 0 0 0 . 1 5 4 Table7 最適政策を用いた場合のエージェントの T a b l e3 出された各手の総数 │グー│チョキ│パー│ 勝敗;試合数 =80 │ │27 1 2 7 1 26 1 1 1勝 ち │ 負 け │ 分 け │ 数 5 . 2 政策反復法による解 MDPにおいて、状態選移確率と報酬が既知であ よって、被検者Aの出した手の通りに手を出す れば、政策反復法を用いて最適な政策を得ること ができる。今回実装したじゃんけんゲームにおい ては、対戦相手の一手前の手を状態として用いて いるため、表 2の一手前の手を s、次の手を 8'とす ると、表2における確率は状態選移確率 p a ( 8, 8 ' )と a(8, 8 ' )はエージエン みなすことができる。また、 p 対戦相手を用いてエージェントに強化学習による 学習を行わせた場合、表 5のような戦略に収束す ることが期待される。 5 . 3 Ql e a r n i n gによる学習結果 同 トの行動αにかかわらず一定である。 実際にAが出した手のデータを用いて Q l e a r n i n g また、じゃんけんにおいて勝った時の報酬をし による戦略学習を行った。学習の際に用いたパラ あいこの時の報酬を O 、負けた時の報酬を 1と設 ふ 割 引 率γ = メータは、学習率の初期値 α0=0 . 2とする q 定する。割引率γは0 0 . 2、行動選択法はポルツマン選択、温度パラメー このゲームにおいては報酬関数の値は選移前の 状態sには依存しない。よって以下のようになる。 タ の 初 期 値 勾 =1 .0、エージェントに対する報酬 は、勝った際1.0、負けた際-1.0、あいこの際 0 . 0で ある。 80ステップ、 400ステップ、 800ステップの学習を -7- 行い、それぞれ学習率の減衰率的、温度パラメー 6 . 考察 . 0 1、温 タの減衰率勾は学習終了時に学習率αさ 0 . 1・となるような値を設定して 度パラメータ Tさ 0 政策反復法による解(表 5 )と4 0 0及び8 0 0ステップ のQ l e a r n i n gによる学習結果を比較すると、最終 いる。また、乱数の種はいずれも 1 2 3 4とした。 (8, α )バ( 8, α )の値及び得られた πを用 学習後の Q いて被験者 Aの手と 8 0試合の対戦を行った結果を 的に同じ政策が得られており、十分なステップ数 の学習を行うことで最適な政策を得ることができ ることがわかる。 以下に示す。 実際に人間との対戦中に学習を行うことを考え ると、少ない対戦数で最適な選択を行えるように 学習ステップ数 =80 αd=0 . 9 5 2 2 8、T d=0 . 9 7 1 6 3 なることが望ましい。しかし 8 0ステップの学習に α )バ( 8, a ) j T a b l e 8 8 0ステップ時点での Q(8, T=0 . 1 0 0 おいては最適政策と異なる政策が学習されており、 少ないステップ数で最適政策を得るための学習パ ラメータや手法の検討が必要である。 参考文献 Table9 πを用いたときの勝敗数 │ 1 勝ち│負け│分け│ 1 )木村元,宮崎和光,小林重信:“強化学習シス │数 1 3 0 I 1 4 I 36 I │ % "3 7 . 5 0 I1 7 . 5 0 I4 5 . 0 0I 1 .3 8,No.10, テムの設計指針ヘ計測と制御, Vo pp.618-62~ , 学習ステップ数 =400 ω =0 . 9 9 0 2 7、 勾 =0 . 9 9 4 2 6 1 9 9 9 . 2 ) 長行康男,伊藤実:勺体エージェント確率ゲー , α ), 1 1 "( 8, α )j T a b l e1 0 400ステップ時点での Q(8 T=0 . 1 0 0 ムにおける他-エージェントの政策推定を利用 した強化学習法ぺ電子情報通信学会論文誌, Vo l .J 8 6 ・D I,N o . l 1,p p . 8 2 1 8 2 9,2 0 0 3 . 3 )M i c h a e lL .L i t t m 釦 : “Markovg ames a sa 色l e a r n frameworkf o rm u l t i a g e n tr e i n f o r c e m e n T a b l e1 1 πを用いたときの勝敗数 1 1 勝ち│負け│分け│ i n g ",P r o c .1 1もhI n t e r n a t i o na 1C o n f e r e n c eon │数" 3 6 I 1 8 I 2 6 I │ % "4 5 . 0 0 I2 2 . 5 0 I3 2 . 5 0I MachineL e a r n i n g, p p . 1 5 7 1 6 3, USA, J u l y1 9 9 4 . 学習ステップ数=800 4 ) 山田知明 t西山清:“ 1プレーヤーサッカーゲー αd=0 . 9 9 5 1 2、 勾 =0 . 9 9 7 1 3 ムにおける戦略学習ヘ計測自動制御学会東北 α )バ( 8, a ) j T a b l e1 2 8 0 0ステップ時点での Q(8, T= 0 . 1 0 0 T a b l e1 3 πを用いたときの勝敗数 │ 1 勝ち│負け│分け│ │数" 3 4 I 1 9 I 27 I │% 1 .4 2 . 5 0 I2 3 . 7 5 I3 3 . 7 5I 支 部 第2 2 8回研究集会, 2 2 8 1,2 0 0 6 . 。 。