...

じゃんけんゲ`ームの戦略学習

by user

on
Category: Documents
14

views

Report

Comments

Transcript

じゃんけんゲ`ームの戦略学習
計測自動制御学会東北支部第 2
8
0回研究集会 (
2
0
1
3年 5月2
9日)
資料番号 2
8
0
・6
じゃんけんゲ‘ームの戦略学習
StrategyLearningf
o
r
theGameo
fS
c
i
s
s
o
r
s
p
a
p
e
r
r
o
c
k
,
0佐藤隆雅(岩手大・院),西山清(岩手大)
OTakaoS
a
t
o
u,
K
i
y
o
s
h
iN
i
s
h
i
y
a
m
a
岩手大学, I
w
a
t
eU
n
i
v
e
r
s
i
t
y
キーワード: 強化学習(Rei
n
f
o
r
c
e
m
e
n
tL
e
a
r
n
i
n
g
)環境 (
E
n
v
i
r
o
m
e
n
t
)戦 略 (
S
t
r
a
t
e
g
y
)Q
l
e
a
n
i
n
g価値関数 (
V
a
l
u
e
Fu
n
c
t
i
o
n
s
)
連絡先:
宇0
2
0
・
8
5
5
1 盛岡市上回 4-3-5岩手大学工学部情報システム工学科西山研究室
西山清. Te
l
.
:(
0
1
9
)
6
2
1
・6
4
7
5
.F
a
x
.
:(
0
1
9
)
6
2
1
・6
4
7
5
.E
m
a
i
l
:n
i
s
i
y
a
m
a
<
Oc
i
s
.
i
w
a
t
e
u
.
a
c
.
j
p
1
. はじめに
ば遥かに簡単である。そのため、タスク遂行のた
めのプログラミングを強化学習で自動化すること
強化学習とは、環境に対する試行錯誤的なイン
により、設計者の負荷軽減が期待できる。
タラクションを通じて環境に適応する学習制御の
枠組みである 1
)。学習の主体であるエージエント
は環境に関する知識を持たない。また、環境は状
態遷移及び報酬の与えられ方は確率的であるもの
が想定される。このような環境において、エージェ
ントは試行錯誤により適切な行動規則を獲得して
いく。「何をすべきか j をエージェントに報酬とい
う形で指示しておくだけで「どのように実現する
か Jをエージェントが学習によって自動的に獲得
する枠組みとなっている。環境に不確実性や計測
「じゃんけん」における最適政策はグー・チョ
キ・パーをそれぞれ 1
/
3の確率で出すことである
ことが知られている。しかし、実際に人間同士が
対戦した際に出された手を調べると、グー・チョ
キ・パーのそれぞれが出される確率はほぼ 1
/
3
ずつ
であったが、一手前との相関を見るとある程度の
ばらつきが見受けられた。本研究ではじゃんけん
ゲームの戦略学習に強化学習を適用し、このよう
な「癖 Jに対する戦略の学習を行えるかどうか検
証し、またその学習性能について評価する。
不能な未知のパラメータが存在すると、タスクの
達成方法やゴールへの到達方法は設計者にとって
自明ではない。よって、ロポットへタスクを遂行
するための制御規則をプログラムすることは設計
2
. 強化学習
2
.
1 概要
者にとって重労働である。ところが、達成すべき
目標を報酬によって指示することは前記に比べれ
強化学習では、まず学習の主体であるエージエ
ントとそれをとりまく環境を定義する。エージエ
-1-
ントは図 1で表されるような環境との試行錯誤的
動αを実行すると、次の時刻に環境は確率的に状
な相互作用により、状態から行動への写像を学習
態s
'E Sへ遷移する。定常性を仮定し、その遷移
する。
確率を p
a
(
s,
s
'
)と表す。このとき確率P
r
(
r
l
s
'
)で環
エージェントは
境からエージェントへ報酬Tが与えられるが、その
a
(
8,
s
'
)により表す。エージエントにおけ
期待値を R
(
1
) 環境から状態 sを観測
る状態集合から行動集合への確率分布を政策と呼
(
2
) 状態 sに基づき行動αを決定
び
、 π
(
8,
α
)と表す。
咽
E
π
(
8,
α
) 一
r
(
αt=α1
S
t=s
)=P
r
(
α
1
8
)
一 P
、‘,,,
i
し、その状態選移に応じた報酬Tを得る
、
‘
,
,
(
3
)行動αを実行することで環境は状態dへ移行
p
a
(
8,
S
'
)一
一 P
r
(
S
t
+
l=s
'
I
S
t=8,
αt=α
)
(
4
)学習が終了するまで (
1
)'
"(
3
)のサイクルを
繰り返す
r
(
s
'
1
8,
α
)
一 P
一
(
2
)
Ra(
8,
s
'
) 一
r
t
l
s
t=s
,
αt=α,
S
t
+
l=s
'
}
一 E〆{
という一連の環境との相互作用により最も効率の
一
一
良い行動の仕方(戦略)を環境から学んでいく。 (
3
)
によってエージェントが得る報酬は、
Pr
乞η
げ
Tt
か
(
(
1
r
t
可
t
阿
吋
巾
昨
巾
ηψ.
ε
tWr
円
T
一
一
o
や負の数、
乞r
tP
r
(
r
t
l
s
'
)P
r
(
s
'
l
s,
a
)
rtEW
すなわちペナルティに相当する場合もある。
一
一
εt恥P阿吋州(r川tμ
バ
巾
│
s
'
ザ 仏
(め
S
')
η
T rη
Tt拘
何
,
αい
hう
(
3
)
r
円tEW
ここで、 8t 、向、 Tt はそれぞれ時現~t におけるエー
En
vironment
s
r
-¥
ジェントの状態、行動、報酬である。
s
'
2
.
3 最適政策
Ag飢 t
エージェントは多くの場合、以下のような割引
報酬の期待合計を最大化することを目的とする。
F
i
g
.1 環境とエージェントの相互作用
00
2
T
R
t=r
t+'
)
'
T
t
+
l+'
)
・
・
=
玄 7KTM
t
+
2+・
(
4
)
k=O
ここで、 γ
(
0~ '
)~ 1
)は割引率であり、将来得ら
2
.
2 環境モデル
れる報酬を重視するか、短期間に得られる報酬を
強化学習の多くは、扱う環境がマルコフ決定過
重視するかを調節するパラメータである。
ある政策πを用いたときの状態 s
から dへの状態
程(
MarkovD
e
c
i
s
i
o
nP
r
o
c
e
s
s
:MDP)としてモデル
化できることを仮定している。環境のとりうる状
選移確率p
π(
s,
s
'
)は以下の式で表される。
={S S
2,
.・
.
,
S
n
}、エージエントがと
態の集合を S
!
,
りうる行動の集合を A={
α
1,
α
2,
.
.
.,
αm}、報酬の
集合を
w={r r2,...,r,
}とそれぞれ表す。ここ
!
,
で
、 nは状態集合の要素数、 mは行動集合の要素
数、 I は報酬集合の要素数である。時刻~tで環境が
ある状態sεSにあるとき、エージェントがある行
-2-
P
r
(
s
',
s
)
p
π (8,
8'
) 一
r
(
8
'
l
s
)=一一一
一 P
P
r
(
8
)
ゃ Pr
(
s
',
8,
a
)
一
一
ab(8)
一
一
,' s,
α
)P
r
(
s,
a
)
ー
P
r
(
s
) P
r
(
い)
て.
P巾
お
・
Pr
(
s
',
s
,
a)P
r
(
α,
s
)
.
一 ab(SJ)b(s)
,
"
"
,
.
= 乞 Pr(8'18,
a
)P
r
(
α
1
8
)
また、
αεA
= 玄 pα(い ')π(い )
pπ
1
r(
s
ω
向t
(
5
)
St+1εS
aεA
ただし、 Prは政策πに対応する確率分布を表す。
これより、 V
π
(
8
)は以下のように表される。
また、状態 sにおいて、ある政策πに従った行動
V1r(
s
) = Eπ{
R
t
l
s
t=s
}
を行うときの報酬の期待値Rπ(8,ゲ)は以下の式で
.
-
。
。
r
= E1r{乞γk
lst=s}
件 k
表される。
k=O
Rπ(8,
8
'
) = Eπ
{
η
1
8
t=8
,
8
削
=
(
6
)
k=O
00
= E1r{
r
t
I
8
t=s
}+γ
E
π { L,
.
.
,
.k
r
t
+
k
+
l
I
S
t=8
}
L
乞r
t P
r
(
r
t
I
8
'
)
p
l
l
(
町 内(
8,
a
)
r
tεW l
I
EA
k=O
= Rπ
(
8
)
= 乞 π(
8,
a
)Lr
tP
r
(
r
t
l
8
ザ1l(
8,
8
'
)
a
E
A
。
。
= E1r{
r
t+γ乞γk
r
t
+
k
+
l
l
s
t=8}
2
:i
tPr(rt18')Pπ(8,
8
'
)
r
t
E
W
=
8
'
}
=
+
γLLR
削 P
r
(
r
l
s
l
l
)
p
π
(
いつ
ε
TWs"ES
r
t
E
W
= 乞 π(
8,
a)R
I
l
(い')
(
7
)
a
E
A
環境が MDP
であるということは、将来の状態は
2
:
R削 P
8
)+γL
r
(
r
I
8
"
)
= R1r(
rEWs
"
E
S
S,
8
'
)
P
π(
8
',
S
"
)
.
L P1r(
s
'
E
S
= R1r(
s
)+,..,.L Pπ(
s,
S
'
)
8
'
ε
s
現在の状態とそのときとる行動にのみ依存し、過
去の状態や行動の系列には依存しないことを意味
(
日
する。 MDPにおいてエージェントが定常な政策π
+
1L 阿 r
l
.
"
)
p
n(
s
'
,.
"
))
s
"
E
S
(
1
1
)
8
)+,..,.L P7r(い '
)
V7r(
8
'
)
= R1r(
s
'
E
S
をとるとき、割引報酬の期待合計は時間に関係せ
ε
r阿
ず環境の状態のみに依存するため、状態 s
の関数
として表すことができる。これを状態価値関数と
ここで、定常性より V宵 (
8
) =E7r{R
l
st=s
}=
t
π
(
8
)で表す。
呼び、 v
E
π{
R
t
+
l
I
S
t
+
l=s
}を用いた。
π
(
8
)~ V7r'(
s
)となると
全ての状態 sにおいて V
v
π
(
8
) = Eπ{R
l
8
t=8
}
t
き、政策πは政策がより優れているといえる。 MDP
= LRt乞 P
r
(
r
I
8
'
)
P
π
(
い') (
8
)
rEW s
'
E
S
ここで、 1次のマルコフ性 P
r
(
α
1
8
',
8
)= P
r
(
α
1
8
'
)
においては他のいかなる政策よりも優れた、もし
つ存在し、これを
くは同等な政策が少なくとも 1
最適政策f と呼ぶ。最適政策をとるときの状態価
より
P
r
(
α,
8
)
P
r
(
s
)
E向 5Pr(a,8
',
8
)
一
P
r
(
s
)
=Zpr(α ,
8
',
S
).P
r
(
内)
'S P
r
(
d
,
s
)
P
r
(
s)
s
'
E
値関数は以下のようになる。
P
r
(
α
1
8
) =
一
一
一
乞 Pr(αI
s
',
s
s
'
E
S
Pr
α
(I
s
'
)P
r
(
内)
s
'
E
S
乞 Pr(αIs')Pπ(
s,
S
'
)
s
'εs
V7r.(
8
)=可.
xv
吋8
)f
o
ra
l
1
8ES
(
1
2
)
2
.
4 政策反復法
状態遷移確率PIl(
8,
s
'
)と報酬の与えられ方RIl(
8,
8
'
)
2
:
が与えられているとき最適政策を求める手法とし
て政策反復法がある。以下にこれを説明する。
(
9
)
政策πに従うときの各状態における状態選移確率
q
o
と報酬の与えられ方を以下の p
π とR
π で定義する。
rpπ(81,
8
1
)
pπ=
pπ
(
8
1,
8
2
)
Pπ
(
8
2,
8
2
)
I
Pπ(
8
2,
8
1
)
ここで VI=zf=07t(pπ )
tR
πとすると、
S
I
1
8n)1
p
π(
p
π
(
8
218
n) I V
π
必+
1
k
+
l
=乞ゲ (Pπ)tRπ
t
=
o
p
π (8n,
8π
)J
(
1
3
)
LPπ
(
8
n,
8
I
) Pπ
(
8
2
)
n
I8
=R
1
f
k
+
l
+乞γt(Pπ)tR
π
t
=
l
= R'π+(γpπRπ +y
2(pπ)2R
π+γ3(p
π)3R
π+・
・
・
rRπ(81) 1
= Rπ+γpπ (Rπ+γpπRπ +y
2(p
π)2R
π+・
・
・
=I
R 句) I
一
R1f
1f(
k
= R +γpπ Ly
t
(
Pπ)tR
π
(
1
4
)
1
f
t
=
O
LR
π(
8n) J
= Rπ+γpπv;
(
1
7
)
式(
1
1
)より
ここで、
V1f(
8
) = R1I"(
8
)+γL P
1f(い '
)
V1I"(
8
'
)
=
が存在するとき、
8
'
ε
s
Rπ
(
8
)
完
忍
叩
)
イl
ト
ト
的
R
ト
ト
附
い
v
川
い
=
ε
+
γ
V
π
V
π 一γpπVπ
π
ぺ
1
I
市
"
1
(
(
1
8
"
'
s'eS
LP
(
1y
Pπ)-lR
π
(
1
8
)
s"eS
= Rπ(8)+-yLP~(8, 8')Rπ(8')
+γ2
1
f
vπ=
乞 pπ(8,
8
'
)乞 pπ(8γ )V
π
(
8
"
)
+γ2
s
'ε
S
= R +γpπVπ
= Rπ
(
1y
Pπ)
V
π = Rπ
pπ
1
f(
8
削,
め
8
'
'
)
川
Rπ
1
1
1
I
"
"的
(
8
'
μ
め
d)
Rπ
ぺ
1f
(
(
ω
吟
S
吟
)
十
+
竹
γ
Vk→ vπωk→∞、すなわち定常状態
となる。
s
'
ε
s
ここで、ある状態 s
においてのみ政策がに従い、
い')乞 P
山 ")R
π
(
8
"
)・
+
1
f
(
1f(
s'ES
それ以降は政策πに従って行動するときの状態価
s"ES
(
1
5
)
値を
V1I",1I"'(
8
)=R1f'(
8
)+γ 乞 p1
l
"
'
(い ')V1I"(
8
'
) (
19
)
であるから、政策 πに従うときの各状態における
s'ES
π は以下のように表される。
状態価値 V
とすると、
v=v:)
π
vバ'(8)>Vπ
(
s
)
V1f(
8
2
)
であれば、がに従う政策の価値は π
の価値よりも
π
v(
8n)
r
R(
S
I
)1
r
1
:
内
1
r
=
IR
π
(
8
2
)I
5P (
8
1,
8
'
)
R
π
(
8
'
) 1 改善されることが証明されている。よって、以下
1
f
玄白sP (
8
2
;8
'
)
R
(
8
'
)I
1
r
宵
の手順により最適政策を得ることができる。
I+
yI
LRπ (
8n) J
LES'ESPπ
(
S
n
lS
'
)R'
π
(
8
'
)J
「乞ι 5P (
S
l
l8
'
)乞内 Sp (
8
',
8")R
π
(
8
"
)1
1
r
1
)確定的な政策πについて V
π を計算する。
1
'
l
"
'
>
Iει5P (S2,
8
'
)乞内 SP (
S
',
8")R(
8
"
)I
1r
1
'
I
"
+~I
宵
1+・
・
・
うながを得る。
LE
内 sP (
8
n,
8
'
)ES"ESP吋8
',
s")R
π
(
8
"
)J
Rπ+y
pπ
R
π +y
2(p
π)2R
π+・
・
・
=
2) すべての 8~こおいて Vπ〆 (8) が最大となるよ
宵
3
) ここでが何 πのとき、 πは最適政策なので処
理を打ち切る。そうでなければ π←がとし
て手順 1より繰り返す。
-4-
3
. Q-learning
1
. 環境の状態 8tを観測
2
. 任意の行動選択法に従い行動向を実行
3
. 環境より報酬η を受け取る
4
. 状態遷移後の環境の状態 8t+lを観測
5
. 式(
2
3
)により行動価値関数を更新
6
. 時間ステップを t
から t+lに進め、手順 1へ戻る
3
.
1 価値関数
状態 sにおいて行動 αを行い、その後は政策 πに
従った行動をとるときの割引報酬の期待合計を行
F
i
g
.2 Q
l
e
a
r
n
i
n
gアルゴリズム
π(
S,
α
)と表す。
動価値関数と呼び、 Q
C
l
Q
π(
s,
a
)=乞 PCl(い '
)
(
R
')+γVπ (
s
'
)
)(
2
0
)
(い
l
e
a
r
n
i
n
gには次の収束定理が知られている
この Q
8
'
ε
S
最適な行動価値関数は以下のようになる。
「エージェントの行動選択において、全
σ(s,
a
)=吋;
xQπ(
s,
α
),
vsεs
,Vαε A
(
2
1
)
ての行動を十分な回数選択し、かつ学
t
)→ ∞ か つ
習率αが乞立。 α(
これは次の方程式 (
B
e
l
l
m
a
n方程式)の解である。
E
:(t)2
。α
く
∞を満たす時間 t
の関数となっている
Q(
s,
α
) = E{
η+γ75Q*(8t+l,
d)│st=s,
αt=α
}
l
e
a
r
n
i
n
gのアルゴリズムで得
とき、 Q
場
で最適な Q値に収束する
= 玄 pa(s,
s
'
)I
R(
s,
s
'
)+γF
雪 σ(
,
'
sa
'
)I るQ値は確率 1
C
l
8
'
εS
L
.
J
(
2
2
)
状態選移確率p
a
(
s,
s
'
)と報酬の与えられ方R
a
(
s,
s
'
)
(概収束)。ただし、環境はエルゴート
性を有する離散有限マルコフ決定過程
であることを仮定する。 J
が与えられれば価値関数の値を計算により求める
3
.
2 行動選択法
ことができるが、実環境においては環境モデルが
予め与えられるとは限らず、 PCl(
S,
S
'
)や Ra(s,
s
'
)は
上記の収束定理は、全ての行動を十分な回数選
通常未知である。そのため、エージェントはなん
択しさえすれば行動選択方法には依存せずに成り
らかの方法で「価値 Jを推定しなければならない。
立つ。よって行動選択はランダムでもよい。しか
最適な Q関数が与えられれば、状態 sにおいて Q
し、強化学習ではまだ Q値が収束していない学習
関数の値が最大となる行動αを行うことで最適に
の途中においてもなるべく多くの報酬を得るよう
行動することができる。
な行動選択を求められることが多い。学習に応じ
強化学習においては、環境との相互作用の試行
て徐々に挙動を改善していくような行動選択方法
錯誤により価値関数を推定していく。
として、
Q
l
e
a
r
i
l
i
n
gは最適な行動価値関数 Q
*
(
S
t,
向)を試
• e
g
r
e
e
d
y選択:
行錯誤により推定するものである。以下に Q (
S
t,
a
t
)
事
εの確率でランダム、それ以外は最大の Q値
の推定値である Q
(
S
t,
αt
)の更新式を示す 2
)。
を持つ行動を選択する。
Q
(
S
t,
向)←
(1-α)
Q
(
S
t,
a
t
)
+
α(
r
t+γFEQ(S
削
,
a
'
)
)(
2
3
)
-ポルツマン選択:
ここで、 αは学習率、 γは割引率であり、 S
t
+
lは状
eQ(s,
a)/Tに比例した割合で行動選択する。た
態S
tで行動向をとったときの遷移先の状態を表す。
だし、 Tは時間とともにゼロに近付く。
図幻こ Q
l
e
紅凶ng
のアルゴリズムの概要を示す。
などの手法が提案されている。
F
n
υ
なお、本研究ではボルツマン選択(式 (
2
4
)
)を用
いる。
なお、ここでじゃんけんの手と行動及び状態は
以下の通りとする。
,
sQ
(sa)jT
π(s, α)=~
_1')("
J
,
'l'1
1
(
2
4
)
4
. じゃんけんの戦略学習
4
..
1 Q
l
e
a
r
n
i
n
gの適用
じゃんけんにおける戦略を Q
l
e
a
r
凶n
gを用いて学
習させることを考える。まず、じゃんけんにおけ
ゲームの流れは以下のようになる。
る環境を定義した。環境の状態はエージェントの
1
)対戦相手の現在の手sを観測
対戦相手の出した手の組み合わせとした。例えば
1手前までの手を見る場合は 3通り、 2手前までの手
2
)エージエントが次の手 αを決定する
を見る場合は 9通りの状態が存在する。本研究に
3
)対戦相手の手 8'が決定される
おいては 1手前に出された手を環境として用いた。
じゃんけんゲームにおいては環境の状態遷移確
ゲームが始まると、まずエージェントは現在の
環境の状態s
を観測する。次に Q値から得られる政
策制こより出す手αを決定する。ここで、エージエ
率はエージェントの行動αには依存せず、状態 sと
遷移先の状態 8'にのみ依存する。
P
r
(
s
'
1
8,
a
)=P
r
(
s
'
l
s
)
ントの対戦相手の手はある一定の戦略から決定す
るものとする。エージェントとその対戦相手の出
す手が決定すると、その行動を行い、環境の状態
(
2
5
)
また、報酬はエージェントの行動αと遷移先の状
態s
'によって決まり、状態 8には依存しない。
が変化する。遷移後の状態を 8'とし、環境の変化
R
a
(
s
'
,
s
'
)=R
a
(
s
'
)
によって報酬Tを得る。以上のようにして得られた
s , a, s' , r と現在の Q 値を用いて、 Q~直をより最適な
値へと更新していくことでじゃんけんの戦略を学
(
2
6
)
式(
5
),
(
2
5
)より、環境の状態遷移確率は以下の式
であり、これは政策πに依.存しない。
習する。
pπ(
い')
=2
:Pr(s'ls,a)π(s,a)
(
2
7
)
αεA
4
.
2 ・じゃんけんゲームにおける環境
= P
r
(
ゆ)玄 π(
8,
a
)
aεA
= Pr(s'ls)
じゃんけんゲームにおいて、環境は以下の通り
となる。
式(
7
),
(
2
5
),
(
2
6
)より、
S2,
S3}
-状態集合 s={8t,
RiT(
s
) =
a
玄乞 π(
s,
a)R
(
い')P
r
(
s
'
1
8,
~8)
s
'ε
SaEA
-行動集合 A={
α}, a2,
α
a
}
= 玄 Pr(s'ls)乞π(
s,
a
)
R
a
(
s
'
)
-状態s・・・対戦相手によって出された現在の手
-状態 8' ...対戦相手の次の手
s'ES
aEA
L
v
π
(
8
)= R1l'(
s
)+γ
P1
r
(
い'
)
Vπ(
s
'
)
8
'
ε
s
-行動α・・・エージェントの次の手
-6-
(
2
9
)
5
. 実験
5
.
1 学習に用いたデータ
まず、学習に用いるデータに関して説明する。被
験者AとBが80回じゃんけんの対戦を行い、その際
にAが出した手における一手前の手とその次の手
の関係から、ある手が出された次に出された手の
頻度を表2に、表3にAが出したグー・チョキ・パー
それぞれの数を示した。
2.4章に示した政策反復法を用い、以上の p
a
(
8,
8
'
)
及び Rα(8,
8
'
)において最適政策f を求めた結果を
以下に示す。
Table2 被験者Aにおけるある手が出された後の
Table5 得られた最適政
次の手の数とその確率
次の手
現在の手
グー
数 確率
チョキ
数 確率
パー
数 確率
グー
9
0
.
3
3
3 1
1 0.
4
07 7
チョキ
8
0
.
2
9
6 4
パー
Table6 最適政策に従う
ときの状態価値 V1l"*(
8
)
0
.
2
5
9
0
.
1
4
8 15 0
.
5
5
6
.
3
8
5 1
2 0.
4
62 4
1
0 0
0
.
1
5
4
Table7 最適政策を用いた場合のエージェントの
T
a
b
l
e3 出された各手の総数
│グー│チョキ│パー│
勝敗;試合数 =80
│
│27 1 2 7 1 26 1
1
1勝 ち │ 負 け │ 分 け │
数
5
.
2 政策反復法による解
MDPにおいて、状態選移確率と報酬が既知であ
よって、被検者Aの出した手の通りに手を出す
れば、政策反復法を用いて最適な政策を得ること
ができる。今回実装したじゃんけんゲームにおい
ては、対戦相手の一手前の手を状態として用いて
いるため、表 2の一手前の手を s、次の手を 8'とす
ると、表2における確率は状態選移確率 p
a
(
8,
8
'
)と
a(8,
8
'
)はエージエン
みなすことができる。また、 p
対戦相手を用いてエージェントに強化学習による
学習を行わせた場合、表 5のような戦略に収束す
ることが期待される。
5
.
3 Ql
e
a
r
n
i
n
gによる学習結果
同
トの行動αにかかわらず一定である。
実際にAが出した手のデータを用いて Q
l
e
a
r
n
i
n
g
また、じゃんけんにおいて勝った時の報酬をし
による戦略学習を行った。学習の際に用いたパラ
あいこの時の報酬を O
、負けた時の報酬を 1と設
ふ 割 引 率γ =
メータは、学習率の初期値 α0=0
.
2とする q
定する。割引率γは0
0
.
2、行動選択法はポルツマン選択、温度パラメー
このゲームにおいては報酬関数の値は選移前の
状態sには依存しない。よって以下のようになる。
タ の 初 期 値 勾 =1
.0、エージェントに対する報酬
は、勝った際1.0、負けた際-1.0、あいこの際 0
.
0で
ある。
80ステップ、 400ステップ、 800ステップの学習を
-7-
行い、それぞれ学習率の減衰率的、温度パラメー
6
. 考察
.
0
1、温
タの減衰率勾は学習終了時に学習率αさ 0
.
1・となるような値を設定して
度パラメータ Tさ 0
政策反復法による解(表 5
)と4
0
0及び8
0
0ステップ
のQ
l
e
a
r
n
i
n
gによる学習結果を比較すると、最終
いる。また、乱数の種はいずれも 1
2
3
4とした。
(8,
α
)バ(
8,
α
)の値及び得られた πを用
学習後の Q
いて被験者 Aの手と 8
0試合の対戦を行った結果を
的に同じ政策が得られており、十分なステップ数
の学習を行うことで最適な政策を得ることができ
ることがわかる。
以下に示す。
実際に人間との対戦中に学習を行うことを考え
ると、少ない対戦数で最適な選択を行えるように
学習ステップ数 =80
αd=0
.
9
5
2
2
8、T
d=0
.
9
7
1
6
3
なることが望ましい。しかし 8
0ステップの学習に
α
)バ(
8,
a
)
j
T
a
b
l
e 8 8
0ステップ時点での Q(8,
T=0
.
1
0
0
おいては最適政策と異なる政策が学習されており、
少ないステップ数で最適政策を得るための学習パ
ラメータや手法の検討が必要である。
参考文献
Table9 πを用いたときの勝敗数
│
1 勝ち│負け│分け│
1
)木村元,宮崎和光,小林重信:“強化学習シス
│数 1 3
0 I 1
4 I 36 I
│ % "3
7
.
5
0 I1
7
.
5
0 I4
5
.
0
0I
1
.3
8,No.10,
テムの設計指針ヘ計測と制御, Vo
pp.618-62~ ,
学習ステップ数 =400
ω =0
.
9
9
0
2
7、 勾 =0
.
9
9
4
2
6
1
9
9
9
.
2
) 長行康男,伊藤実:勺体エージェント確率ゲー
,
α
),
1
1
"(
8,
α
)j
T
a
b
l
e1
0 400ステップ時点での Q(8
T=0
.
1
0
0
ムにおける他-エージェントの政策推定を利用
した強化学習法ぺ電子情報通信学会論文誌,
Vo
l
.J
8
6
・D
I,N
o
.
l
1,p
p
.
8
2
1
8
2
9,2
0
0
3
.
3
)M
i
c
h
a
e
lL
.L
i
t
t
m
釦 : “Markovg
ames a
sa
色l
e
a
r
n
frameworkf
o
rm
u
l
t
i
a
g
e
n
tr
e
i
n
f
o
r
c
e
m
e
n
T
a
b
l
e1
1 πを用いたときの勝敗数
1 1 勝ち│負け│分け│
i
n
g
",P
r
o
c
.1
1もhI
n
t
e
r
n
a
t
i
o
na
1C
o
n
f
e
r
e
n
c
eon
│数" 3
6 I 1
8 I 2
6 I
│ % "4
5
.
0
0 I2
2
.
5
0 I3
2
.
5
0I
MachineL
e
a
r
n
i
n
g,
p
p
.
1
5
7
1
6
3,
USA,
J
u
l
y1
9
9
4
.
学習ステップ数=800
4
) 山田知明 t西山清:“ 1プレーヤーサッカーゲー
αd=0
.
9
9
5
1
2、 勾 =0
.
9
9
7
1
3
ムにおける戦略学習ヘ計測自動制御学会東北
α
)バ(
8,
a
)
j
T
a
b
l
e1
2 8
0
0ステップ時点での Q(8,
T= 0
.
1
0
0
T
a
b
l
e1
3 πを用いたときの勝敗数
│
1 勝ち│負け│分け│
│数" 3
4 I 1
9 I 27 I
│% 1
.4
2
.
5
0 I2
3
.
7
5 I3
3
.
7
5I
支 部 第2
2
8回研究集会, 2
2
8
1,2
0
0
6
.
。
。
Fly UP