...

修士論文 ユーザエクスペリエンスを向上させるための 強化学習を用いた

by user

on
Category: Documents
2

views

Report

Comments

Transcript

修士論文 ユーザエクスペリエンスを向上させるための 強化学習を用いた
NAIST-IS-MT1151214
修士論文
ユーザエクスペリエンスを向上させるための 強化学習を用いた行動最適化
朴 建
2013 年 9 月 18 日
奈良先端科学技術大学院大学
情報科学研究科 情報科学専攻
本論文は奈良先端科学技術大学院大学情報科学研究科に
修士 (工学) 授与の要件として提出した修士論文である.
朴 建
審査委員:
小笠原 司 教授
(主指導教員)
中村 哲 教授
(副指導教員)
高松 淳 准教授
(副指導教員)
山口 明彦 特任助教
(副指導教員)
ユーザエクスペリエンスを向上させるための 強化学習を用いた行動最適化∗
朴 建
内容梗概
人と日常生活空間を共有するロボットにとって人に質の高いサービスを提供す
ることは重要である. それを実現させるためにはユーザ一人ひとりの身体能力, 知
性に合わせてサービスを提供する必要がある.
本研究では, サッカーゲームような対戦ゲームを用いて人とロボットが対戦を
行う. そしてゲーム中に強化学習を用いてユーザのレベルに合わせてロボットの
行動を最適化し, それによる影響を確認する. 被験者実験でユーザのレベルに合
わせてロボットの行動を最適化し, 学習を行った結果, ユーザがゲームを更に楽し
んでいることを確認することができた.
キーワード
強化学習, 行動最適化
∗
奈良先端科学技術大学院大学 情報科学研究科 情報科学専攻 修士論文, NAIST-IS-MT1151214,
2013 年 9 月 18 日.
i
Behavior Optimization to Improve User
Experience Using Reinforcement Learning∗
Keon Park
Abstract
In order to provide quality services to humans, it is important for robots to be
able to share their workspaces with humans in daily life environments. To achieve
that, robots need to adapt those services to each user’s physical and intellectual
abilities.
In this thesis, I propose to optimize the robot’s behavior to suit the skills of
the user by using reinforcement learning. To test the proposed method, I make
a human subject play against a robot in a football-like game and evaluate the
optimization of the robot’s behavior. The experimental results show that an
optimized behavior of the robot to match the user’s skills allows the user to
increasingly enjoy playing the proposed game.
Keywords:
Reinforcement Learning, Optimization for Robot Behavior
∗
Master’s Thesis, Department of Information Science, Graduate School of Information
Science, Nara Institute of Science and Technology, NAIST-IS-MT1151214, September 18, 2013.
ii
目次
1. はじめに
1
2. 関連研究
3
2.1
システムに対する行動最適化
. . . . . . . . . . . . . . . . . . . .
3
2.2
人に対する行動最適化 . . . . . . . . . . . . . . . . . . . . . . . .
5
3. 強化学習によるユーザのレベルに合わせた行動獲得
7
3.1
強化学習の概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
3.2
TD 学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3.3
問題設定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.3.1
状態空間の構成 . . . . . . . . . . . . . . . . . . . . . . . .
12
3.3.2
行動空間の構成 . . . . . . . . . . . . . . . . . . . . . . . .
12
3.3.3
報酬の設計 . . . . . . . . . . . . . . . . . . . . . . . . . .
12
予備実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3.4.1
実験目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3.4.2
実験概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3.4.3
実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
3.4.4
本実験へ向けての課題 . . . . . . . . . . . . . . . . . . . .
16
3.4
4. 評価実験
17
4.1
実験目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
4.2
実験概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
4.3
実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
4.4
考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
5. おわりに
32
謝辞
33
参考文献
34
iii
図目次
1
Learning to score in a penalty kick [6] . . . . . . . . . . . . . . . .
4
2
The task of soccer dribble [8]
. . . . . . . . . . . . . . . . . . . .
4
3
Clothing-assistance robot [10] . . . . . . . . . . . . . . . . . . . .
6
4
A robot to play beach volleyball with human [11] . . . . . . . . .
6
5
The agent-environment interaction in reinforcement learning . . .
7
6
The task for playing soccer game with human . . . . . . . . . . .
11
7
The movement of robot in preliminary experiment . . . . . . . . .
15
8
The result of preliminary experiment . . . . . . . . . . . . . . . .
15
9
Experiment environment . . . . . . . . . . . . . . . . . . . . . . .
18
10
Condition 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
11
Condition 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
12
Result of Q1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
13
Result of Q2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
14
Result of total point . . . . . . . . . . . . . . . . . . . . . . . . .
27
15
Before learning in cond.1
. . . . . . . . . . . . . . . . . . . . . .
29
16
After learning in cond.1 . . . . . . . . . . . . . . . . . . . . . . .
29
17
Before learning in cond.2
. . . . . . . . . . . . . . . . . . . . . .
30
18
After learning in cond.2 . . . . . . . . . . . . . . . . . . . . . . .
30
19
Before learning in cond.3
. . . . . . . . . . . . . . . . . . . . . .
31
20
After learning in cond.3 . . . . . . . . . . . . . . . . . . . . . . .
31
表目次
1
List of parameter in preliminary experiment . . . . . . . . . . . .
14
2
List of parameter in preliminary experiment . . . . . . . . . . . .
19
3
Answer list of Q2 . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4
Answer No.10 of Q2 . . . . . . . . . . . . . . . . . . . . . . . . .
26
iv
1. はじめに
近年, ロボット技術の発展に伴い, 人とロボットが日常生活空間を共有し, 人と
ロボットが共存する社会への期待が高まっている. 製造ラインのような作業現場
を離れ, 人と共有する日常生活空間におかれるロボットはどのように振る舞うべ
きか, そしてどのように人と相互作用していくべきかを明らかにすることはロボッ
トに関する研究を行う上で重要な課題である. このような課題を解決するために
数多くの研究が盛んに行われている [1][2][3].
産業用のロボットの場合, ロボットのためにあらかじめ用意された空間におい
て一定のタスクを遂行するための動作を行う. 一方で人間と日常生活空間を共有
するロボットの場合はロボットのために設定されてない環境, 更にその環境内に
一人, もしくは多数の人たちが存在する環境において動作を行うこととなる. ま
た, ロボットは人間の動きによって発生する環境に対する付加的な変化も考慮し,
動作を行うことになるため, 環境や人間, そしてその変化に応じて適切な行動を行
うことは容易ではない. ロボットが対象となる環境, もしくは人間に対して適切
な行動を行うためには, ロボットは環境や人に合わせて, その行動を自ら改善して
いく必要がある.
本研究では, ロボットの行動をユーザの能力に合わせることによる影響を調査
し, 更にユーザに提供するロボットのサービスが「楽しい」, 「面白い」などの満
足感を与えることができるのかを確認することを目的とする. この目的を達成す
る技術として強化学習法 [4] があり, 本研究ではこの手法を用いることにする.
本研究ではサッカーゲームような対戦ゲームをタスクとして設定し, ゲームに
おけるロボットの行動をユーザのレベルに合わせて最適化を行う. 具体的にロボッ
トは強化学習の Q(λ)-learning [5] を用いてユーザと対戦を行う最中にユーザの
レベルに合わせて行動を取り, その行動方策を学習することで改善を行う.
ゲームにおいてロボットがユーザのレベルに合わせて行動を行った時に, ユー
ザは更にゲームを楽しんでいたことが確認できた. この結果からユーザの能力に
合わせたロボットの行動最適化により, ユーザエクスペリエンスの向上させる可
能性があると考えられる.
行動最適化に関連する先行研究としてはシステムに対する行動最適化と人に対
1
する行動最適化が行われている.
本論文は以下のような構成になっている. 第 2 章では, ロボットの行動最適化
に関連する先行研究として, システムに対する行動最適化と人に対する行動最適
化を行った研究について紹介する. 第 3 章では強化学習の概要と TD 学習につい
て説明し, 問題設定の詳細と予備実験の内容について述べる. 第 4 章では設定し
た問題を用いて実験を行い, 実験結果及び考察について述べる. 最後に第 5 章で
は本研究のまとめと課題, そして今後の展望について述べる.
2
2. 関連研究
本章では, 強化学習を用いた行動最適化を行った関連研究として, システムに対
する行動最適化と人に対する行動最適化を行った研究について紹介する.
2.1 システムに対する行動最適化
Todd ら [6] は, 従来のモデルベースの強化学習から更に改善を行った強化学習
アルゴリズムを用いてペナルティキックにおけるロボットの得点行動を獲得した.
ペナルティキックの場面において動きのないロボットのゴールキーパーを相手と
し, 得点を決めるためにキックの動作に対して最適化を行い, 得点を決めるの行動
を獲得した. Fig. 1 に行ったタスクの様子を示している.
秋山ら [7] は, サッカーゲームにおける基本的な技術である, 単体のロボットに
よるボール保持行動を強化学習を用いて獲得する研究を行った. RoboCup サッ
カー 2D シミュレーション環境においてボールを奪おうとする敵エージェントに
ボールを奪われないことを目指した行動獲得を行う. 敵エージェントとの 1 対 1
での環境においてボールを保持するエージェントのキック可能領域内でボールを
移動させながら, ボール保持行動を獲得することを示している.
Carvalho ら [8] は, サッカーゲームにおけるドリブル行動を強化学習を用いて
獲得する研究を行った. 敵エージェントとの 1 対 1 での環境においてドリブルタ
スクへの強化学習を適用し, ドリブル行動が獲得できることを示した. Fig. 2 に
ドリブルタスクの詳細を示している.
3
Fig. 1 Learning to score in a penalty kick [6]
Fig. 2 The task of soccer dribble [8]
4
2.2 人に対する行動最適化
大林ら [9] は, リハビリを支援するためのロボットトレーニングシステムを想定
し, 必要最低限の支援のみで高いトレーニング効果を果たすことを目的とした研
究を行った. 強化学習を用いて人のダーツ投げに対する動作を支援することでロ
ボットの行動最適化を行っている. 人がダーツを投げる際にロボットは人に対し
て必要最低限の力を加え, サポートすることで人の得点が向上したことが確認で
きた.
為井ら [10] は, 日常生活においてお年寄りや障害者を支援するためには最も基
本で, そして重要な支援活動になる着衣に注目し, それをロボットにより実現する
ための研究を行った. この研究では服のような非剛体の物を扱うことと支援対象
となる人の姿勢に支援の動きを適応する問題を解決する必要があった. それらの
問題を強化学習を用いてロボットの着衣支援動作を最適化し, 着衣支援を行うロ
ボットを開発した. Fig. 3 に開発されたロボットを示している.
辰野 [11] は人と共存するロボットに必要な基本機能を持ったロボットシステム
の開発を行った. その基本機能は「人間の言葉での指示で動く機能」, 「作業対
象の位置を測定し, アームを位置合わせする機能」, 「作業を運動学的・力学的に
記述し, 記述した通りにアームを制御する機能」, の 3 つである. これらの基本機
能を持ったロボットシステムを開発し, 人とビーチボールを打つデモンストレー
ションを通じて, 人と共存するロボットシステムの実現の可能性を示している. 実
際のデモでは, 人間の音声指示でコート内にある指定された色のビーチボールを
拾い, 高さ 2[m] のネットを介して, 人とビーチボールを打ち合ったのち, 人と握手
をするものとなっている. ボールプレーでのロボットは人が打ったボールに対し,
ボールの位置を確認して打ち返すような行動を行うことができた. Fig. 4 に開発
されたロボットを示している.
これらの研究から, 人間の動作や姿勢に対してロボットの行動を最適化し, その
行動の獲得ができたことを確認した. 今後, ロボットシステムに対するユーザエ
クスペリエンスを向上させるためには, 更に人間の能力に合わせてロボットの行
動を最適化していく行う必要があると考えられる.
5
Fig. 3 Clothing-assistance robot [10]
Fig. 4 A robot to play beach volleyball with human [11]
6
3. 強化学習によるユーザのレベルに合わせた行動獲得
本章ではユーザのレベルに合わせた行動最適化の手法として用いた強化学習に
ついて述べ, 強化学習を適用するための問題設定について説明する. 最後に問題
設定を用いて行った予備実験について述べる.
3.1 強化学習の概要
強化学習におけるエージェントは現在の環境の状態を観測し, 観測した状態に
対して一つの行動を行う. 状態と行動により環境は新たな状態に変化し, その変
化に応じて報酬をエージェントに与える. このような処理を繰り返して行い, エー
ジェントは与えられたタスクを遂行するための行動を学習する. このようにエー
ジェントと環境との間において相互作用を行うことが強化学習における基本的な
枠組である. 学習を行うエージェントと学習対象となる環境間における相互作用
は Fig. 5 に示し, その詳細な説明は以下となる.
• エージェントは時刻 t において環境の状態 st に応じ, 行動 at を行う.
• 行われたエージェントの行動により, 環境は s(t+1) の状態に変化し, その変
化に応じて報酬 rt がエージェントに与えられる.
• 時刻 t から t + 1 に進み, 以前の処理を繰り返す.
Fig. 5 The agent-environment interaction in reinforcement learning
7
強化学習の構成要素
強化学習は以下の 3 つの要素から構成される.
• 方策
方策はある時点でのエージェントの行動の決定方針である. 環境にお
いて観測した状態から可能な行動を選択する確率の写像である.
• 報酬関数 強化学習におけるエージェントの目標は最終的に受け取る報酬の総量
を最大化することである. このエージェントにとっての行動や状態の
良し悪しを決定するのが報酬関数である.
• 価値関数 エージェントがある状態にいることがどれだけ良いのか, もしくはある
状態においてある行動を行うことがどれだけ良いのかを評価する. 報
酬関数が即時的な意味合いで何か良いのかを表しているのに対し, 価
値関数は最終的に何が良いのかを表す.
環境のモデル化
強化学習理論では, 環境のダイナミックスをマルコフ決定過程 (Markov De-
cision Process: MDP) によってモデル化を行う. ここでは, 環境が持つ性質
であるマルコフ性とマルコフ決定過程について述べる.
• マルコフ性
確率過程の将来状態の条件付き確率分布が, 現在状態のみに依存し, 過
去のいかなる状態にも依存しない特性をマルコフ性という. 環境がマ
ルコフ性を持つことは将来の状態と報酬が現在の状態のみで決定され
ることになるため強化学習にとって重要である.
• マルコフ決定過程 (MDP)
マルコフ決定過程はエージェントが環境に作用するときの環境の振る
舞いをモデル化したものである. そして, マルコフ性を満たすような強
化学習問題がマルコフ決定過程であり, 以下に示すように環境のダイ
8
ナミックスを定義することができる.
′
Pr [st+1 = s , rt+1 = r|st , at ]
3.2 TD 学習
TD 学習の概要
TD 学習 (時間的差分学習; Temporal-Difference Learning) は, モンテカルロ
法と動的計画法 (Dynamic Programming) の考え方を組み合わせたものであ
る. 環境のダイナミックスのモデルを用いずに, 経験から直接学習すること
がモンテカルロ法と同様であり, 最終結果を持たずに他の推定値の学習結果
を一部利用し, 推定値を更新することが動的計画法と同様である. モンテカ
ルロ法では, 各時刻の報酬がわかるまで待ち, 価値観数 (V (st )) を更新する
ため, 評価関数の更新は以下のようになる.
V (st ) ← V (st ) + α [Rt − V (st )]
ここで Rt は時刻 t に対応する実際の収益値, α はステップサイズ・パラメー
タを表す. 一方 TD 法では, 次のステップを待つだけで, 価値観数を更新する.
V (st ) ← V (st ) + α [rt+1 + γ V (st+1 ) − V (st )]
Q(st ) ← V (st ) + α [rt+1 + γ V (st+1 ) − V (st )]
rt+1 + γ V (st+1 ) − V (st ) は, TD 誤差の形式となる.
Q(λ)-learning の概要
本研究に用いる強化学習の手法として Q(λ)-learning について説明する. Q-
learning [12] には適格度トレースという手法を適用した Q(λ)-learning とい
う学習手法がある. 適格度トレースは強化学習の基本的メカニズムの一つで
ある. ある状態 s において行動 a を取ることの適格度を示す. 現在の状態と行
9
′
動に対応する適格度トレース e(s, a) を 1 だけ増加させ, a∗ = argmaxa Q(s , a)
となる行動 a を選択した時に過去に経由したすべての状態行動対 (s, a) に対
しては割引率 γ とトレース減衰パラメータ λ の値で減衰値 γλ e(s, a) を
加えていく. 以下に Q(λ) のアルゴリズムを示す.
Q(λ)-learning のアルゴリズム
以下に Q(λ)-learning のアルゴリズムを示す.
Algorithm Q(λ)-learning
Q(s, a) を任意に初期化, すべての s, a に対して e(s, a) = 0 とする.
各エピソードに対して繰り返し:
s, a を初期化
エピソードの各ステップに対して繰り返し:
′
行動 a を取り, r, s を観測する
Q から導かれる方策 (例えば ε グリーディ) を用いて
′
′
s で取る行動 a を選択する
′
a∗ ← argmaxb Q(s , b)
′
′
(a の場合と最大値が等しいならば, a∗ ← a )
′
δ ← r + γ Q(s , a∗ ) − Q(s, a)
e(s, a) ← e(s, a) + 1
すべての s, a について:
Q(s, a) ← Q(s, a) + αδ e(s, a)
′
もし a = a∗ ならば, e(s, a) ← γλ e(s, a)
それ以外 e(s, a) ← 0
′
s ← s ;a ← a
′
s が終端状態であれば繰り返しを終了
10
3.3 問題設定
問題設定の概要
問題設定として, Fig. 6 に示すようにサッカーゲームようなゲームを用い
て人とロボットが対戦を行い, そのゲームの中でユーザの楽しさを向上させ
るロボットの行動獲得を行うこととする. ユーザの楽しさを向上させるの
ため, 本研究ではロボットの行動をユーザのレベルに合わせて行い, ユーザ
とロボットが拮抗した状態でゲームプレーを行うことが最もゲームに対す
るユーザの楽しさを向上させることであると考える.
システム環境
システム環境としては, ODE (Open Dynamics Engine) を使ったシミュレー
ション環境に強化学習のライブラリである SkyAI を用いて構成した. 前に
述べた Q(λ)-learning を本研究のタスクに適用するためには, ロボットの観
測できる状態, ロボットの選択できる行動, そしてロボットに与える報酬を
定義する必要があり, 以下にそれぞれについて詳しく述べる.
Fig. 6 The task for playing soccer game with human
11
3.3.1 状態空間の構成
状態空間の状態量としては, 以下の内容を選択した. RL ロボットは学習を行う
主体であり, Fig. 6 に示す赤いロボットとなる.
• RL ロボットの位置
• RL ロボットとボール間の相対位置
3.3.2 行動空間の構成
行動空間としては, 以下の内容として行動空間を構成した.
• 現在の位置から前に移動
• 現在の位置から前にランダムな角度に回転を行い, 前に移動
• 現在の位置から後ろに移動
• ボールの位置と水平的な位置を合わせる
• ボールの後ろに移動
そして本研究では, 行動選択の手法として Boltzmann 選択を用いる.
3.3.3 報酬の設計
本研究では, ゲームがスタートし, ごとに 1 つのエピソードとなる.
報酬関数として以下の 3 つを用意した.
• 報酬設計 1



 1 (ロボットの得点になった場合)
Reward =
−1 (ユーザの得点になった場合)


 0 (引き分けになった場合)
12
• 報酬設計 2
GoalR > GoalH の場合



 −1 (ロボットの得点になった場合)
Reward =
0 (ユーザの得点になった場合)


 1 (引き分けになった場合)
GoalR ≤ GoalH の場合



 1 (ロボットの得点になった場合)
Reward =
−1 (ユーザの得点になった場合)


 0 (引き分けになった場合)
GoalR : ロボットの得点数 GoalH : ユーザの得点数
引き分け : ユーザとロボットの両方が得点せずに 60 秒経過した場合
報酬設計 1 の詳細としては, 対戦ゲームを行う際にロボットの得点になった場
合は報酬として +1 を, ユーザの得点になった場合は罰則として −1 を与える. 得
点がなくてプレー時間が経過して「引き分け」になった場合は報酬を与えないこ
とにした. ゲームにおいてロボットがユーザから点を取りつづけるような行動を
獲得することを期待し, この報酬設計とした.
報酬設計 2 の詳細としては, GoalR が GoalH より大きい場合と GoalH が GoalR
より大きい, または同じ場合に分けて報酬関数の設計を行った. GoalR > GoalH
の時に更にロボットの得点になった場合は −1 を, 引き分けになった場合は +1 を
報酬として与える. GoalR ≤ GoalH の時に更にユーザの得点になった場合は −1
を, ロボットの得点になった場合は +1 を報酬として与える. この設計により, ロ
ボットはユーザに負けている時には点を決めるように行動し, 勝っている時には
引き分けにしていくような行動を獲得できることを期待している.
13
3.4 予備実験
3.4.1 実験目的
ユーザとロボットが拮抗した状態でゲームを行うことがゲームに対するユーザ
の楽しさを最も向上させることであると想定した. そこで, ゲームにおいては点差
が少なく, その状態を長く保つことが拮抗した状態でゲームプレーを行うことで
あると考えた. そのため, 点差を状態量として入れてユーザに合わせてゲームプ
レーをすることができ, それによる影響を調べることが予備実験での目的である.
3.4.2 実験概要
予備実験では, ゲームにおけるユーザとロボットの点差を少なく, そして長く保
つような状態を作るために点差を状態量として入れて学習を行い, 学習されたロ
ボットとのゲームプレーを行う.
実験環境
実験環境としては, 3.3 節の問題設定における環境を使い, シミュレーション
上において学習を行うこととなる.
実験条件
実験条件としては, 3.3 節の問題設定において設定した内容に加え, 点差を
状態量として状態空間の設定に入れることと報酬設計 2 を使うことにした.
そして, 設定したパラメータを Table. 1 に示す.
Table. 1 List of parameter in preliminary experiment
λ
0.9
γ
0.9
α
0.2
14
3.4.3 実験結果
ゲームプレー中のユーザとロボット間の点差を報酬設計と状態量として状態空
間に入れて学習を行った結果, ゲームプレーを行うことでゲームに対する楽しさ
が欠けてるようなロボットの動きを確認した. ゲームの開始後にボールに近づく
ことはあるが, ボールを触ることなく, 止まっているような動きを見せる. 以下の
Fig. 7 に実際のロボットの動きを示している. そして, Fig. 8 では予備実験での
学習結果となり, エピソード数による報酬の値の変化を示している.
Fig. 7 The movement of robot in preliminary experiment
Fig. 8 The result of preliminary experiment
15
3.4.4 本実験へ向けての課題
予備実験の結果, ゲームプレーの回数を重ねることでロボットの動きは明らか
に少なくなり, ユーザとしてゲームプレーを行うことが楽しくないことであると
確認できた. そのため, 本実験では点差を状態量から外すこととそして拮抗した
状態でユーザとゲームプレーができる相手をつくるため, 報酬関数の設定の切り
替えを行うこととした. そうすることでロボットのレベルが高くトレーニングさ
れた後, 報酬関数の設定の切り替えが行われた以降からはユーザのレベルに合わ
せてロボットの行動の最適化が行えると考えた.
本実験に向けて以下の変更を行う.
• 点差を状態量から外すことにする.
• 報酬関数の設定の切り替えを行い, 学習させることにする.
16
4. 評価実験
本章では, ユーザのレベルに合わせたロボットの行動最適化の有効性を示すた
めに実施した実験について述べる.
4.1 実験目的
予備実験では点差を状態量として入れ, 学習を行った. その結果, 学習によって
得られたロボットの行動はゲームに対するユーザの楽しさを向上させるには望ま
しくない動きであることが分かった. そのため, 実験ではユーザとのゲームにお
いて拮抗した状態を構築するために点差を状態量から外し, 報酬関数の設定を切
り替えて学習を行うこととした. 学習されたロボットがユーザに合わせてゲーム
プレーすることができ, ユーザの楽しさを変化させることができるのかを確認す
ることが評価実験の目的である.
4.2 実験概要
評価実験では, 実際に被験者がゲームを行い, その後アンケート調査を行う. 以
下に詳しい説明を述べる.
実験の環境
ゲームを行うために用意した 30 インチのディスプレイ, ゲームのコントロー
ラとしてのジョイスティック, そして対戦ゲームで構成されている. 実験は
実験者による説明, 5 分間の練習, ゲームとアンケート回答で構成されてい
る. 全 15 回の本ゲームとアンケート回答を行い, 5 回ごとに 2 分間の休憩を
取ることとした. Fig. 9 に実験環境の様子を示す.
ゲームのルール
被験者の場合はピンク色のボールがロボット側の赤い壁にあたることで被
験者の得点となり, ロボットの場合は被験者側の青い壁にボールがあたるこ
とでロボットの得点となる. 両方とも得点せずに 60 秒経過した場合は得点
には影響しない「引き分け」とする.
17
Fig. 9 Experiment environment
実験条件
• 実験条件 1
3.3 節の問題設定における報酬設計 1 の設定を使い, 500 回分のエピソー
ドで実験者によるトレーニングが行われたロボット
• 実験条件 2
実験条件 1 に 3.3 節の問題設定における報酬設計 2 へ設定を変え, 更に
500 回分のエピソードで実験者によるトレーニングが行われたロボッ
ト (合計 1000 回学習されたロボット)
• 実験条件 3
実験条件 1 に 3.3 節の問題設定における報酬設計 2 へ設定を変え, 学習
が始まるロボット
条件ごとに 5 回の本ゲームがランダムに行われるが, 毎回新たに学習が始ま
るのではなく, 条件ごとに被験者に合わせて累積された学習エージェントを
使うことにした. 累積された学習エージェント使い, 学習を行うことで被験
者に合わせて行うロボットの行動の変化やそれによる影響が更に明らかに
18
なると考えた. 以下の Fig.10 では実験条件 1 において実験者によるトレー
ニングを行った学習結果を示し, Fig.11 では実験条件 2 において実験者によ
るトレーニングを行った学習結果を示している. そして, 評価実験において
設定した学習パラメタを Table. 2 に示す.
Table. 2 List of parameter in preliminary experiment
λ
0.9
γ
0.9
α
0.8
19
Fig. 10 Condition 1
Fig. 11 Condition 2
20
実験の流れ
被験者は実験室に入り, 画面がよく見える席に座ってもらい, リラックスし
た状態で実験者による実験の説明を受ける. 実験の説明ではゲームのコン
トロールをするためのキーとその操作法, 説明後の練習中に確認しておくこ
とやアンケートに関する説明を行う.
説明後には, 5 分間の被験者による練習を行う. 練習ではディスプレイを見
ながらジョイスティックを持って練習用のゲームをプレーする. 練習におい
て被験者が確認することはジョイスティックを用いたゲームコントローラ
になれることとゲーム中に画面に表示されるユーザとロボットの得点状況
や 60 秒経過を示す「引き分け」の場合に表示される「Draw!」を確認しな
がらゲームプレーを行うこと, 最後に練習で行うゲームに対する楽しさが本
ゲームと比較する基準となることを認識することである.
本ゲームでは, ユーザ, もしくはロボットが先に 20 点を得点することで勝負
がつき, その時点でゲームは終了となる. また, 「引き分け」になった場合
はゲームが始まる最初の状態に戻り, ゲームを再開することにした. ただし,
ゲームごとに時間制限は設けてない. ゲーム終了後, 被験者にはアンケート
項目に対する回答をしてもらい, 回答後には再びゲームをプレーする準備を
してもらう. 全 15 回分のゲーム終了後に全体に対するアンケートの回答を
してもらうことで実験は終了となる. なお, 各条件に対して 5 回ずつ本ゲー
ムが行われ, 全体に対するゲームの順番はランダムに行った.
評価項目
今回の実験ではアンケート調査による評価を行った. アンケート設問項目
はゲームごとの終了後に回答を行う設問と全体の実験後に回答を行う設問
と構成されている. まず, ゲームごとの終了後に行うアンケート設問項目を
以下に示す.
• Q1:ゲームをプレーしてみて楽しかったか?
• Q2:Q1 の答えを選んだ理由は?
21
Q1 の設問に対しては 5 段階評価で回答してもらい, 「楽しかった」が 5 点
で「楽しくなった」が 1 点と点数をつけて評価を行った. Q2 の設問に対し
ては Table. 3 に示す 10 個の選択肢から Q1 の理由として該当する複数の選
択肢を回答してもらった.
次に全体の実験後に行う設問を以下に示す.
• Q3:ゲーム全体を通して感じたことやコメントなどがありましたら,
ご記入をお願いします.
• Q4:また, このゲームをプレーしたいと思いますか?
Q3 の設問ではゲームを行う時に感じた感想などを記入してもらった. Q4
の設問に対しては 5 段階評価で回答してもらい, 「プレーしたい」が 5 点で
「プレーしたくない」が 1 点と点数をつけて評価を行った.
対象となる被験者
本学に在学している 20 代の成人男性 10 名
Table. 3 Answer list of Q2
回答番号 回答内容 1
負けたから
2
勝ったから
3
ロボットが強かったから
4
ロボットが弱かったから
5
ロボットが同じぐらいの強さだったから
6
ロボットが適度な強さだったから
7
ロボットが手加減にしたように感じたから
8
ロボットが本気で戦っているように感じたから
9
自分が上達していると感じたから
10
その他
22
4.3 実験結果
各条件に対するゲームプレー回数ごとの Q1(楽しさの度合い) の平均を Fig. 12
に, 各条件に対する Q1 の答えを選んだ理由の頻度の平均を Fig. 13 に示している.
実験条件 1 での結果について
実験条件 1 では, 3.3 節の問題設定において述べた報酬設計 1 を使い, 更に
500 回分のエピソードを通して実験者によるトレーニングが行われたロボッ
トと被験者がゲームを行った. ゲームを行った結果, Fig. 12 に示しているよ
うにゲームの回数が増えることとは関係なく, 楽しさは普通 (3) を超えるこ
とはなかった. そのため, 全 5 回を通しての変化も少なかった. Q1 の結果と
なった理由を Q2 の結果から確認してみると「ロボットが強かったから」,
「負けたから」, 「ロボットが本気で戦っているように感じたから」の答え
が他より多かった.
実験条件 2 での結果について
実験条件 2 では, 実験条件 1 に 3.3 節の問題設定における報酬設計 3 へ設定
を変え, 更に 500 回分のエピソードで実験者によるトレーニングが行われた
ロボットと被験者がゲームを行った. Fig. 12 に示しているようにゲームの
回数が増えることで, その変化量は少ないが楽しさが増加した結果となった.
Q1 の結果のなった理由を Q2 の結果から確認してみると他との大きな差は
ないが, 「ロボットが強かったから」, 「ロボットが本気で戦っているよう
に感じたから」, 「ロボットが適度な強さだったから」の順に多かった.
実験条件 3 での結果について
実験条件 3 では, 実験条件 1 に 3.3 節の問題設定における報酬設計 2 へ設定
を変え, 学習が始まるロボットと被験者がゲームを行った. Fig. 12 に示し
ているようにゲームの回数が増えることで, その変化量は実験条件 2 の変化
量より大きく楽しさが増加した結果となった. Q1 の結果のなった理由を Q2
の結果から確認してみると, 「ロボットが強かったから」, 「ロボットが適
度な強さだったから」, 「ロボットが本気で戦っているように感じたから」
の順に多かった.
23
Fig. 12 Result of Q1
24
Fig. 13 Result of Q2
25
Table. 4 Answer No.10 of Q2
回答内容 1
もう少しで勝てそうだった
2
ロボットが攻めて来ない
3
急に攻めてきた
4
戦い方がズルく感じた
5
自分のレベルに合わせてくれるから
6
やりこみ要素を感じた
7
勝てそうで勝てないところ
8
ロボットの動きが等一性を感じないあたりが面白い
9
少しロボットが強すぎるように感じた
10 相手が更に強くなっている感じがした
11 ロボットと動きの読み合いをしているような感じがした
12 前回勝てたパターンに対して対応してきた
13 悔しくてもう一度やりたいと思ったから
14 苦労しながらも得点を入れられればやっぱり嬉しかったから
15 いい勝負してたとこがあった
26
Fig. 14 Result of total point
27
4.4 考察
アンケートの項目 Q1 に対する結果から実験条件 2 と実験条件 3 でゲームプレー
を行ったユーザの楽しさが最終的には向上したことを示している. 更にゲームご
とのロボットとユーザの得点の合計を見ると実験条件 2 と実験条件 3 において合
計点が向上していることが確認でき, 特にその変化は実験条件 3 の方が最も大きい
ことを示している. これはユーザのレベルに合わせてロボットが行動を行うこと
がゲームプレーにおけるユーザの楽しさに影響を与えたと考えられる. 特にユー
ザに対するロボットの行動として Fig. 15 と Fig. 16 に示している実験条件 1 の
学習前と学習後におけるロボットの動きと Fig. 17 と Fig. 18 に示している実験
条件 2 の学習前と学習後におけるロボットの動き, そして Fig. 19 と Fig. 20 に示
している実験条件 3 の学習前と学習後のロボットの行動を比較することで更に明
らかである.
今後の課題として本研究における結果は各ゲーム終了後のユーザによるアン
ケート結果となっているため, 更に定量的な評価を行うためにゲーム中における
ユーザの体の動きやコントローラを握る強さなどで結果取得を行うことも考えら
れる.
28
Fig. 15 Before learning in cond.1
Fig. 16 After learning in cond.1
29
Fig. 17 Before learning in cond.2
30
Fig. 18 After learning in cond.2
Fig. 19 Before learning in cond.3
31
Fig. 20 After learning in cond.3
5. おわりに
本研究では, サッカーゲームのような対戦ゲームをタスクとして設定し, ゲーム
を行う最中にロボットの行動をユーザのレベルに合わせることによる影響を実験
によって確認した. ユーザのレベルを考慮しない条件とユーザのレベルに合わせ
て行動の最適化を行う条件を用意し, 実験を行った結果, サッカーゲームにおいて
ユーザのレベルに合わせてロボットの行動を最適化した条件でユーザの楽しさが
向上したことが確認できた. この結果から, ロボットがユーザの能力に合わせて
行動を最適化することはユーザエクスペリエンスの向上させる可能性があると考
えられる.
本研究の課題としては, ユーザの楽しさに関する評価値をアンケートによって
取得している点が挙げられる. この課題を解決するためには, ゲーム中にコント
ローラを握る強さなどの定量的に評価可能な値をもって, ユーザの興奮や楽しさ
の度合いを測定する必要がある.
32
謝辞
本研究を遂行するにあたり, 貴重なご指導とご助言を賜りました本研究科の小
笠原司教授に深く感謝致します.
論文執筆にあたり,丁寧なご検討,ご教示をいただきました中村哲教授に深く
御礼申し上げます.
本研究の遂行, 論文執筆などにおいて多くのご助言,ご指導を頂きました本研
究科の高松淳准教授に深く感謝致します.
研究方針や論文執筆などの研究全般にわたり, 多くの適切なご助言とご指導を
頂きました本研究科の山口明彦特任助教に深く感謝致します.
研究会で多くのご助言,ご指導を頂きました本研究科の池田篤俊助教に深く感
謝致します.
研究会で多くのご助言,ご指導を頂きました本研究科の吉川雅博助教に深く感
謝致します.
事務処理の面で様々なサポートして頂きました本研究室秘書の大脇美千代氏に
深く感謝致します.
本研究の遂行にあたり, 様々な議論やご助言を頂いた先輩, そして様々な浦助に
動いてくださった後輩達には本当にお世話になりました. 最後に,長年の学生生
活を支えて頂いた両親,家族,そして友人達に深く感謝致します.
33
参考文献
[1] 萩田 紀博, 宮下 敬宏: “人とロボットの共生のための協創システム・プラッ
トフォーム”, 日本ロボット学会誌, vol.29, no.10, pp.871-874, 2011.
[2] 前田 英作, 南 泰浩, 堂坂 浩二: “人ロボット共生におけるコミュニケーショ
ン戦略の生成”, 日本ロボット学会誌, vol.29, no.10, pp.887-890, 2011.
[3] 今井 倫太: “ロボットとの信頼関係と振る舞い”, 日本ロボット学会誌, vol.29,
no.10, pp.894-897, 2011.
[4] Richard S. Sutton, Andrew G. Barto: “Reinforcement Learning: An Introduction,” MIT Press, Cambridge, MA, 1998
[5] J. Peng and R.J. Williams: “International multi-step Q-learning,” International Conference on Machine Learning, pp.226-232, 1994.
[6] Todd Hester, Michael Quinlan, Peter Stone: “Generalized Model Learning for Reinforcement Learning on a Humanoid Robot,” IEEE International
Conference on Robotics and Automation(ICRA 2010), pp.2369-2374, 2010.
[7] 秋山 英久、岡山 智彦、中島 智晴: “強化学習を用いたサッカーエージェント
のボール保持行動獲得”, 第 35 回人工知能学会 AI チャレンジ研究会, B201-1,
pp.1-6, 2012.
[8] Arthur Carvalho, Renato Oliveira: “Reinforcement learning for the soccer dribbling task,” IEEE Conference on Computational Intelligence and
Games(CIG), pp.95-101, 2011.
[9] 大林 千尋, 為井 智也, 柴田 智弘: “Assist-as-needed Robotic Training based
on Reinforcement Learning,” 第 30 回日本ロボット学会学術講演会, 2D3-3,
2012.
34
[10] Tomoya Tamei, Takamitsu Matsubara, Tomohiro Shibata: “Reinforcement
Learning of clothing assistance with a dual-arm robot”, 11th IEEE-RAS
International Conference on Humanoid Robots, pp.733-738, 2011.
[11] 辰野 恭市: “人とビーチバレーボールを打ち合うロボット”, 日本ロボット学
会誌, no.18, vol.5, pp.721-727, 2000.
[12] Christopher J.C.H. Watkins, Peter Dayan: “Technical Note:Q-Learning,”
Machine Learning, vol.8, pp.279-292. 1992.
35
Fly UP