...

強化学習を用いたシミュレーションゲームの試作

by user

on
Category: Documents
18

views

Report

Comments

Transcript

強化学習を用いたシミュレーションゲームの試作
平成 22 年度電子情報通信学会東京支部学生会研究発表会
講演番号: 46
強化学習を用いたシミュレーションゲームの試作
D-20
Development of Simulation Games
Based on Reinforcement Learning
林 幸哉
Yukiya HAYASHI
片桐 郭順
伊與田 光宏
Hiroyuki KATAGIRI
Mitsuhiro IYODA
千葉工業大学 情報工学科
Department of Computer Science,Chiba Institute of Technology
3.シミュレーションゲーム
3.1 概要
時代背景を中世ヨーロッパとした、戦争シミュレー
ションゲームである。プレイヤー、コンピュータ共に
一つの国を持ち戦争を行う。
プレイヤー、コンピュータは周期的にターンがまわ
り、手番では消費フェイズと行動フェイズから、自ら
行うことを選択する。
1ターンを1年として、1ターンごとに当時の国民
増加率の平均に応じた国民の増加と、税という形で、
軍資金(以降、財力)が追加される。
このとき、病死や自然死などによる国民数の減少は
考慮しない。
勝利条件は、相手国の国民を0にするか、20 ター
ン経過時に国民数の多い方が勝ちとなる。
3.2 消費フェイズ・行動フェイズ
それぞれのフェイズは、次のような選択肢がある。
消費フェイズ
・軍備:50 人単位で軍人を増し、増やした軍人数に
応じて財力を消費する。
・防備:侵攻された際に補正を加える。防衛力を財力
に応じて増やす。防衛力の最大は 10 であり、それ
以上にならない。
行動フェイズ
・侵攻:相手国に攻撃を行う。侵攻するには財力が必
要である。
・労い:次ターン開始時に得る財力を増やす。
3.3 強化学習方法
互いの国民の差を報酬にし、50 人単位の軍人の数
を一つの状態として捉え、状態が確率的に推移した新
たな状態に応じて報酬を得る。
強化学習試行回数 (×500 回 )
2.強化学習
2.1 強化学習
強化学習とは、有限状態数のマルコフ決定過程とし
て定式化された環境内で、現在の状態から次に取るよ
り良い行動を決定する問題を扱う機械学習である。
2.2 マルコフ決定過程
マルコフ決定過程とは、環境が確率的に状態遷移す
るマルコフ過程を基に、描く状態に応じた報酬が得ら
れるようにしたモデルである。この遷移確率と報酬の
得られる確率は学習過程で学習する。
4.実験
4.1 実験内容
(1)プレイヤーをランダムに行い、コンピュータ側
がランダムに行った場合と、強化学習を行った場合で
の500回毎の平均勝率を導きだす。
(2)結果をもとにプレイヤーを変えながら10回ほど
ゲームを行い、それぞれの場合でコンピュータ側の勝
率を導き、ランダムと比べて強化学習の勝率が高いか
確認を行う。
4.2 実験結果
(1)の結果を図1に示す。線グラフは勝率の推移で
あり、ランダムに行った場合は四角で、強化学習を
行った場合はひし形である。棒グラフは戦争 500 回毎
に測定した強化学習を行った回数である。
確率 (%)
1.はじめに
本研究の目的は、強化学習を用いて、過去の結果か
ら、現在の状況に応じたより良いコンピュータ側の選
択肢を求めるシミュレーションゲームの試作である。
戦争回数 (×500 回 )
図 1. 500 回毎の勝率
図1から平均の勝率を求めた結果が表1である。表
2は(2)の結果であり、対人戦においてランダム行っ
た場合と比べて、強化学習を行った場合の勝率が高い
ことがわかる。
表 1. 500 回毎の勝率の平均
強化学習
ランダム
81%
48%
表 2. 対人戦におけるコンピュータ側の勝率
強化学習
ランダム
40%
10%
5.おわりに
本研究では、強化学習を用いてシミュレーション
ゲームの試作を行った。コンピュータ側は、表1と表
2から強化学習を行った場合の勝率が高いことから、
現在の状況に応じたより良い選択肢を求めることがで
きていると考えられる。
-46-
Copyright © 2011 IEICE
Fly UP