強化学習を用いたシミュレーションゲームの試作

by user

on 28 марта 2017

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download 強化学習を用いたシミュレーションゲームの試作

Transcript

強化学習を用いたシミュレーションゲームの試作

平成 22 年度電子情報通信学会東京支部学生会研究発表会
講演番号： 46
強化学習を用いたシミュレーションゲームの試作
D-20
Development of Simulation Games
Based on Reinforcement Learning
林　幸哉
Yukiya HAYASHI
片桐　郭順
伊與田　光宏
Hiroyuki KATAGIRI
Mitsuhiro IYODA
千葉工業大学　情報工学科
Department of Computer Science,Chiba Institute of Technology
3.シミュレーションゲーム
3.1 概要
時代背景を中世ヨーロッパとした、戦争シミュレー
ションゲームである。プレイヤー、コンピュータ共に
一つの国を持ち戦争を行う。
プレイヤー、コンピュータは周期的にターンがまわ
り、手番では消費フェイズと行動フェイズから、自ら
行うことを選択する。
１ターンを１年として、１ターンごとに当時の国民
増加率の平均に応じた国民の増加と、税という形で、
軍資金(以降、財力)が追加される。
このとき、病死や自然死などによる国民数の減少は
考慮しない。
勝利条件は、相手国の国民を０にするか、20 ター
ン経過時に国民数の多い方が勝ちとなる。
3.2 消費フェイズ・行動フェイズ
それぞれのフェイズは、次のような選択肢がある。
消費フェイズ
・軍備：50 人単位で軍人を増し、増やした軍人数に
応じて財力を消費する。
・防備：侵攻された際に補正を加える。防衛力を財力
に応じて増やす。防衛力の最大は 10 であり、それ
以上にならない。
行動フェイズ
・侵攻：相手国に攻撃を行う。侵攻するには財力が必
要である。
・労い：次ターン開始時に得る財力を増やす。
3.3 強化学習方法
互いの国民の差を報酬にし、50 人単位の軍人の数
を一つの状態として捉え、状態が確率的に推移した新
たな状態に応じて報酬を得る。
強化学習試行回数 (×500 回 )
2.強化学習
2.1 強化学習
強化学習とは、有限状態数のマルコフ決定過程とし
て定式化された環境内で、現在の状態から次に取るよ
り良い行動を決定する問題を扱う機械学習である。
2.2 マルコフ決定過程
マルコフ決定過程とは、環境が確率的に状態遷移す
るマルコフ過程を基に、描く状態に応じた報酬が得ら
れるようにしたモデルである。この遷移確率と報酬の
得られる確率は学習過程で学習する。
4.実験
4.1 実験内容
(1)プレイヤーをランダムに行い、コンピュータ側
がランダムに行った場合と、強化学習を行った場合で
の500回毎の平均勝率を導きだす。
(2)結果をもとにプレイヤーを変えながら10回ほど
ゲームを行い、それぞれの場合でコンピュータ側の勝
率を導き、ランダムと比べて強化学習の勝率が高いか
確認を行う。
4.2 実験結果
(1)の結果を図１に示す。線グラフは勝率の推移で
あり、ランダムに行った場合は四角で、強化学習を
行った場合はひし形である。棒グラフは戦争 500 回毎
に測定した強化学習を行った回数である。
確率 (%)
1.はじめに
本研究の目的は、強化学習を用いて、過去の結果か
ら、現在の状況に応じたより良いコンピュータ側の選
択肢を求めるシミュレーションゲームの試作である。
戦争回数 (×500 回 )
図 1. 500 回毎の勝率
図１から平均の勝率を求めた結果が表１である。表
２は(2)の結果であり、対人戦においてランダム行っ
た場合と比べて、強化学習を行った場合の勝率が高い
ことがわかる。
表 1. 500 回毎の勝率の平均
強化学習
ランダム
81%
48%
表 2. 対人戦におけるコンピュータ側の勝率
強化学習
ランダム
40％
10％
5.おわりに
本研究では、強化学習を用いてシミュレーション
ゲームの試作を行った。コンピュータ側は、表１と表
２から強化学習を行った場合の勝率が高いことから、
現在の状況に応じたより良い選択肢を求めることがで
きていると考えられる。
-46-
Copyright © 2011 IEICE