マルコフゲームを用いた野球の試合シミュレーション

by user

on 28 марта 2017

Category: Documents

>> Downloads: 26

187

views

Report

Comments

Description

Download マルコフゲームを用いた野球の試合シミュレーション

Transcript

マルコフゲームを用いた野球の試合シミュレーション

𝐴 = {打撃, 盗塁, 犠打}
と定義し, 攻撃側の戦略のみを考える. 先攻, 後攻チームが
マルコフゲームを用いた野球の試合シミュレーション
戦略を選ぶことのできる状態の集合をそれぞれ𝑆0 , 𝑆1 と表す.
さらに, 状態𝑠でとることのできる全ての行動の集合を𝐴(𝑠)
とする. これより, マルコフ政策が定義できる.
A Simulation of Baseball Games by Markov Games
定義 2.1(マルコフ政策)
写像𝜋0 : 𝑆0 →𝐴は, 任意の𝑠 ∈ 𝑆0 に対して𝜋0 (𝑠) ∈ 𝐴(𝑠)ならば,
1.
制度設計理論（経済学）プログラム
先攻チームの (決定的)マルコフ政策と呼ばれる. 同様に, 写
11-18293 中村太一 Taichi Nakamura
指導教員松井知己 Adviser Tomomi Matsui
像𝜋1 : 𝑆1 →𝐴は, 任意の𝑠 ∈ 𝑆1 に対して𝜋1 (𝑠) ∈ 𝐴(𝑠)ならば, 後
はじめに
攻チームの (決定的)マルコフ政策と呼ばれる.
戦略𝑎を選んだときに起こりうる結果の集合を𝑋(𝑎)と定義す
2002 年にメジャーリーグのオークランドアスレチックス
る. 𝑎 ∈ 𝐴, 𝑠 ∈ 𝑆, そして𝑥 ∈ 𝑋(𝑎)に対して, 状態sで戦略𝑎を
が野球を数理分析するセイバーメトリクスという手法を取り
選んだときに, 結果𝑥が起こる確率を𝑝(𝑥|𝑠, 𝑎)と表す. 先攻,
入れた結果, 全 162 試合で 103 勝をあげた. 強いチームの構
後攻チームがそれぞれマルコフ政策𝜋0 , 𝜋1 を選んだとき, 𝑋𝑛
築はプレーオフ進出によるチケット収入など球団経営改善に
を初期状態𝑠0 から𝑛ステップ後の状態とすると, {𝑋𝑛 }はマルコ
貢献するだけでなく, 地域活性にもつながる. 本研究では日
フ連鎖になっている. さらに, 先攻, 後攻チームの状態𝑠にお
本プロ野球における実際のデータを用いて, 試合の勝率や進
ける勝率の期待値をそれぞれ𝑣0 (𝑠; 𝜋0 , 𝜋1 ), 𝑣1 (𝑠; 𝜋0 , 𝜋1 )と表す.
行を確認し, 戦力分析を行うことを目的とする.
先攻, 後攻チームのペイオフ関数𝜓0 , 𝜓1 : 𝑆𝑄 → {0,1}を
1 (λ > 0),
𝜓0 = {
0 (λ ≤ 0),
本研究では, チームの監督を, 自チームの勝率を最大化す
るプレイヤーとし, 野球の試合をマルコフゲームとしてモデ
𝜓1 = {
0
1
(λ ≥ 0),
(λ < 0),
ル化する. データスタジアム株式会社から貸与された 2012,
と定義する.
2013 年の実際のプロ野球データから打順最適化, 試合の各
状態𝑠で戦略𝑎を選び, 結果𝑥が起きたときの次状態𝑠′を
𝑠’ =𝑡(𝑠,𝑎,𝑥)
状態での最適戦略の計算, そして戦力変化の解析を行う.
先行研究として Kira and Inakawa (2014)がある. この研
と表す.
究では, マルコフゲームとして定義された野球の試合を, 後
定義 2.2(マルコフ完全均衡)
ろ向き帰納法を用いて取り扱っている. Kira and Inakawa
先攻, 後攻チームの(決定的)マルコフ政策の組(𝜋0∗ , 𝜋1∗ )が部分
では併殺打や犠牲フライが考慮されておらず, また計算実験
ゲーム完全均衡であるならば, (純粋戦略)マルコフ完全均衡
においては同一チームの対戦しか行っていない. 本研究では,
と呼ばれ, 任意のマルコフ政策𝜋0 , 𝜋1 と状態𝑠に対し,
併殺打や犠牲フライを考慮した上で, 異なるチームの対戦シ
ミュレーションを行う.
𝑣0 (𝑠; 𝜋0 , 𝜋1∗ ) ≤ 𝑣0 (𝑠; 𝜋0∗ , 𝜋1∗ ), 𝑣1 (𝑠; 𝜋0∗ , 𝜋1 ) ≤ 𝑣1 (𝑠; 𝜋0∗ , 𝜋1∗ )
を満たす.
定義 2.3(ゲームの値関数)
2.
(𝜋0∗ , 𝜋1∗ )をマルコフ完全均衡とし, 状態𝑠での先攻, 後攻チー
モデル
状態空間を𝑆とする. 本研究で用いるマルコフゲームの各
状態𝑠 = {ι, τ, ω, λ, r, 𝑏} ∈ 𝑆は次の変数から構成される.
ムの勝率𝑉0 (𝑠), 𝑉1 (𝑠)を,
𝑉0 (𝑠)=𝑣0 (𝑠; 𝜋0∗ , 𝜋1∗ ), 𝑉1 (𝑠)=𝑣1 (𝑠; 𝜋0∗ , 𝜋1∗ )
(1) ι ∈{1,2,…,12}: 現在のイニング.
と表す. 𝑉0 (𝑠), 𝑉1 (𝑠)をゲームの値関数という.
(2) τ={0,1}: イニングの表, 裏.
定理 2.1(ベルマン方程式)
(3) ω={0,1,2,3}: 現在のアウトカウント.
値関数𝑉0 , 𝑉1 と任意のマルコフ完全均衡(𝜋0∗ , 𝜋1∗ )は
(4) λ: 点差
(先攻チームの得点)−(後攻チームの得点).
(5) 𝑟={𝑟1 , 𝑟2 , 𝑟3 }: 走者の状況.
𝑟1 ={0,1,…,9}: 1 塁走者がいるときその走者の打順,
いないとき 0.
𝜓0 (𝑠)
𝑟2 ={0,1}: 2 塁走者がいるとき 1, いないとき 0.
𝑟3 ={0,1}: 3 塁走者がいるとき 1, いないとき 0.
(6) 𝑏 = {𝑏0 , 𝑏1 }: チームの打順の進み具合.
𝑏𝑖 ={1,…,9}: 𝑖=0 のとき先攻, 𝑖=1 のとき後攻.
上記の定義より, 1 試合あたり約 1800 万の状態が存在する.
試合終了の状態の集合𝑆𝑄 とする. 集合𝑆𝑄 は先攻チームの勝利,
後攻チームの勝利, 延長 12 回引き分け, そしてコールドゲー
ムの 4 つに分割される. 本研究では, 戦略空間を
(𝑠 ∈ 𝑆𝑄 ),
𝑉0 (𝑠)= max𝑎∈ 𝐴(𝑠) ∑𝑥∈𝑋(𝑎) 𝑉0 (𝑡(𝑠, 𝑎, 𝑥))𝑝(𝑥|𝑠, 𝑎)
∗
∗
∑
∗ (𝑠)) 𝑉0 (𝑡(𝑠, 𝜋1 (𝑠), 𝑥))𝑝(𝑥|𝑠, 𝜋1 (𝑠))
{ 𝑥∈𝑋(𝜋1
𝜓1 (𝑠)
𝑉1 (𝑠)=
{
(𝑠 ∈ 𝑆0 ),
(𝑠 ∈ 𝑆1 ),
(𝑠 ∈ 𝑆𝑄 ),
∑𝑥∈𝑋(𝜋∗ (𝑠)) 𝑉1 (𝑡(𝑠, 𝜋0∗ (𝑠), 𝑥))𝑝(𝑥|𝑠, 𝜋0∗ (𝑠))
(𝑠 ∈ 𝑆0 ),
max𝑎∈ 𝐴(𝑠) ∑𝑥∈𝑋(𝑎) 𝑉1 (𝑡(𝑠, 𝑎, 𝑥))𝑝(𝑥|𝑠, 𝑎 )
(𝑠 ∈ 𝑆1 ),
0
𝜋0∗ (𝑠) ∈ argmax𝑎∈ 𝐴(𝑠) ∑𝑥∈𝑋(𝑎) 𝑉0 (𝑡(𝑠, 𝑎, 𝑥))𝑝(𝑥|𝑠, 𝑎),
(𝑠 ∈ 𝑆0 ),
𝜋1∗ (𝑠)
(𝑠 ∈ 𝑆1 )
∈ argmax𝑎∈ 𝐴(𝑠) ∑𝑥∈𝑋(𝑎) 𝑉1 (𝑡(𝑠, 𝑎, 𝑥))𝑝(𝑥|𝑠, 𝑎),
の再帰式を満たす.
本研究では, 以下の仮定を設けた.
広島は犠打を用いずに攻撃をする方が勝率が高くなったが,
1. 凡打では, 打者も走者も進塁できない.
巨人の戦略では試合の終盤になるほど, 犠打または盗塁を選
2. 単打で 1 塁走者は, 3 塁まで進み, 2 塁, 3 塁走者は本塁に
ぶ状態が増えている. この理由は, 序盤では敵チームの攻撃
イニングが多く残っており, なるべく多くの点数をとる必要
生還する.
3. 二塁打, 三塁打で全ての走者が本塁に生還する.
があるためと思われる. また, 終盤には何点取れば勝利でき
4. 併殺打, 犠牲フライの存在を仮定する.
るかが判断しやすいため, 確実に点数をとれる戦略を選んで
5. 盗塁に成功した場合, 1 塁走者は 2 塁に進む.
いると考察できる. 日本ハム対オリックスでは, 犠打が用い
6. 盗塁に失敗した場合, 1 塁走者はアウトになる.
られる場面はなかった. 2013 年のパリーグの他の対戦でも, 0
7. 犠打に成功した場合, 走者は一つ先の塁に進み, 打者は
アウト 1 塁で犠打を使用する場面はなかった. 指名打者制度
のあるパリーグでは投手ほど打撃能力の劣る選手は打席に立
アウトになる.
8. 犠打に失敗した場合, 本塁に最も近い走者がアウトなり,
他の走者は一つ先の塁へと進む. 打者は 1 塁に残る.
たない. そのため, 0 アウト 1 塁での犠打は不要という結果
が出たと考えられる.
9. 代打, 代走は考慮しない.
3.3 戦力変化の影響
3.
2012, 2013 年各球団を打順最適化で求まった打順で対戦さ
計算実験
せた. 選択できる戦略に制限をかけたときの勝率変化に注目
3.1 打順最適化
2012, 2013 年の全 12 球団の打順最適化を, 最良移動選択
し, 打撃, 盗塁, 犠打の各戦略がどの程度強化されているの
による局所探索を用いて行った. 計算の際, 対戦相手は自チ
かを分析した. 例えば犠打による勝率差を求めたい場合には,
ームの適当な打順とし, その相手に対しての勝率を最大化す
打撃, 犠打を選べるときの勝率差から打撃しか選べないとき
るような打順を求めた. 予備的に, 他球団との対戦に対して
の勝率差を引いて求めた. 結果を表 3 に記す.
表 3 先攻 2012 楽天 vs 後攻 2013 楽天
も計算を行ったが, 結果は変わらなかった. 本研究では,
OPS (On-base Plus Slugging) という指標に注目した. これ
2012 楽天勝率
2013 楽天勝率
勝率差
選ぶ戦略
は出塁率と長打率の和で打者の能力を評価するもので, 値が
0.3909
0.5977
0.2068
打撃, 盗塁, 犠打
高いほどよい打者とされる. 2013 年パリーグの最適打順にお
0.3744
0.6092
0.2348
打撃
いて, OPS を打順ごとの平均で比較した結果を表 1 に記す.
0.3972
0.5879
0.1907
打撃, 盗塁
0.3702
0.6170
0.2468
打撃, 犠打
表1
2013 年パリーグにおける各打順の平均 OPS
1番
2番
3番
4番
5番
6番
7番
8番
9番
0.838
0.780
0.789
0.794
0.771
0.703
0.683
0.609
0.673
戦略による勝率差
打撃:
盗塁:
犠打:
0.2348
−0.0441
0.0120
その結果, 2013 年の楽天は打撃と犠打が強化されていること
が読み取れる. 打撃面では, 強打者が打順最適化で 1, 2 番に
1～4 番の OPS が高く, 7～9 番の OPS が低くなっており,
入ったことから, 中心打者としてチームを牽引したことが強
強打者が 1 試合で立つ打席数が少しでも多くなるようにして
化につながったと考えられる. 他の全ての球団でも打撃が強
いることが読み取れる.
化されていたが, これは選手の打撃能力向上だけでなく使用
球変更による影響も大きいと考えられる.
3.2 最適戦略
犠打の効果についての解析は, 多くの研究が行われている.
4.
結論と今後の課題
0 アウト 1 塁の場面で, どの戦略が最適戦略となっているか
本研究の分析により以下のことが導かれた.
をセリーグでは広島対巨人, パリーグでは日本ハム対オリッ
1.
強打者は上位打順に据える方がよい.
クスについて分析した. 結果を表 2 に記す.
2.
0 アウト 1 塁での犠打の重要性は低い.
3.
戦力変化の影響を考慮することで, 次シーズンの攻撃
表2
イニング
チーム
0 アウト 1 塁での最適戦略
打
盗
犠
撃
塁
打
チーム
力が強化されるかシミュレーションできる.
打
盗
犠
撃
塁
打
今後の課題としては, 進塁規則を細かくすることが挙げられ
1~3
2013 年
552
69
0
2013 年
378
109
1
る. 本研究では単打により 1 塁走者が 3 塁へ進塁できると仮
4~6
広島
646
83
0
巨人
531
162
36
定したが, 実際には 2 塁で止まるケースも多い. そこで, 単
7~9
458
190
0
454
218
57
打を打った際の 3 塁への進塁率を選手ごとに反映させること
10~12
312
174
0
223
209
54
により現実に近いモデルが構築できるだろう.
1~3
2013 年
345
276
0
2013 年
379
109
0
4~6
日本ハム
405
324
0
オリックス
534
195
0
参考文献
7~9
360
288
0
504
225
0
(1) Kira, A. and Inakawa, K., On Markov perfect equilibria
10~12
306
180
0
299
187
0
in baseball, TMARG Discussion Papers, 2014-03.