中央競馬のオッズに関する統計的分析

by user

on 28 марта 2017

Category: Documents

>> Downloads: 9

views

Report

Comments

Description

Download 中央競馬のオッズに関する統計的分析

Transcript

中央競馬のオッズに関する統計的分析

中央競馬のオッズに関する統計的分析
2003MM070 室梅秀平
指導教員：木村美善
はじめに
は下がっていくだろう。逆に、彼らが妥当と考えるオッズ
よりも暫定オッズが低い場合、その馬券は売れず、暫定
「競馬」とは競走馬が決められたコースをいかに早く走
オッズは上っていくだろう。そのように考えると、
「支持
破するかを競うスポーツであり、そのレース結果を予想
率」というものは「馬券購入者達が考えている勝率」に
するギャンブルでもある。ギャンブルとしての競馬では、
近づいていくと考えられる。
客はレースの結果を予想し、その予想に応じた馬券を買
うことでお金を賭ける。見事その予想が当たれば、馬券 3 分析方法
毎に決められたオッズに応じた払戻金を手にすることが
前述の通り、
「支持率」が「馬券購入者達が考えている
出来る。
勝率」を表すと考えれば、
「支持率」と「実際の勝率」の
「どの馬が勝つか」ということが事前に予想できれば、
関係を分析すれば「馬券購入者達の考えている勝率」と
競馬に負けることは無い。しかし、それは非常に困難で
「実際の勝率」との間のギャップを調べることが出来る。
ある。
「どの馬が最も勝つ確率が高いか」ならば予想する
しかし、各馬の「支持率」はそれぞれ分かっているのに
ことが可能かもしれない。しかし、最も勝つ確率が高い
対し、
「実際の勝率」は分からない。勝利したか敗北した
馬に賭けることが正解とは限らない。なぜならば、勝つ
かという結果のみが分かっている。
確率が高い馬ほどオッズが低いことが多いからだ。もし
そこで、分析方法としてロジスティック回帰分析を選択
8 割の確率で勝つ馬がいたとしても、オッズが 1.1 倍しか
した。
なければ損をする確率のほうが高い。
それならば、
「勝つ確率に比べてオッズが高い馬」を予 4 ロジスティック回帰分析
想することは出来ないだろうか。そこで、本研究では主
説明変数群 (x1 , x2 , ..., xn ) を用いて、確率のような範囲
にオッズについて分析を行い、オッズと実際の勝率の関
(0,1) の変数を説明しようとする場合、通常の重回帰分析
係を調べた。
では説明変数群の合成変数の取りうる値の範囲が (−∞
, ∞) となってしまうため、適当ではない。
2 オッズの決まり方
そこで、下式のように説明変数群の合成変数をロジス
日本の中央競馬のオッズは、パリミュチュエル方式
ティック関数にすることで、その値域を範囲 (0,1) に収め
(Parimutuel betting) と呼ばれる方法で決められている。
ることができる。(参考文献 [2] を参照のこと)
パリミュチュエル方式とは、賭け金の合計からまず胴元
の取り分を引き、その残りを配当金として当選者が分け
exp(β0 + β1 x1 + β2 x2 + ... + βn xn )
y=
合う方式である。
1 + exp(β0 + β1 x1 + β2 x2 + ... + βn xn )
全体の賭け金に対し、その馬に対して賭けられている
従属変数には勝敗を、説明変数には支持率を使用し、支
金額が多いほどオッズは小さくなり、逆にその馬に対し
持率によって勝敗を説明する形を基本とする。そして、説
て賭けられている金額が少ないほどオッズは大きくなる。
明変数に適当な変数を追加することで、その変数が支持
この「全体の賭け金に対して、その馬に賭けられた金額
率と勝敗の関係をどのように変化させるかを調べようと
の割り合い」をその馬の「支持率」と呼ぶ。各馬のオッ
考えた。
ズはその馬の支持率によって決定されるため、支持率が
分かればオッズは算出可能である。また、逆にオッズか 5 使用したデータ
ら支持率を算出することも可能である。具体的な計算式
競馬予想に詳細な情報は必須である。JRA(日本中央競
は次のようになる。(JRA ホームページ [1] より)
馬会) も色々と詳細なデータを提供しているし、インター
その馬の支持率を a、オッズを b として
ネット上で無料で手に入る分だけでも豊富なデータをそ
0.788
ろえることが可能である。
+ 0.1 = b
a
R や Excel への転記の容易さなどから、インターネッ
オッズの算出には支持率が使用されるが、最終的な支ト上の競馬情報サイト「netkeiba.com[3]」を選び、デー
持率は馬券の購入が締め切られるまで確定しない。しかタは主にそのサイトと JRA の公式ホームページ [1] から
し、締め切り前の時間帯であっても、その時の支持率か収集した。
ら暫定オッズが算出され、公表されている。馬券購入者
データは、2008 年に中央競馬において行われた全 3452
達は、その暫定オッズを参考にしながら購入馬券を検討レースとその出走馬延べ 50215 頭用意した。
することができるようになっている。
たいていの馬券購入者は、馬券を買うときにオッズを 6 分析例:1 番人気について
参考にしている。もし、彼らが妥当と考えるオッズより
例を兼ねて、
「1 番人気」という要素について分析を行っ
も暫定オッズが高い場合、その馬券は売れ、暫定オッズてみたい。まず、単純に「1 番人気」という要素のみを説
1
明変数としてロジスティック回帰分析を行う。なお、「1
番人気」は 1 番人気を 1、それ以外を 0 とするダミー変
数である。
表 1: 1 番人気についての分析結果 (1)
回帰係数標準偏差
t値
p値
定数項
-2.95582
0.02133 -138.60 <2e-16
1 番人気
2.25135
0.04199
53.61 <2e-16
***
***
武豊
表 3: 武豊についての分析結果
回帰係数標準偏差
t値
p値
-0.09397
0.10519 -0.893 0.372
騎手「武豊」という要素はあまり効いていない。次に、
全レースをクラスごと (新馬戦、未勝利戦、条件戦、オー
プン戦) に分けて、それぞれに同様の分析を行うと、それ
ぞれ以下のようになる。
分析結果を見ると、「1 番人気」は正の方向に強く効い
表 4: 武豊についての分析結果 (クラス別)
ている。「1 番人気」の馬はそうで無い馬に比べて勝率が
回帰係数標準偏差
t値
p値
武豊 (新馬)
-0.26162
0.34686 -0.754
0.451
高いという分析結果であるが、馬券購入者達が、最も勝
0.32204
0.17977
1.791 0.0732 .
武豊 (未勝利)
率が高いと考えている馬と考えているのが 1 番人気にな
武豊 (条件)
-0.20740
0.15666 -1.324
0.186
るため、実際の勝率も当然高い。本研究にて興味があるの
武豊 (オープン)
-0.62389
0.35039 -1.781 0.0750 .
は「その要素が勝率に影響を及ぼすか」ではなく、
「その
要素が支持率と勝率の関係にどのような影響を及ぼすか」
未勝利戦においては正の方向に効いているにも拘らず、
である。そこで、説明変数に「支持率」を取り入れる。オープン戦では負の方向に効いている。武豊騎手はオー
ロジスティック回帰分析では説明変数群をロジスティップン戦では実際の勝率より過剰な支持率となり易く、逆
ク変換して値域 (0,1) の確率変数の形とする。そこで、既に条件戦では支持率以上に勝ち易いと言える。
に確率変数の形である「支持率」は、ロジスティック変換
次に、レースを距離毎に分けて同様の分析を行う。
した後の形が確率変数の形を取るようにロジスティック
表 5: 武豊についての分析結果 (距離別)
関数の逆関数 (下式) で変換しておく。
支持率を a、変換後の支持率を A として
a
A = log
1−a
武豊 (短距離)
武豊 (マイル)
武豊 (中距離)
武豊 (長距離)
このように変換した「支持率」と、先程使用した「1 番
人気」を説明変数として、改めて分析を行ってみた。
表 2: 1 番人気についての分析結果 (2)
回帰係数標準偏差
t値
p値
定数項
0.02410
0.05635
0.428
0.6688
支持率
1.00721
0.02155 46.742 <2e-16
1 番人気 -0.09771
0.05837
-1.674
0.0941
***
.
先程と比較すると、「1 番人気」の回帰係数が正負逆転
している。あまり強くは無いが負の方向に効いていると
いうことは、1 番人気の馬は支持率に比べて勝率が低い、
または、実際の勝率に比べて支持率が高いという分析結
果となる。この場合、1 番人気の馬は人気が過大になりや
すく、オッズの割には勝率が低くなり易いと言える。
7
騎手に関する分析
本研究にて行ったいくつかの分析の内、最も影響が大
きかった「騎手」についての分析結果の一部をここに記
載する。
騎手の分析では、対象の騎手が乗った馬を 1、それ以外
の馬を 0 とするダミー変数を作成し、それを説明変数に
加えて分析を行う。中央競馬において、2008 年度のレー
スに騎乗した騎手は 247 人に上る。本研究では、この内
20 人に絞って分析を行ったが、ここでは 2008 年の最多
勝利騎手である「武豊」に絞る。なお、各分析結果にお
いて「定数項」と「支持率」の部分には大きな違いが無
い。そのため、紙面の節約のために以下では「定数項」と
「支持率」は割愛させて頂いた。
まず、全レースを対象に分析を行う。
回帰係数
-0.10645
-0.02889
-0.91606
0.27639
標準偏差
0.23140
0.13192
0.39017
0.38730
t値
-0.460
-0.219
-2.348
0.714
p値
0.645
0.827
0.0189
0.475
*
中距離 (1900m∼2100m) において、支持率が過剰にな
り易いという結果となった。この距離帯のレースには大
レースが多いことや、オープン戦についても同様に負の
方向に効いていたことから、武豊騎手は特に大きいレー
スにおいて過剰な支持率を得やすいと考えられる。
8
おわりに
実際の勝率に比べてオッズが高くなる状況があるとし
て、そのようなケースに該当する馬に賭け続ければ、仮
に的中率が低くてもトータルでプラスになるのではない
だろうか。
本研究はそのような考えから思い至ったものだが、実
際には、オッズが勝率より少し高いぐらいではプラスに
ならかった。競馬には約 25 ％の控除 (胴元の取り分) が
あるからである。
また、本研究において分析に用いた各要素を比べると、
騎手に関する要素の影響が大きい傾向にあった。騎手の能
力という要素について、馬券購入者達のイメージと実際
の騎手の実力に違いがあることが多いように感じられた。
参考文献
[1] JRA(日本中央競馬会) 公式ホームページ
http://www.jra.go.jp/index.html
[2] 中村永友著、金明哲編、「R で学ぶデータサイエンス
2 多次元データ解析法」、共立出版、2009
[3] 競馬予想サイト
http://www.netkeiba.com/
netkeiba.com