...

中央競馬のオッズに関する統計的分析

by user

on
Category: Documents
59

views

Report

Comments

Transcript

中央競馬のオッズに関する統計的分析
中央競馬のオッズに関する統計的分析
2003MM070 室梅秀平
指導教員:木村美善
はじめに
は下がっていくだろう。逆に、彼らが妥当と考えるオッズ
よりも暫定オッズが低い場合、その馬券は売れず、暫定
「競馬」とは競走馬が決められたコースをいかに早く走
オッズは上っていくだろう。そのように考えると、
「支持
破するかを競うスポーツであり、そのレース結果を予想
率」というものは「馬券購入者達が考えている勝率」に
するギャンブルでもある。ギャンブルとしての競馬では、
近づいていくと考えられる。
客はレースの結果を予想し、その予想に応じた馬券を買
うことでお金を賭ける。見事その予想が当たれば、馬券 3 分析方法
毎に決められたオッズに応じた払戻金を手にすることが
前述の通り、
「支持率」が「馬券購入者達が考えている
出来る。
勝率」を表すと考えれば、
「支持率」と「実際の勝率」の
「どの馬が勝つか」ということが事前に予想できれば、
関係を分析すれば「馬券購入者達の考えている勝率」と
競馬に負けることは無い。しかし、それは非常に困難で
「実際の勝率」との間のギャップを調べることが出来る。
ある。
「どの馬が最も勝つ確率が高いか」ならば予想する
しかし、各馬の「支持率」はそれぞれ分かっているのに
ことが可能かもしれない。しかし、最も勝つ確率が高い
対し、
「実際の勝率」は分からない。勝利したか敗北した
馬に賭けることが正解とは限らない。なぜならば、勝つ
かという結果のみが分かっている。
確率が高い馬ほどオッズが低いことが多いからだ。もし
そこで、分析方法としてロジスティック回帰分析を選択
8 割の確率で勝つ馬がいたとしても、オッズが 1.1 倍しか
した。
なければ損をする確率のほうが高い。
それならば、
「勝つ確率に比べてオッズが高い馬」を予 4 ロジスティック回帰分析
想することは出来ないだろうか。そこで、本研究では主
説明変数群 (x1 , x2 , ..., xn ) を用いて、確率のような範囲
にオッズについて分析を行い、オッズと実際の勝率の関
(0,1) の変数を説明しようとする場合、通常の重回帰分析
係を調べた。
では説明変数群の合成変数の取りうる値の範囲が (−∞
, ∞) となってしまうため、適当ではない。
2 オッズの決まり方
そこで、下式のように説明変数群の合成変数をロジス
日本の中央競馬のオッズは、パリミュチュエル方式
ティック関数にすることで、その値域を範囲 (0,1) に収め
(Parimutuel betting) と呼ばれる方法で決められている。
ることができる。(参考文献 [2] を参照のこと)
パリミュチュエル方式とは、賭け金の合計からまず胴元
の取り分を引き、その残りを配当金として当選者が分け
exp(β0 + β1 x1 + β2 x2 + ... + βn xn )
y=
合う方式である。
1 + exp(β0 + β1 x1 + β2 x2 + ... + βn xn )
全体の賭け金に対し、その馬に対して賭けられている
従属変数には勝敗を、説明変数には支持率を使用し、支
金額が多いほどオッズは小さくなり、逆にその馬に対し
持率によって勝敗を説明する形を基本とする。そして、説
て賭けられている金額が少ないほどオッズは大きくなる。
明変数に適当な変数を追加することで、その変数が支持
この「全体の賭け金に対して、その馬に賭けられた金額
率と勝敗の関係をどのように変化させるかを調べようと
の割り合い」をその馬の「支持率」と呼ぶ。各馬のオッ
考えた。
ズはその馬の支持率によって決定されるため、支持率が
分かればオッズは算出可能である。また、逆にオッズか 5 使用したデータ
ら支持率を算出することも可能である。具体的な計算式
競馬予想に詳細な情報は必須である。JRA(日本中央競
は次のようになる。(JRA ホームページ [1] より)
馬会) も色々と詳細なデータを提供しているし、インター
その馬の支持率を a、オッズを b として
ネット上で無料で手に入る分だけでも豊富なデータをそ
0.788
ろえることが可能である。
+ 0.1 = b
a
R や Excel への転記の容易さなどから、インターネッ
オッズの算出には支持率が使用されるが、最終的な支 ト上の競馬情報サイト「netkeiba.com[3]」を選び、デー
持率は馬券の購入が締め切られるまで確定しない。しか タは主にそのサイトと JRA の公式ホームページ [1] から
し、締め切り前の時間帯であっても、その時の支持率か 収集した。
ら暫定オッズが算出され、公表されている。馬券購入者
データは、2008 年に中央競馬において行われた全 3452
達は、その暫定オッズを参考にしながら購入馬券を検討 レースとその出走馬延べ 50215 頭用意した。
することができるようになっている。
たいていの馬券購入者は、馬券を買うときにオッズを 6 分析例:1 番人気について
参考にしている。もし、彼らが妥当と考えるオッズより
例を兼ねて、
「1 番人気」という要素について分析を行っ
も暫定オッズが高い場合、その馬券は売れ、暫定オッズ てみたい。まず、単純に「1 番人気」という要素のみを説
1
明変数としてロジスティック回帰分析を行う。なお、「1
番人気」は 1 番人気を 1、それ以外を 0 とするダミー変
数である。
表 1: 1 番人気についての分析結果 (1)
回帰係数 標準偏差
t値
p値
定数項
-2.95582
0.02133 -138.60 <2e-16
1 番人気
2.25135
0.04199
53.61 <2e-16
***
***
武豊
表 3: 武豊についての分析結果
回帰係数 標準偏差
t値
p値
-0.09397
0.10519 -0.893 0.372
騎手「武豊」という要素はあまり効いていない。次に、
全レースをクラスごと (新馬戦、未勝利戦、条件戦、オー
プン戦) に分けて、それぞれに同様の分析を行うと、それ
ぞれ以下のようになる。
分析結果を見ると、「1 番人気」は正の方向に強く効い
表 4: 武豊についての分析結果 (クラス別)
ている。「1 番人気」の馬はそうで無い馬に比べて勝率が
回帰係数 標準偏差
t値
p値
武豊 (新馬)
-0.26162
0.34686 -0.754
0.451
高いという分析結果であるが、馬券購入者達が、最も勝
0.32204
0.17977
1.791 0.0732 .
武豊 (未勝利)
率が高いと考えている馬と考えているのが 1 番人気にな
武豊 (条件)
-0.20740
0.15666 -1.324
0.186
るため、実際の勝率も当然高い。本研究にて興味があるの
武豊 (オープン)
-0.62389
0.35039 -1.781 0.0750 .
は「その要素が勝率に影響を及ぼすか」ではなく、
「その
要素が支持率と勝率の関係にどのような影響を及ぼすか」
未勝利戦においては正の方向に効いているにも拘らず、
である。そこで、説明変数に「支持率」を取り入れる。 オープン戦では負の方向に効いている。武豊騎手はオー
ロジスティック回帰分析では説明変数群をロジスティッ プン戦では実際の勝率より過剰な支持率となり易く、逆
ク変換して値域 (0,1) の確率変数の形とする。そこで、既 に条件戦では支持率以上に勝ち易いと言える。
に確率変数の形である「支持率」は、ロジスティック変換
次に、レースを距離毎に分けて同様の分析を行う。
した後の形が確率変数の形を取るようにロジスティック
表 5: 武豊についての分析結果 (距離別)
関数の逆関数 (下式) で変換しておく。
支持率を a、変換後の支持率を A として
a
A = log
1−a
武豊 (短距離)
武豊 (マイル)
武豊 (中距離)
武豊 (長距離)
このように変換した「支持率」と、先程使用した「1 番
人気」を説明変数として、改めて分析を行ってみた。
表 2: 1 番人気についての分析結果 (2)
回帰係数 標準偏差
t値
p値
定数項
0.02410
0.05635
0.428
0.6688
支持率
1.00721
0.02155 46.742 <2e-16
1 番人気 -0.09771
0.05837
-1.674
0.0941
***
.
先程と比較すると、「1 番人気」の回帰係数が正負逆転
している。あまり強くは無いが負の方向に効いていると
いうことは、1 番人気の馬は支持率に比べて勝率が低い、
または、実際の勝率に比べて支持率が高いという分析結
果となる。この場合、1 番人気の馬は人気が過大になりや
すく、オッズの割には勝率が低くなり易いと言える。
7
騎手に関する分析
本研究にて行ったいくつかの分析の内、最も影響が大
きかった「騎手」についての分析結果の一部をここに記
載する。
騎手の分析では、対象の騎手が乗った馬を 1、それ以外
の馬を 0 とするダミー変数を作成し、それを説明変数に
加えて分析を行う。中央競馬において、2008 年度のレー
スに騎乗した騎手は 247 人に上る。本研究では、この内
20 人に絞って分析を行ったが、ここでは 2008 年の最多
勝利騎手である「武豊」に絞る。なお、各分析結果にお
いて「定数項」と「支持率」の部分には大きな違いが無
い。そのため、紙面の節約のために以下では「定数項」と
「支持率」は割愛させて頂いた。
まず、全レースを対象に分析を行う。
回帰係数
-0.10645
-0.02889
-0.91606
0.27639
標準偏差
0.23140
0.13192
0.39017
0.38730
t値
-0.460
-0.219
-2.348
0.714
p値
0.645
0.827
0.0189
0.475
*
中距離 (1900m∼2100m) において、支持率が過剰にな
り易いという結果となった。この距離帯のレースには大
レースが多いことや、オープン戦についても同様に負の
方向に効いていたことから、武豊騎手は特に大きいレー
スにおいて過剰な支持率を得やすいと考えられる。
8
おわりに
実際の勝率に比べてオッズが高くなる状況があるとし
て、そのようなケースに該当する馬に賭け続ければ、仮
に的中率が低くてもトータルでプラスになるのではない
だろうか。
本研究はそのような考えから思い至ったものだが、実
際には、オッズが勝率より少し高いぐらいではプラスに
ならかった。競馬には約 25 %の控除 (胴元の取り分) が
あるからである。
また、本研究において分析に用いた各要素を比べると、
騎手に関する要素の影響が大きい傾向にあった。騎手の能
力という要素について、馬券購入者達のイメージと実際
の騎手の実力に違いがあることが多いように感じられた。
参考文献
[1] JRA(日 本 中 央 競 馬 会) 公 式 ホ ー ム ペ ー ジ
http://www.jra.go.jp/index.html
[2] 中村永友著、金明哲編、「R で学ぶデータサイエンス
2 多次元データ解析法」、共立出版、2009
[3] 競 馬 予 想 サ イ ト
http://www.netkeiba.com/
netkeiba.com
Fly UP