Comments
Description
Transcript
中央競馬のオッズに関する統計的分析
中央競馬のオッズに関する統計的分析 2003MM070 室梅秀平 指導教員:木村美善 はじめに は下がっていくだろう。逆に、彼らが妥当と考えるオッズ よりも暫定オッズが低い場合、その馬券は売れず、暫定 「競馬」とは競走馬が決められたコースをいかに早く走 オッズは上っていくだろう。そのように考えると、 「支持 破するかを競うスポーツであり、そのレース結果を予想 率」というものは「馬券購入者達が考えている勝率」に するギャンブルでもある。ギャンブルとしての競馬では、 近づいていくと考えられる。 客はレースの結果を予想し、その予想に応じた馬券を買 うことでお金を賭ける。見事その予想が当たれば、馬券 3 分析方法 毎に決められたオッズに応じた払戻金を手にすることが 前述の通り、 「支持率」が「馬券購入者達が考えている 出来る。 勝率」を表すと考えれば、 「支持率」と「実際の勝率」の 「どの馬が勝つか」ということが事前に予想できれば、 関係を分析すれば「馬券購入者達の考えている勝率」と 競馬に負けることは無い。しかし、それは非常に困難で 「実際の勝率」との間のギャップを調べることが出来る。 ある。 「どの馬が最も勝つ確率が高いか」ならば予想する しかし、各馬の「支持率」はそれぞれ分かっているのに ことが可能かもしれない。しかし、最も勝つ確率が高い 対し、 「実際の勝率」は分からない。勝利したか敗北した 馬に賭けることが正解とは限らない。なぜならば、勝つ かという結果のみが分かっている。 確率が高い馬ほどオッズが低いことが多いからだ。もし そこで、分析方法としてロジスティック回帰分析を選択 8 割の確率で勝つ馬がいたとしても、オッズが 1.1 倍しか した。 なければ損をする確率のほうが高い。 それならば、 「勝つ確率に比べてオッズが高い馬」を予 4 ロジスティック回帰分析 想することは出来ないだろうか。そこで、本研究では主 説明変数群 (x1 , x2 , ..., xn ) を用いて、確率のような範囲 にオッズについて分析を行い、オッズと実際の勝率の関 (0,1) の変数を説明しようとする場合、通常の重回帰分析 係を調べた。 では説明変数群の合成変数の取りうる値の範囲が (−∞ , ∞) となってしまうため、適当ではない。 2 オッズの決まり方 そこで、下式のように説明変数群の合成変数をロジス 日本の中央競馬のオッズは、パリミュチュエル方式 ティック関数にすることで、その値域を範囲 (0,1) に収め (Parimutuel betting) と呼ばれる方法で決められている。 ることができる。(参考文献 [2] を参照のこと) パリミュチュエル方式とは、賭け金の合計からまず胴元 の取り分を引き、その残りを配当金として当選者が分け exp(β0 + β1 x1 + β2 x2 + ... + βn xn ) y= 合う方式である。 1 + exp(β0 + β1 x1 + β2 x2 + ... + βn xn ) 全体の賭け金に対し、その馬に対して賭けられている 従属変数には勝敗を、説明変数には支持率を使用し、支 金額が多いほどオッズは小さくなり、逆にその馬に対し 持率によって勝敗を説明する形を基本とする。そして、説 て賭けられている金額が少ないほどオッズは大きくなる。 明変数に適当な変数を追加することで、その変数が支持 この「全体の賭け金に対して、その馬に賭けられた金額 率と勝敗の関係をどのように変化させるかを調べようと の割り合い」をその馬の「支持率」と呼ぶ。各馬のオッ 考えた。 ズはその馬の支持率によって決定されるため、支持率が 分かればオッズは算出可能である。また、逆にオッズか 5 使用したデータ ら支持率を算出することも可能である。具体的な計算式 競馬予想に詳細な情報は必須である。JRA(日本中央競 は次のようになる。(JRA ホームページ [1] より) 馬会) も色々と詳細なデータを提供しているし、インター その馬の支持率を a、オッズを b として ネット上で無料で手に入る分だけでも豊富なデータをそ 0.788 ろえることが可能である。 + 0.1 = b a R や Excel への転記の容易さなどから、インターネッ オッズの算出には支持率が使用されるが、最終的な支 ト上の競馬情報サイト「netkeiba.com[3]」を選び、デー 持率は馬券の購入が締め切られるまで確定しない。しか タは主にそのサイトと JRA の公式ホームページ [1] から し、締め切り前の時間帯であっても、その時の支持率か 収集した。 ら暫定オッズが算出され、公表されている。馬券購入者 データは、2008 年に中央競馬において行われた全 3452 達は、その暫定オッズを参考にしながら購入馬券を検討 レースとその出走馬延べ 50215 頭用意した。 することができるようになっている。 たいていの馬券購入者は、馬券を買うときにオッズを 6 分析例:1 番人気について 参考にしている。もし、彼らが妥当と考えるオッズより 例を兼ねて、 「1 番人気」という要素について分析を行っ も暫定オッズが高い場合、その馬券は売れ、暫定オッズ てみたい。まず、単純に「1 番人気」という要素のみを説 1 明変数としてロジスティック回帰分析を行う。なお、「1 番人気」は 1 番人気を 1、それ以外を 0 とするダミー変 数である。 表 1: 1 番人気についての分析結果 (1) 回帰係数 標準偏差 t値 p値 定数項 -2.95582 0.02133 -138.60 <2e-16 1 番人気 2.25135 0.04199 53.61 <2e-16 *** *** 武豊 表 3: 武豊についての分析結果 回帰係数 標準偏差 t値 p値 -0.09397 0.10519 -0.893 0.372 騎手「武豊」という要素はあまり効いていない。次に、 全レースをクラスごと (新馬戦、未勝利戦、条件戦、オー プン戦) に分けて、それぞれに同様の分析を行うと、それ ぞれ以下のようになる。 分析結果を見ると、「1 番人気」は正の方向に強く効い 表 4: 武豊についての分析結果 (クラス別) ている。「1 番人気」の馬はそうで無い馬に比べて勝率が 回帰係数 標準偏差 t値 p値 武豊 (新馬) -0.26162 0.34686 -0.754 0.451 高いという分析結果であるが、馬券購入者達が、最も勝 0.32204 0.17977 1.791 0.0732 . 武豊 (未勝利) 率が高いと考えている馬と考えているのが 1 番人気にな 武豊 (条件) -0.20740 0.15666 -1.324 0.186 るため、実際の勝率も当然高い。本研究にて興味があるの 武豊 (オープン) -0.62389 0.35039 -1.781 0.0750 . は「その要素が勝率に影響を及ぼすか」ではなく、 「その 要素が支持率と勝率の関係にどのような影響を及ぼすか」 未勝利戦においては正の方向に効いているにも拘らず、 である。そこで、説明変数に「支持率」を取り入れる。 オープン戦では負の方向に効いている。武豊騎手はオー ロジスティック回帰分析では説明変数群をロジスティッ プン戦では実際の勝率より過剰な支持率となり易く、逆 ク変換して値域 (0,1) の確率変数の形とする。そこで、既 に条件戦では支持率以上に勝ち易いと言える。 に確率変数の形である「支持率」は、ロジスティック変換 次に、レースを距離毎に分けて同様の分析を行う。 した後の形が確率変数の形を取るようにロジスティック 表 5: 武豊についての分析結果 (距離別) 関数の逆関数 (下式) で変換しておく。 支持率を a、変換後の支持率を A として a A = log 1−a 武豊 (短距離) 武豊 (マイル) 武豊 (中距離) 武豊 (長距離) このように変換した「支持率」と、先程使用した「1 番 人気」を説明変数として、改めて分析を行ってみた。 表 2: 1 番人気についての分析結果 (2) 回帰係数 標準偏差 t値 p値 定数項 0.02410 0.05635 0.428 0.6688 支持率 1.00721 0.02155 46.742 <2e-16 1 番人気 -0.09771 0.05837 -1.674 0.0941 *** . 先程と比較すると、「1 番人気」の回帰係数が正負逆転 している。あまり強くは無いが負の方向に効いていると いうことは、1 番人気の馬は支持率に比べて勝率が低い、 または、実際の勝率に比べて支持率が高いという分析結 果となる。この場合、1 番人気の馬は人気が過大になりや すく、オッズの割には勝率が低くなり易いと言える。 7 騎手に関する分析 本研究にて行ったいくつかの分析の内、最も影響が大 きかった「騎手」についての分析結果の一部をここに記 載する。 騎手の分析では、対象の騎手が乗った馬を 1、それ以外 の馬を 0 とするダミー変数を作成し、それを説明変数に 加えて分析を行う。中央競馬において、2008 年度のレー スに騎乗した騎手は 247 人に上る。本研究では、この内 20 人に絞って分析を行ったが、ここでは 2008 年の最多 勝利騎手である「武豊」に絞る。なお、各分析結果にお いて「定数項」と「支持率」の部分には大きな違いが無 い。そのため、紙面の節約のために以下では「定数項」と 「支持率」は割愛させて頂いた。 まず、全レースを対象に分析を行う。 回帰係数 -0.10645 -0.02889 -0.91606 0.27639 標準偏差 0.23140 0.13192 0.39017 0.38730 t値 -0.460 -0.219 -2.348 0.714 p値 0.645 0.827 0.0189 0.475 * 中距離 (1900m∼2100m) において、支持率が過剰にな り易いという結果となった。この距離帯のレースには大 レースが多いことや、オープン戦についても同様に負の 方向に効いていたことから、武豊騎手は特に大きいレー スにおいて過剰な支持率を得やすいと考えられる。 8 おわりに 実際の勝率に比べてオッズが高くなる状況があるとし て、そのようなケースに該当する馬に賭け続ければ、仮 に的中率が低くてもトータルでプラスになるのではない だろうか。 本研究はそのような考えから思い至ったものだが、実 際には、オッズが勝率より少し高いぐらいではプラスに ならかった。競馬には約 25 %の控除 (胴元の取り分) が あるからである。 また、本研究において分析に用いた各要素を比べると、 騎手に関する要素の影響が大きい傾向にあった。騎手の能 力という要素について、馬券購入者達のイメージと実際 の騎手の実力に違いがあることが多いように感じられた。 参考文献 [1] JRA(日 本 中 央 競 馬 会) 公 式 ホ ー ム ペ ー ジ http://www.jra.go.jp/index.html [2] 中村永友著、金明哲編、「R で学ぶデータサイエンス 2 多次元データ解析法」、共立出版、2009 [3] 競 馬 予 想 サ イ ト http://www.netkeiba.com/ netkeiba.com