Comments
Description
Transcript
ハッタリ戦略を取り入れた ポーカープレイングシステムの構築
筑波大学大学院博士課程 システム情報工学研究科修士論文 ハッタリ戦略を取り入れた ポーカープレイングシステムの構築 髙橋千晴 (知能機能システム専攻) 指導教官 鬼沢武久 2004 年 1 月 概要 本研究では不完全情報ゲームの例として「セブンカードスタッド」と呼ばれるポーカーを取り 上げ、対戦相手の傾向や人間プレーヤの「ハッタリ」を考慮しつつゲームをプレイするシステム を構築する。本研究で構築するポーカープレイングシステムはゲーム中の意思決定を優劣推定、 ドロップの判断、賭け金の決定、開くカードの決定の 4 つにわけて行う。これらに対戦相手の戦 略に応じて学習を行うためのルールの修正部を加え、実際に人間プレーヤと対戦できるプレイン グシステムの構築を行う。ポーカーゲームの複雑な状況を、手役が強い、弱い、賭け金が多い、 少ないといった言語表現を用いて把握できるようにするため、ファジィ理論を利用している。本 システムは優劣推定やドロップの判断、学習のためのファジィルールの修正をファジィ推論で行 う。本研究では特に、対戦相手の傾向に応じた優劣推定を行うために変形のファジィルールを採 用する。 本研究で構築するハッタリ戦略を取り入れたプレイングシステムでは、自分の手役が強い場合に も故意に弱く見せるように振る舞ったり、逆にシステムが劣勢の場合でも自分の手役を強く見せ ることで対戦相手に不安をいだかせるようなハッタリを扱う。また、対戦相手に応じてハッタリ を行うことができるようにするため、プレーヤがポーカーをプレイするときの特徴をタイト積極 的、タイト消極的、ルーズ積極的、ルーズ消極的の 4 種類に大別し、各特徴を分析するためにシ ミュレーション実験を行う。そして、ハッタリ戦略を取り入れたシステムと実際の人間プレーヤ が対戦を行い、実際の人間プレーヤにもシミュレーション実験で得た知見を用いれば人間プレー ヤの特徴をつかむことができることを示す。また、人間プレーヤとの具体的な対戦例を挙げ、シ ステムがハッタリで人間プレーヤの予想を欺いたり、逆に人間プレーヤがシステムのハッタリを 見破ったゲームについても示す。 目次 第1章 はじめに ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 3 第2章 セブンカードスタッドポーカーのルール ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 4 2.1 概要 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 4 2.2 本研究でのゲーム進行 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 4 2.3 ポーカーハンド ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 5 2.4 賭け金のリミット ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 6 第3章 システム構成 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 7 3.1 全体構成 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 7 3.2 優劣推定 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 8 3.2.1 優劣推定の流れ ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 8 3.2.2 相手手役の期待値に対するシステムの手役の強さ ・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 8 3.2.3 手役の強さの調整度 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 9 3.3 ドロップの判断 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 11 3.3.1 第 1 ターン~第 4 ターン ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 11 3.3.2 第 5 ターン以降 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・12 3.3.3 ポテンシャルの算出 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・13 3.4 開くカードの決定 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 13 3.4.1 システムが優勢であると判断した場合 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・13 3.4.2 システムが劣勢であると判断した場合 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・14 3.5 賭け金の決定 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 14 3.6 推論ルールの修正 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 15 3.6.1 傾向値の修正量の推論 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・15 3.6.2 傾向値の実際の変更量の推論 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・16 第4章 シミュレーション実験 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 18 4.1 目的 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 18 4.2 実験概要 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 18 4.2.1 システムへの特徴付け ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・18 4.2.2 実験手順 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・19 4.3 実験結果 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 19 4.3.1 傾向値推移グラフ ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・19 4.3.2 各モデルシステムとの対戦結果 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・20 4.3.3 シミュレーション実験のまとめ ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・36 第5章 被験者実験による評価 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 38 5.1 実験概要 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 38 5.2 実験結果 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 39 5.2.1 2 つのシステムの被験者に対する最終利得 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・39 5.2.2 ハッタリ事例 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・39 1 5.2.3 人間プレーヤの特徴の識別 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・42 おわりに ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 48 第6章 謝辞 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 参考文献 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 付録 A ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 付録 B ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 付録 C ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 2 49 50 51 52 52 第1章 はじめに ゲームに関する研究を大きく分けると、ゲーム理論[1]のようにゲームを数学的に取り扱う研究 と、実際に遊ばれているゲームのプログラムを開発する研究とがあり、どちらも広く行われてい る。そして後者に関する研究はチェスや将棋など完全情報ゲームを題材にしているもの[2][3]と、 コントラクトブリッジやポーカーなど不完全情報ゲームを題材にしているもの[4][5][6]とに分 けられる。完全情報ゲームの研究では、人間のトッププレーヤと互角に戦えるような強いコンピ ュータアルゴリズムが開発されてきている。それに対し不完全情報ゲームを題材にした研究では、 対戦相手のカードなど見えない情報が存在するため不確実な状況のもとで相手の手の強さなどを 推測せねばならず、強いアルゴリズムを開発することを難しくしている。このような不完全情報 を扱うゲームでは、ヒューリスティックスや相手の戦略の傾向や特徴といった情報も考慮しなが ら戦略決定をすることが必要になってくるため、勝敗の結果のみではなく、対戦状況に応じて妥 当な戦略を用いているのかどうかなどのシステムの行動分析を行う必要もある。 不完全情報ゲームの例としてセブンカードスタッドポーカー[7]を挙げ、対戦相手の傾向を意思 決定に反映できるプレイングシステムを構築した研究がある[8]。セブンカードスタッドポーカー は、ドローポーカーやテキサスホールドなど他のポーカーゲームよりもハッタリなど個人の戦略 が効果的に作用するという特徴がある。文献[8]のシステムでは人間プレーヤのハッタリを見抜い た事例がある一方で、システムから意図的に対戦相手にハッタリをきかせるということはできな かった。 「ハッタリ」は心理戦であり、対戦相手が人間プレーヤの場合にはハッタリが効果的に作 用することがある。人間プレーヤにとっては、ポーカーをする際にハッタリ戦略は常套手段であ る。そこで、本研究では文献[8]のシステムを拡張してハッタリも戦略として扱うことができるよ うにする[9]。これにより、人間からのハッタリを見抜くだけでなくシステムの方からも人間にハ ッタリをかけることのできる、より人間に近いゲームプレイングシステムを目指す。 本稿ではまず、第 2 章でセブンカードスタッドポーカーのルールを説明する。第 3 章でプレイ ングシステムの全体構造を示し、本システムで扱っているハッタリ戦略についても説明する。第 4 章ではハッタリ戦略を用いたプレイングシステムと 4 タイプの特徴付けをされたハッタリ戦略 を考慮しないシステムとでそれぞれシミュレーション対戦実験を行い、各対戦相手の戦略の特徴 について検討する。第 5 章ではシステムの評価のための被験者実験を行い、対戦結果やハッタリ の観察されたゲームについて考察を行う。そして第 4 章で得られた各タイプの対戦相手の戦略の 傾向が実際の人間プレーヤにも当てはまるかどうかの検討を行う。第 6 章ではまとめとして本研 究の結論と今後の課題を述べる。 3 第2章 2.1 セブンカードスタッドポーカーのルール 概要 ポーカーにはドローポーカーやテキサスホールドなどさまざまな種類があるが、本研究で扱う 「スタッドポーカー」には以下のような特徴がある。 1. 表向きのカードと裏向きのカードがある スタッドポーカーでは表向きに配られるアップカードと裏向きに配られるホールカードがあ る。アップカードはすべてのプレーヤが見ることができ、ホールカードは配られたプレーヤ だけが見ることができる。 2.ドロー(手札の交換)がなく、1 枚配られるごとにベッティングインターバルがある スタッドポーカーにはドロー(手札の交換)がないことも特徴で、カードを 1 枚配るたびに ベッティングインターバルを行う。ベッティングインターバルとはそれぞれのプレーヤがベ ット、ドロップのいずれかの戦術を決定する手番のことである。ベットとは賭け金をかける こと、ドロップとは自分の負けを認め、そのゲームにおいて自分が出した賭け金を放棄する ことである。 スタッドポーカーには多くのバリエーションがあるが、本研究ではスタッドポーカーのバリエ ーションの中の「セブンカードスタッド」と呼ばれるゲームを用いる。また本研究では、1)ゲー ムはシステムと対戦相手が 1 対 1 で行う、2)人間とシステムとが対戦を行う際には最初に戦術 を決定するプレーヤを人間に固定する、の 2 つの制約を設ける。 2.2 本研究でのゲーム進行 1. アンテ(参加料)の支払い ゲームに参加するプレーヤはアンテを支払う。アンテの額は 5 とする。 2. ディール 各プレーヤにホールカード 2 枚、アップカード 1 枚を配り、最初のベッティングインター バルを行う(図 2.1)。 3. 第 1 ベッティングインターバル 本研究で用いるルールでは最初に戦術を決定するプレーヤを人間プレーヤに固定している。 人間が戦術を決定した後は、交互に戦術を決定していく。ただし、各ベッティングインタ ーバルにおいてレイズは 1 回までとする。ベッティングインターバルではベットかドロッ プかを各プレーヤが決定する。ベットにもその種類ごとに名前がついており、オープン、 4 図 2.1 人間側から見たゲームの初期画面(上段:システムのカード、下段:人間のカード) コール、レイズがある。オープンとは各ベッティングインターバルにおいて最初にお金を 賭けること、コールとは相手が出した賭け金と同じ額になるように自分も賭けること、レ イズとは相手が出した賭け金を上回る金額を賭けることである。先攻と後攻の両プレーヤ の賭け金が同額になったらそのベッティングインターバルは終了となり、次のカードが配 られる。どちらかのプレーヤがドロップした場合は、ドロップしたプレーヤの賭け金とア ンテを相手のものとし、そのゲームを終了する。 4. 第 2~第 5 ベッティングインターバル 第 2~第 5 ベッティングインターバルは第 1 ベッティングインターバルと同様の手順でゲ ームを進める。第 2、第 3 インターバル終了後に配られる 5 枚目、6 枚目のカードはアップ カードとして、第 4 インターバル後の 7 枚目のカードはホールカードとして配られる。 5. 第 6、第 7 ベッティングインターバル 7 枚目のカードが配られた時点でドロップをどちらのプレーヤもしていなければ、ホール カードの中から相手に見せるカードを 1 枚選択する。選択したカードを双方のプレーヤが 同時に表向きにし、第 6 ベッティングインターバルが開始される(図 2.2)。これをくり返 し、残りのホールカードが 1 枚となる第 7 ベッティングインターバル終了の時点でどちら のプレーヤもドロップしていなければ、お互いに最後のホールカードを公開する(ショウ ダウン、図 2.3)。 2.3 ポーカーハンド 本研究では手役として弱い方から順に、ナッシング、ワンペア、ツーペア、スリーカード、ス トレート、フラッシュ、フルハウス、フォーカード、ストレートフラッシュ、ロイヤルストレー トフラッシュの 10 種を用いている。 同一の手役となった場合は、手役のカードの数字順位が高いプレーヤを勝ちとする。それぞれ 5 図 2.2 ホールカードをお互いに 1 枚開いた場面 図 2.3 ショウダウン のカードの順位は弱い方から 23456789TJQKA で決められ、スートには順位はない。手役、数字 順位がともに同一の場合は引き分けとする。 2.4 賭け金のリミット 賭け金の上限と下限を次のように定める。まず、賭け金の上限として、ポットリミット制を採 用する。ポットリミット制とは賭け金の上限をテーブル上に出ている賭け金の合計(ポット)と するルールである。賭け金の下限は、それぞれのベッティングインターバルにおいて最初に賭け るプレーヤは 1 とし、それ以降のプレーヤは直前のプレーヤがかけた額と同額以上とする。つま り、各ベッティングインターバルにおける 2 回目以降のベットは直前のプレーヤのベットと同額 以上を賭けなくてはならない。ただし、レイズは 1 回までとする。 6 第3章 3.1 システム構成 全体構成 ハッタリ戦略を取り入れたプレイングシステム全体の流れ図を図 3.1 に示す。図 3.1 の中に現 れている「ターン」とは、システムが優劣推定を行っているのが何回目のベッティングインター バルなのかを示す値である。ハッタリ戦略を取り入れたプレイングシステムは優劣推定、ドロッ プの判断、賭け金の決定、開くカードの決定、ルール修正の 5 つからなる。ゲーム中の実際の意 思決定は優劣推定、ドロップの判断、賭け金の決定、開くカードの決定、それぞれで行われる。 優劣推定部では、対戦相手の傾向を反映した推定を行うために、変形のファジィルールを用いた ファジィ推論によって推定を行う[8]。ドロップの判断部では優劣推定において劣勢と判断された ときのみドロップをするかどうかの判断を行う。賭け金の決定部では優劣推定の結果と賭け金の 額が弱い相関を持つように賭け金を決定する。開くカードの決定部では、自分が優勢である場合 にはなるべく弱く見せるように、劣勢であっても強いふりができそうな場合は強く見えるような カードを選択する。以上の一連の意思決定をベッティングインターバルごと(開くカードの決定 は第 5 ベッティングインターバル以降)に行う。ルール修正部では、一回のゲームが終了するご とに優劣推定で用いられているパラメータの修正量を計算し、過去 5 ゲームの記録を参照しなが らルールの修正を行う。ルールの修正によって対戦相手の傾向を反映した優劣推定を行うことが できるように学習をしていく。プレイングシステムは人間と 1 対 1 で対戦を行い、その個人ごと の傾向をつかんでいく。 ゲーム終了まで繰り返す ターン=1~5 賭け金の決定 優劣推定 ゲーム開始 ドロップの判断 の決定 開くカード ターン=6,7 ドロップする ターン<7 ゲーム終了 ルール修正 図 3.1 システムの流れ図 7 ターン=7 3.2 優劣推定 ポーカーは、相手と自分のカードの手役の強さを比較し、強い手役を持っているプレーヤが勝 ちとなるゲームである。セブンカードスタッドポーカーでは相手のカードの一部を見ることがで きるが、それだけでは自分の手役が相手の手役よりも強いのかどうかはわからない。そこで、ア ップカードや賭け金の額、ゲームの進行状況などから、自分の手役の強さが相手に比べて優勢な のか劣勢なのかを推定しなくてはならない。このような推定を本研究では優劣推定と呼ぶ。 3.2.1 優劣推定の流れ 優劣推定の流れを図 3.2 に示す。まず、アップカードの情報から相手手役の期待値に対するシ ステムの手役の強さを求める。次に、ファジィ推論を用いて賭け金やターンなど、状況ごとの相 手の傾向に応じた相手手役の期待値に対するシステムの強さの調整度を求める。最後に調整度に 応じてシステムの手役の強さの調整を行い、優劣推定とする。 推論の前件部の情報 手役の強さの調整度 相手手役の期待値に対する システムの手役の強さ 優劣推定値 ファジィ推論 賭け金 ターン 図 3.2 3.2.2 優劣推定の流れ図 相手手役の期待値に対するシステムの手役の強さ プレイングシステムの手番になったら、相手のホールカードに考えうるすべてのカードの組 み合わせを代入して全数探索を行い、対戦相手がどの手役を持っているか、それぞれの手役ごと にできている確率を調べる。それにより、相手手役の累積分布関数 F (x) を求める。2.2 節に示し たナッシングからロイヤルストレートフラッシュまでの 10 種の手役に、それぞれ 0 から 9 までの 点数を割り当て、対戦相手の手役の点数の期待値を計算する。まず、対戦相手の手役として可能 な手役が n 種あるとする。その n 種の手役の点数をそれぞれ s i (i = 1,2,.., n) とする。点数が s i であ る手役ができる確率を p1 ( s i ) と表現すると、対戦相手の手役の点数の期待値 hum _ expect は、 n hum _ expect = ∑ s i p1 ( s i ) (3.1) i =1 で求められる。 プレイングシステム自身の手役の点数は、システムが持つ全ての持ちカードがわかっているた め、一意に求まる。「相手手役の期待値に対するシステムの手役の強さ」を expect とし、これを 8 expect = F (com) − F (hum _ expect ) (3.2) で定める。ただし、 com はプレイングシステムの手役点数とする。この値が大きいほど、プレイ ングシステムの手役が優勢である可能性が大きいことになる。この値は手役の強さの調整を行う ファジィ推論によって調整され、調整後の値が最終的な優劣推定結果として出力される。なお、 調整後の優劣推定値は[-1,1]の範囲の値をとる。 3.2.3 手役の強さの調整度 手役の強さの調整を行うために、変形のファジィルールを用いたファジィ推論を行う。その際 のファジィルールを図 3.3、ファジィルールテーブルの例を表 3.1 に示す。手役の強さの調整度 の推論ルールの中に現れている「ターン」は、本研究で用いているポーカーのルールでは 1 から 7 の整数値を取るがここではこれを[0,1]に正規化して用いる。対戦相手の賭け金については、ポ ットで割ることによって[0,1]に正規化する。ルール中のそれぞれの条件に対するメンバーシップ 関数を図 3.4 に示す。 表 3.1 のファジィルールの後件部にはルールごとに傾向値というパラメータを設定している。 表中に tij (i = 1,2, j = 1,2,3) と示してある値がその傾向値である。傾向値は[0,100]の実数であり、対 戦相手の傾向に応じて調整を行う。傾向値が 50 より大きくなると Positive の影響が、50 より小さ ~ くなると Negative の影響がより強く出る。C = Middle, End についても表 3.1 と同様なファジィル ールを用意する(付録 A 参照)。なお、傾向値の初期値は 50 とする。 この変形ファジィルールを用いた推論方法について説明する。まず、現在の状況に適合したル ールの数を n とする。このとき、それぞれのルールの後件部を Positive か Negative のいずれかに 定めるとすると、2 n 通りの後件部の組み合わせが考えられる。各ルールの後件部は t ij / 100 の確率 で Positive をとり、1- t ij / 100 の確率で Negative をとる。このそれぞれの後件部の組み合わせを ck (k = 1,2,...,2 n ) とし、後件部の組み合わせが ck となる確率を p2 (ck ) と表す。 p2 (ck ) は組み合わせ が ck のときの後件部のそれぞれの傾向値をかけることによって算出される。例えば、現在の状況 に適合したルールが「序盤で相手の賭け金が少なく劣勢である」と「序盤で相手の賭け金が中額 で劣勢である」の 2 種類で、そのときの後件部が双方 Positive になる場合を考える。その場合は p 2 (c k ) = t11 * t12 で求められる。後件部の組み合わせを c k としたとき、Mamdani の方法[10]を用い、 重心法で非ファジィ化することで得られる推論結果を r (c i ) とする。変形のファジィルールを用い た推論の結果を infer とすると、推論結果は 2n infer = ∑ r (c i ) p 2 (c i ) (3.3) i =1 で求められる。変形ファジィルールを採用する理由は、後件部が確定しているファジィルールで は対戦相手に作戦が読まれてしまうためである。 このようにして求めた調整度を用いて、3.2.2 節によって求めた手役の強さの期待値を調整す る。調整は、人間プレーヤの実際の手役の点数を hum としたとき、 F (com) − F (hum) のとりうる 値の範囲を調べ、その範囲内で行う。F (com) は確定値が求まるので、そのときの値を p とすると、 F (hum) ∈ [0,1] より、 F (com) − F (hum) は[ p − 1, p ]の範囲をとる。 F (com) − F (hum _ expect ) を式 (3.4)によって相手の傾向やゲームの状況に応じた値へ調整し、[ p − 1, p ]の範囲内で相対的な優 劣推定値へ変更する。そして、調整後の値 result を最終的な優劣推定結果として出力する。なお、 result は[-1,1]の範囲の値となる。 9 expect + ( p − expect ) × infer (0 ≤ infer ≤ 1) result = (3.4) expect + {expect − ( p − 1)} × infer (−1 ≤ infer ≤ 0) 手役の強さの調整度の推論ルール If is “相手手役の期待値に対するシステムの手役の強さ ~ and “ポットで正規化した対戦相手の賭け金 is B ” ~ and “正規化したターン is C ” ~ then “手役の強さの調整度 is D ” ~ A :Weak, Strong ~ B :Few, Middle, Much ~ C :Early, Middle, End ~ D :Negative, Positive 図 3.3 表 3.1 ~ A” (図 3.4(a)) (図 3.4(b)) (図 3.4(c)) (図 3.4(d)) 手役の強さの推論ルール 後件部が確定していない変形ファジィルールテーブルの例(序盤) ~ B ~ D ~ C = Early _ game Positive t Negative 11 Positive t Negative 12 Positive t Negative 13 Strong Positive t Negative 21 Positive t Negative 22 Positive t Negative 23 -0.5 0 0.5 (a) 手役の強さ Few 1 End 0 0.2 0.4 0.6 0.8 1 (c) 正規化したターン 図 3.4 Middle 1 0.8 0.6 0.4 0.2 0 1 0.8 0.6 0.4 0.2 0 -1 -0.5 0 0.5 1 (d) 手役の強さの調整度 0 0.2 0.4 0.6 0.8 1 (b) 正規化した賭け金 Negative 優劣推定で用いるメンバーシップ関数 10 Much Membership value Membership value Membership value Strong Early Middle 1 0.8 0.6 0.4 0.2 0 Much Weak Weak 1 0.8 0.6 0.4 0.2 0 -1 Middle Membership value ~ A Few Positive 3.3 ドロップの判断 優劣推定の結果、劣勢と判断された場合のみドロップの判断のセクションに入る。プレイング システムにおけるドロップの判断の流れを図 3.5 に示す。 3.3.1 第 1 ターン~第 4 ターン 第 1 ターンから第 4 ターンでは、ベッティングインターバル後に配られる次のカードの良し悪し によって、優劣の推定が大きく変わる。そこで第 4 ターンまでは、劣勢の場合でもすぐにドロッ プするのではなくファジィ推論を行い、その結果と乱数を比較することでドロップするかどうか を判断する。ファジィ推論に用いるルールを図 3.6 に示し、ファジィルールテーブルを表 3.2、 メンバーシップ関数を図 3.7 に示す。表 3.2 に示したファジィルールテーブルは、 優勢 優劣 Not drop 推定 Yes Yes 劣勢 高いポテンシ ャルがあるか ? No Drop Yes ターン > 5? No ファジィ推論 No 相手の賭け金 ドロップする意図 ターン 図 3.5 ドロップの判断の流れ ドロップをする意図の推論ルール(第 4 ターンまで) If “ポットで正規化した対戦相手の賭け金 ~ and “正規化したターン is F ” ~ then “ドロップをする意図 is G ” ~ E :Few, Middle, Much ~ F :Early, Middle, End ~ G :ZO, PS1, PS2, PB1, PB2 図 3.6 is ~ E” (図 3.4 (b)) (図 3.4 (c)) (図 3.5) ドロップをする意図の推論ルール 11 乱数発生 乱数が意図を 越えたか? 表 3.2 ドロップ決定用ファジィルールテーブル ~ F ~ G ~ E E a rly M id d le End Few ZO PS1 PB1 M id d le ZO PS2 PB2 M uch ZO PS2 PB2 ZO PS1 PS2 PB1PB2 Membership value 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Intention to drop 図 3.7 ドロップの判断に用いるメンバーシップ関数 1. ゲームの序盤はかけることのできる額も小さいため劣勢という推定でもあまりドロップ はしない 2. ゲームの中盤では、相手の賭け金が多くなってきたらドロップする意図を少しもつ 3. ゲームの終盤で、劣勢という推定になった場合はドロップする意図を強く持つ という判断に基づいて構成されている。 Mamdani の方法を用いてファジィ推論を行い、重心法で非ファジィ化する。出力は[0,1]の範 囲の値をとる。この推論結果は、システムがどの程度ドロップをする意図があるかを示しており、 数値が大きいほどドロップをする意図が強いことになる。ドロップの判断は、賭け金の決定とは 異なり、ドロップをするかしないかの二者択一であるため、何らかの方法でどちらにするかを決 定しなくてはならない。本研究では、[0,1]の範囲の一様乱数を発生させ、その乱数が推論結果を 越えなかったらドロップをするものとする。 3.3.2 第 5 ターン以降 5 ターン目で 7 枚のすべてのカードが出そろい、そのゲームにおける手役が決まる。よって、 通常は 5 ターン目で劣勢ならばドロップをするというのが妥当な戦略であるが、相手に見えてい るアップカードによっては、ゲームを続行することでハッタリを行うことが可能な場合がある。 そこで、次に述べるポテンシャルの計算を行い、システムの手役を強く見せられるようなカード を持っている場合には、5 ターン目以降で劣勢であってもドロップをせずにハッタリをしてゲー 12 ムを続行することとする。 3.3.3 ポテンシャルの算出 自分のホールカードのうちある 1 枚を開いたと仮定し、残りのホールカードに考えられる全て のカードの組み合わせを代入することによって、見かけの手役の強さの期待値を算出する。本研 究ではこの期待値をポテンシャルと呼ぶ。ポテンシャルを求める際に、対戦相手の手役として可 能な手役が m 種あるとする。その m 種の手役の点数をそれぞれ u i (i = 1,2,..., m) とする。点数が u i で ある手役ができる確率を p 3 (u i ) とすると、対戦相手のポテンシャルを式(3.5)で求める。 m potential = ∑ u i p 3 (u i ) (3.5) i =1 このポテンシャルの計算を全てのホールカードをそれぞれ開いた場合について行い、実際の手役 の点数よりも 1.3 以上ポテンシャルの値が高い場合はドロップしないこととする。 3.4 開くカードの決定 第 6 ターンと第 7 ターンでは、お互いのプレーヤが自分のホールカードのうちから 1 枚を選択 し、そのカードを表にしてからベッティングインターバルを行う。そのため、どのカードを開く かの決定が重要になる。たとえば、自分が優勢である場合にも強いカードから見せていくか弱い ふりをするかなどの戦略がある。ハッタリを取り入れたプレイングシステムでは、開くカードの 決定においてもハッタリを考慮する。なお、本研究でのハッタリとはプレイングシステムが「対 戦相手よりもプレイングシステム自身の方が強い」と判断した場合にわざと弱く見えるカードを 開くことにより、相手を最後までドロップさせずに最終的にたくさんのポイントを得ようとした り、 「対戦相手よりもプレイングシステム自身の方が弱いのでは」と判断した場合でも相手に強く 見えるようなカードを見せて対戦相手にドロップを促すような戦略を指す。開くカードの決定手 順を図 3.8 に示す。 Yes 優勢 アップカードで手役が 完成しているか No 優劣推定 劣勢 実際の手役点数より も1.5点以上強く見える potentialがあるか 図 3.8 Yes No ランダムに選んで開く 一番弱く見えるカードを80%、 次に弱く見えるカードを20%の 確率で開く[ハッタリ] 一番強く見えるカードを開く[ハッタリ] ランダムに選んで開く 開くカードの決定の流れ図 3.4.1 システムが優勢であると判断した場合 優劣推定でプレイングシステム自身が優勢であると判断した場合には、まずシステムの手役が すでにアップカードで対戦相手に見えてしまっているかを調べる。システム自身の手役がすでに アップカードで完成して見えてしまっている場合は、乱数を用いてランダムに開くカードを決定 する。それに対し、ホールカードにシステムの手役のカードがまだ隠れている場合には、対戦相 13 手に悟られないようにそのカードは隠しておくことが一般的な戦略である。しかし、毎回手役に かかわりのない弱いカードから開いていたのでは、システムの戦略を対戦相手に見抜かれてしま う恐れがある。そのため、乱数を用いて 80%の確率でアップカードが一番弱く見せるため、ポテ ンシャルの最も低いカードを開き、残り 20%は次に弱く見せるように 2 番目に低いポテンシャル の値を持つカードを開くこととする。 3.4.2 システムが劣勢であると判断した場合 自分が劣勢であり、かつ相手から見ても明らかにシステムが弱いとわかるという状況ではハッ タリを行っても最終的に損失が大きくなるだけである。そこで、3.3.3 節のポテンシャル計算で 実際の手役の点数よりも 1.3 点以上高いポテンシャルを持っているカードがある場合のみ、ハッ タリ戦略としてその一番強く見えるカードを開く。そのようなカードがない場合には、開くカー ドはランダムに決定し、ドロップの判断部で必ずドロップをするようにする。 3.5 賭け金の決定 ポーカーのルールによって定められる賭け金の上限値は、2.4 節で述べたように各ベッティン グインターバルごとに異なってくる。そこで、システム自身の賭け金 C bet を式(3.6)で定める。た だし、 upper と lower はそれぞれのベッティングインターバルにおける賭け金の上限と下限とし、 a ∈ [0,1] とする。 C bet = lower + a (upper − lower ) (3.6) これにより、どのベッティングインターバルにおいてもパラメータ値 a を一つ選ぶことによって 賭け金を決定することができる。ただし、 C bet が整数とならない場合は小数点以下を切り捨てる ことで整数化する。 賭け金の決定は優劣推定の結果に応じて行うこととするが、常に優劣推定の結果と賭け金の額 が対応していたのでは、対戦相手にシステムの戦術を見抜かれる恐れがある。そのため、賭け金 の決定も優劣推定の結果のみからではなく、乱数を用いて不確定性を持たせる。優劣推定値 result を用いて、パラメータ a を式(3.7)より決定する。 a = 0.5 ∗ result + 0.5 + noise (3.7) ただし result は[-1,1]の値をとり、 noise は平均 0、分散 0.1 の正規乱数とする。計算結果が 1 以上 の場合と 0 以下の場合は、計算結果をそれぞれ 1、0 にする。 第 5 ターン以降に劣勢でハッタリをする場合は、実際の優劣推定値にかかわらずハッタリに見 えるような金額を賭けなければ相手に見抜かれてしまうため、式(3.7)の代わりに式(3.8)を用い てパラメータ a を決定する。 a = 0.5 ∗ ( potential ) + 0.5 9 (3.8) ただし、 potential は式(3.5)で求めた値である。また、ここで potential の値を 9 で割っているの は potential の値を正規化した手役点数にするためである。 14 3.6 推論ルールの修正 推論ルールの修正部では、優劣推定で用いられている手役の強さの調整度を求めるファジィル ールの中の傾向値を修正する。 3.6.1 傾向値の修正量の推論 1 ゲーム終わるごとに、傾向値の修正量を求める。修正は優劣推定を行った際に最も適合度の高 かったファジィルールに対して行うものとする。修正量を求めるためのファジィルールを図 3.9 に示し、傾向値の修正量を表すメンバーシップ関数とファジィルールテーブルをそれぞれ図 3.10、 表 3.3 に示す。 修正量の値は、優劣推定で推定したカードの強さと実際のカードの強さの差に応じて推論する。 表 3.3 のファジィルールは、 1. 優劣推定の推定値が実際の強さの値よりも低い場合は正の修正量を推論する 2. 優劣推定の推定値が実際の強さの値よりも高い場合は負の修正量を推論する。 3. 推定したカードの強さが実際のカードの強さと同じくらいの場合は修正しない という判断をファジィルール化したものである。 修正量の推論ルール ~ “優劣推定で推定したカードの強さ is H ” ~ and “実際のカードの強さ is I ” then “傾向値の修正量 is J~ ” If ~ ~ H , I : Weak , Strong (図 3.4(a)) ~ : N, Z, P (図 3.7) J 図 3.9 表 3.3 修正量の推論ルール 傾向値の修正量を求めるファジィルールテーブル ~ I ~ J ~ H Weak Strong Weak Z P Strong N Z 15 Membership value N 1 0.8 0.6 0.4 0.2 0 -10 Z -5 0 P 5 10 Quantity of modification 図 3.10 傾向値の修正量の推論に用いられるメンバーシップ関数 3.6.2 傾向値の実際の変更量の推論 1 ゲームごとの修正量を記録しておき、過去 5 回分の修正量と最新のゲームでの修正量を用い て傾向値の実際の変更量をファジィ推論によって推論する。最新の修正量だけで修正するのでは なく、5 回分の修正量の平均をあわせて考慮することによって、少し長い期間での対戦相手の傾 向をとらえる。この傾向値の変更により、対戦相手個人の状況ごとの傾向を学習していく。図 3.11 のファジィルールと表 3.4 のファジィルールテーブルは、 1. 修正量の 5 回分の平均値と最新値の修正量がともに正の値である場合には傾向値を増加させ る 2. 修正量の 5 回分の平均値と最新値の修正量ともに負の値である場合には傾向値を減少させる 3. 修正量の 5 回分の平均値と最新値の正負が逆であるような場合や、ともに 0 ぐらいである場 合は、ほとんど傾向値を変更しない という判断をルール化したものである。 傾向値の実際の変更量の推論ルール ~ “5 回分の修正量の平均 is K ” ~ and “最新の対戦の修正量 is L ” ~ then “傾向値の実際の変更量 is M ” If ~ ~ ~ K , L , M : N, Z, P (図 3.7) 図 3.11 傾向値の実際の変更量の推論ルール 16 表 3.4 傾向値の実際の変更量を決めるファジィルールテーブル ~ L ~ M ~ K N Z P N N N Z Z N Z P P Z P P 17 第4章 4.1 シミュレーション実験 目的 ハッタリは心理戦であるため、対戦相手の傾向や特徴を読み取りながら対戦相手ごとに合わせ た意思決定が重要である。そのためには対戦相手の特徴をつかむために必要なルールの発見が必 要になる。文献[11]では、人間プレーヤのプレイスタイルをタイト積極的、タイト消極的、ルー ズ消極的、ルーズ積極的の 4 つのタイプに分類している。 「タイト」とは、自分が劣勢であると 判断した場合にはドロップをするという堅実なタイプであり、それに対し「ルーズ」とは、自分 が劣勢であっても自分のハンドを過信してゲームを続行しがちなプレーヤであるとしている。ま た、「積極的」とは、自分が勝っている時には積極的にレイズをするプレーヤで、「消極的」とは 自分が勝っていても相手の出方を見てコールを頻繁にし、あまり自分から賭け金を上げてこない プレーヤを指す。そこで、プレイングシステムにこれらの特徴を付加したモデルシステムをそれ ぞれ作成し、シミュレーション実験を行う。ただし、同じ特徴のモデルシステムでも異なる戦略 をとると傾向が変わる可能性がある。そのためモデルシステムにはハッタリ戦略は取り入れずに、 それぞれの特徴ごとに 3 種類の戦略でプレイするモデルを用意する。3 種類のモデルとは、開く カードをランダムに決定する戦略、開くカードを強い順に決定する戦略、開くカードを弱い順に 決定する戦略を持ったシステムである。そして、それぞれの特徴と戦略を持つ各モデルシステム とハッタリ戦略を取り入れたプレイングシステムとで対戦を行う。このシミュレーション実験は 「プレイングシステムがそれぞれの対戦相手の特徴や傾向を読み取れるかどうかの検証」と、特 徴付けをしたモデルシステムに対する傾向値の推移を見ることにより、 「実際の人間プレーヤを 4 種類の特徴に大別するために適用できるようなルールの発見」を目的とする[12]。 4.2 実験概要 4.2.1 システムへの特徴付け プレイングシステムに文献[11]で述べられている 4 種類の特徴付けを行う。まず、システムの 特徴付けの方法として、 「タイト」なシステムには第 5 ターンで優劣推定値 result が負であれば、 必ずドロップをするという制約を設ける。それに対し、 「ルーズ」なシステムには特にドロップの ための閾値は設けず、3.3.2 節のファジィ推論の結果と乱数によってのみドロップを決定する。そ して、 「積極的」なシステムは 3.5 節で述べたようにパラメータ a を調整することによって勝って いる時には賭けられる金額の上限値一杯まで賭ける場合もあるのに対し、 「消極的」なプレーヤは コールを好むという特徴からあまり多額は賭けないように、賭ける金額の上限値を 0.7 ∗ upper ま でに制約をかける。プレイングシステム自身は基本的には上限まで賭け金を賭け、劣勢の場合に はドロップを強く考えるためタイト積極的モデルと言えるが、カードの状況によって劣勢時にも ゲームを続行しているのでハッタリをする際にはルーズの傾向も見られる。 18 4.2.2 実験手順 それぞれの特徴を持つモデルシステムとハッタリ戦略を取り入れたプレイングシステムとで 500 ゲームずつ対戦を行う。各モデルシステムとの対戦の際に配られるカードの種類、順番はす べて同一とし、途中でどちらのプレーヤもドロップすることなくショウダウンをすれば 248 勝 248 敗 4 分けになるデータを用いる。対戦はプレイングシステムが先攻の場合と、プレイングシステ ムが後攻の場でそれぞれ 500 ゲーム行う。先攻とは各ベッティングインターバルでベットまたは ドロップの意思決定を最初に行うプレーヤである。配布カードデータのそれぞれの手役の回数を 表 4.1 に示す。すべてのモデルシステムに「カードをいつも弱い順に開く戦略」 、「カードをいつ も強い順に開く戦略」、 「開くカードをランダムに決定する戦略」のそれぞれの戦略を持つ 3 種類 のシステムを作成し、ハッタリ戦略を取り入れたプレイングシステムと対戦させる。実験開始時 の所持ポイントはすべてのシステムで 100000 ポイントとし、実験中に所持金がマイナスになった 場合にもゲームオーバーはせずに 500 ゲーム続行するものとする。 表 4.1 配布カードデータの手役出現回数 先攻 ナッシング ワンペア ツーペア スリーカード ストレート フラッシュ フルハウス 4.3 後攻 75 237 122 24 16 13 13 91 210 114 22 36 14 13 実験結果 4.3.1 傾向値推移グラフ 図 4.1.1 から図 4.1.4、図 4.2.1 から図 4.2.4、図 4.3.1 から図 4.3.4 のグラフは、シミュレー ション実験でプレイングシステムが記録した 3 種類の戦略を持つ各モデルシステムの傾向値の推 移をグラフで示したものである。この傾向値の推移のグラフは、それぞれの賭け金、ターンのと きにハッタリ戦略を取り入れたプレイングシステムが全数探索で weak(劣勢である)と判断した 場合のファジィ推論に用いる傾向値の数値の推移と、strong(優勢である)と判断した場合のフ ァジィ推論に用いる傾向値の数値の推移を示している。また、グラフの横軸はゲーム数、縦軸は 傾向値の大きさを表す。グラフの見方として、傾向値が 50 の場合は全数探索の結果を調整しない ことを意味し、傾向値が小さくなるほど全数探索の結果を劣勢方向へ大きく、逆に、傾向値が大 きくなるほど優勢方向へ大きく調整することを意味する。たとえば、傾向値が 0 の場合は考えら れ得る最も低い優劣推定値へ、100 の場合は逆に最も高い値へ、それぞれ全数探索の結果を調整 することを意味する。さらに、 「傾向値推移グラフがあるタイプの傾向を示している」と言うには、 傾向値推移の次の点に注目しなければならない。グラフが上がったり下がったりして振動してい る場合には、アップカードから全数探索を行うことにより得られた相手プレーヤの手役の強さの 推定値よりも実際の相手の手役が強いときも弱いときもあることを意味する。したがってこの場 合は、そのゲームそのゲームでの手役に大きく依存しており、ある特定の傾向を持っているとは 必ずしも言えない。一方、単調増加や単調減少、または一定値で安定している状態は、毎回その ルールでは同じ方向に修正を行っていることから、そのプレーヤのある特定の傾向を示している と言ってよい。 例えば、図 4.1.1 は、タイト積極的という特徴付けがされ、開くカードをランダムに決定する 19 戦略を持つモデルシステムに対する傾向値推移のグラフである。図 4.1.1(c)のグラフは、相手の 賭け金が少額で、ターンが終盤の場合のグラフで、全数探索の結果がそれぞれ優勢(strong)の場 合と劣勢(weak)の場合の推移を示している。ここで、strong のグラフに注目すると、徐々に傾向 値が減少していることがわかる。これは、ハッタリ戦略を取り入れたプレイングシステムが優劣 推定で「自分は優勢だ」と思っても、実際のカードを見てみるとモデルシステムの手が全数探索 での推定値よりも強い手役であるために劣勢方向へ調整するように傾向値が下がっていることを 意味する。 本章では、各モデルシステムに対してこのような傾向が見られるようなルールに注目し、それ をもとにそれぞれのモデルの特徴をについて考察を行う。 4.3.2 各モデルシステムとの対戦結果 開くカードをランダムに決定する戦略を持つシステムと対戦した場合の実験結果として、ラン ダムにカードを開くシステムと対戦した場合のハッタリを戦略として取り入れたプレイングシス テムの最終損得、勝利数、劣勢時ハッタリ数その成功数、劣勢時ハッタリ成功率、優勢時のハッ タリ成功数、1 ゲームで 10000 ポイント以上が移動した多額移動ゲーム数と、特に多くのポイン ト(20000 ポイント以上)が移動した超多額移動ゲーム数を表 4.2 に示す。優勢時にショウダウ ンした回数とは、優勢時に弱いふりをすることで対戦相手をゲームの途中でドロップさせずにシ ョウダウンまで続行させ、最終的に大きな利得を得ることができたゲーム数を指す。 ハッタリ戦略を取り入れたプレイングシステムの最終損得については、プレイングシステムが 後攻時のタイトモデルシステム、先攻後攻両方の場合でのルーズモデルシステムに対して勝ち越 していることがわかる。タイトモデルシステムに対してプレイングシステムが先攻時に負け越し ている理由としては、多額移動、超多額移動の回数がタイトモデルシステムに比べルーズモデル システムに対しての方が多いことからもわかるように、タイトモデルシステムは劣勢な場合にす ぐにドロップをするために 1 ゲームで多額の利得を得ることが難しいことが挙げられる。それに 対し、ルーズモデルシステムは劣勢の場合でもゲームを続行してくることから、最終的にプレイ ングシステムが1ゲームで大きな利得を上げられることが多く、タイトモデルシステムとの対戦 に比べて最終利得が増えている。 次に、プレイングシステムの勝利数の観点では、最終損得ではルーズモデルシステムに対して の方が大きく勝ち越しているにもかかわらず、タイトモデルシステムに対しての方がルーズモデ ルシステムに対してよりもたくさんの勝利数をあげていることがわかる。これも、上述のように タイトプレーヤのドロップのしやすさに依存しているものといえる。劣勢時のハッタリの成功率 については、タイトモデルシステムに対しての方が高いことがわかる。これは、タイトモデルシ ステムは自分が負けていると判断した場合にはゲームを降りやすいので、ハッタリをかけやすい ということが理由として挙げられる。 次に、傾向値推移について述べる。図 4.1.1 から図 4.1.4 に示す傾向値推移の各図から、それ ぞれの特徴付けがされたモデルシステムについて以下のことがわかる。 タイト積極的モデル 金額を問わず、終盤の場合には、全数探索ではプレイングシステムが優勢の場合でも、実際には モデルシステムのハンドは全数探索による推定値よりも強い場合がほとんどである。これは、終 盤ターンでプレイングシステムが優勢であると判断しているグラフの縦軸の数値が徐々に下がっ ていることからわかる。また、序盤や中盤で少額の場合は全数探索による推定値よりも弱いこと が多い。逆に多額の場合には全数探索による推定値よりも強いことが多く、強い場合のみゲーム 20 終盤で残り、弱いときは前半少額を賭けておいてドロップをするというタイト積極的の傾向を読 み取ることが出来る。このことは先攻、後攻どちらの場合からも読み取れる。また、金額に関し ては少額から多額までまんべんなく賭けてきており、積極的な特徴があることがわかる。 タイト消極的モデル ターンを問わず多額を賭けてくることは少ないが、多額を賭けてくるときは、プレイングシステ ムの方が全数探索では優勢という場合でも、実際は全数探索による推定値よりもモデルシステム のハンドは強いことがわかる。また、終盤においては相手の金額を問わず、プレイングシステム の方が優勢の場合でも、モデルシステムの実際のハンドは全数探索による推定値よりも強い。序 盤、中盤で少額の場合は、全数探索での推定値よりも弱いことが多い。つまり、あまり多額を賭 けてくることはなく強い場合のみゲームに残るというタイト消極的の傾向を先攻、後攻のどちら からも読み取ることができる。 ルーズ積極的モデル 終盤でも少額や中額だと、全数探索での強さの推定値より強かったり弱かったりすることがある。 終盤でモデルシステムが多額を賭けてくる場合は、プレイングシステムが優勢である場合でも、 モデルシステムの実際のハンドは全数探索による推定値よりも強い。また、ターンを問わず、多 額を賭けてくるときはプレイングシステムが全数探索で優勢である場合でも、モデルシステムの ハンドは強いので、強いときはどんどん多額を賭け、少額の場合は全数探索による推定値よりも 弱いことが多い。全数探索による推定値よりも実際のハンドが弱い場合でも終盤までゲームに残 っていることがあるというルーズ積極的の傾向を読み取ることができる。 ルーズ消極的モデル 終盤でもモデルシステムの賭け金が少額の場合は全数探索の結果よりも弱いことが多いが、多額 を賭けてくる場合は全数探索での強さの推定値よりも強い。しかしながらグラフより、少額や中 額のルールに比べて多額ルールの使われている回数が少ないことがわかる。つまり、全数探索に よる推定値よりも弱くてもゲームの終盤に残っていることがあり、あまり多額は賭けずに様子を 見るルーズ消極的の傾向を読み取ることができる。 同様に、アップカードの強さが強くなる順にホールカードを開く戦略を持つシステムと対戦し た場合の実験結果とその傾向値推移の様子を表 4.3 と図 4.2.1 から図 4.2.4 に示す。 ハッタリシステムの最終損得については、先攻後攻両方の場合でのルーズモデルシステムに対 して勝ち越しているが、タイトモデルシステム相手には積極的、消極的を問わず先攻後攻ともに 負け越していることがわかる。タイトモデルシステムに対してプレイングシステムが負け越して いる理由としては、ランダムに開くカードを決定するモデルシステムとの対戦結果同様、劣勢時 にもゲームを続行してくるルーズモデルシステムに比べ、タイトモデルシステムは劣勢な場合に すぐにドロップをするために 1 ゲームで多額の利得を得ることが難しいことが考えられる。 プレイングシステムの勝利数の観点では、ランダムな戦略のモデルシステムと対戦した場合と 同様、最終損得ではルーズモデルシステムに対してのほうが大きく勝ち越しているにもかかわら ず、タイトモデルシステムに対してのほうがルーズモデルシステムに対してよりもたくさんの勝 利数をあげていることがわかる。これも、上述のようにタイトモデルシステムのドロップのしや すさに依存しているものといえる。 また、プレイングシステムの劣勢時のハッタリの成功率に関しては、ランダムに開くカードを 決定する戦略をもつモデルシステムより高い結果になっているが、これは、モデルシステムがい 21 つも一番強いカードを最初に開いてくるために、プレイングシステムが「自分の方が弱いだろう」 と思いながらも続けてみたら実はモデルシステムのほかのカードが思ったほど強くなかったため、 ということが成功の理由として考えられる。 傾向値推移については図 4.2.1 から図 4.2.4 の傾向値推移の各表から、開くカードをランダム に決定する戦略を持つモデルシステムと対戦した場合とほぼ同様の特徴が見られる。 次にカードを見かけの強さが弱くなる順に開く戦略を持つモデルシステムと対戦した場合の実 験結果とその傾向値推移の様子を表 4.4 と図 4.3.1 から図 4.3.4 に示す。 プレイングシステムの最終損得については、後攻のタイト消極的モデルシステムと、先攻後攻 両方の場合でのルーズモデルシステムに対して勝ち越しているが、そのほかのタイトモデルシス テムには負け越していることがわかる。タイトモデルシステムに対してプレイングシステムが負 け越している理由としては、ほかの2つの戦略を持つシステムとの対戦結果同様、劣勢時にもゲ ームを続行してくるルーズプレーヤに比べ、タイトモデルシステムは劣勢な場合にすぐにドロッ プをするために 1 ゲームで多額の利得を得ることが難しいことが考えられる。 プレイングシステムの勝利数の観点では、ほかの 2 つの戦略のモデルシステムと対戦した場合 と同様に、最終損得ではルーズモデルシステムに対してのほうが勝ち越しているにもかかわらず、 タイトモデルシステムに対してのほうがルーズモデルシステムに対してよりもたくさんの勝利数 をあげていることがわかる。これも、前述のようにタイトモデルシステムのドロップのしやすさ に依存しているものといえる。 次に、プレイングシステムの劣勢時のハッタリの成功率についてはタイト消極的モデルシステ ムとの対戦を除き、ほかの戦略を持つモデルシステムよりも低いことがわかる。これは、相手は いつも一番弱いカードを出してくるので、こちらが思っている以上にモデルシステムの手役が高 かったということが考えられる。 傾向値推移は図 4.3.1 から図 4.3.4 の各グラフで示されるように、開くカードをランダムに決 定する戦略、開くカードを強い順に決定する戦略の各モデルシステムとほぼ同様の特徴が見られ る。 表 4.2 TA TA_2 TP TP_2 LA LA_2 LP LP_2 各モデルシステムの実験結果(開くカードをランダムに決定する戦略) 本システム最終損得 本システム勝利数 劣勢時ハッタリ数 劣勢時ハッタリ成功数 優勢時にショウダウンした回数 多額移動 超多額移動 -120025 194 28 3 5 7 3 73253 359 39 6 7 28 9 -60616 192 32 2 9 7 1 20769 378 37 6 7 4 0 453283 145 43 3 58 58 27 132936 303 52 5 35 55 27 138520 148 49 3 64 31 10 144815 295 65 3 53 33 5 *表中左端は各モデルタイプ名を示す。 (TA:タイト積極的、TP:タイト消極的、LP:ルーズ消極的、LA:ルーズ積 極的)また、各タイプに_2 が記載されているものはハッタリ戦略を取り入れたプレイングシステムを後攻にした 場合で、タイプ名のみの場合は先攻にした場合) 22 表 4.3 TA TA_2 TP TP_2 LA LA_2 LP LP_2 各モデルシステムの実験結果(開くカードを強い順に決定する戦略) 本システム最終損得 本システム勝利数 劣勢時ハッタリ数 劣勢時ハッタリ成功数 優勢時にショウダウンした回数 多額移動 超多額移動 -19514 202 32 5 8 22 12 -17762 363 42 6 9 25 7 -115909 202 28 4 7 7 1 4364 370 49 6 9 4 1 468820 160 59 4 64 60 26 771337 300 50 5 63 82 43 138967 154 44 6 63 28 10 224218 301 78 7 62 41 13 *表中左端は各モデルタイプ名を示す。 (TA:タイト積極的、TP:タイト消極的、LP:ルーズ消極的、LA:ルーズ積 極的)また、各タイプに_2 が記載されているものはハッタリ戦略を取り入れたプレイングシステムを後攻にした 場合で、タイプ名のみの場合は先攻にした場合) 表 4.4 TA TA_2 TP TP_2 LA LA_2 LP LP_2 各モデルシステムの実験結果(開くカードを弱い順に決定する戦略のシステム) 本システム最終損得 本システム勝利数劣勢時ハッタリ数 劣勢時ハッタリ成功数 優勢時にショウダウンした回数 多額移動 超多額移動 -207149 185 28 2 6 15 6 17796 376 39 3 11 26 17 -29357 195 23 6 4 4 0 41640 380 36 4 13 7 2 150073 149 33 3 50 56 28 540625 306 58 3 53 76 44 96852 159 40 2 68 40 8 44143 293 75 5 46 21 5 *表中左端は各モデルタイプ名を示す。 (TA:タイト積極的、TP:タイト消極的、LP:ルーズ消極的、LA:ルーズ 積極的)また、各タイプに_2 が記載されているものはハッタリ戦略を取り入れたプレイングシステムを後攻にし た場合で、タイプ名のみの場合は先攻にした場合) 23 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 0 100 200 300 400 500 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 (c)賭け金:少額、ターン:終盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 weak strong 0 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (f)賭け金:中額:ターン:終盤 weak strong 0 weak strong 0 (e)賭け金:中額、ターン:中盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (d)賭け金:中額、ターン:序盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.1.1 タイト積極的モデルの傾向値推移(開くカードをランダムに決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 24 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 0 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (c)賭け金:少額、ターン:終盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (e)賭け金:中額、ターン:中盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 weak strong 0 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (f)賭け金:中額:ターン:終盤 weak strong 0 weak strong 0 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (d)賭け金:中額、ターン:序盤 weak strong 0 weak strong 0 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.1.2 タイト消極的モデルの傾向値推移(開くカードをランダムに決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 25 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 0 100 200 300 400 500 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 (c)賭け金:少額、ターン:終盤 100 90 80 70 60 50 40 30 20 10 0 (e)賭け金:中額、ターン:中盤 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (f)賭け金:中額:ターン:終盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (d)賭け金:中額、ターン:序盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.1.3 ルーズ積極的モデルの傾向値推移(開くカードをランダムに決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 26 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 0 100 200 300 400 500 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 (c)賭け金:少額、ターン:終盤 100 90 80 70 60 50 40 30 20 10 0 (e)賭け金:中額、ターン:中盤 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (f)賭け金:中額:ターン:終盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (d)賭け金:中額、ターン:序盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.1.4 ルーズ消極的モデルの傾向値推移(開くカードをランダムに決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 27 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 0 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 200 300 400 200 300 400 300 400 500 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 500 weak strong 0 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 200 (f)賭け金:中額:ターン:終盤 weak strong 100 100 weak strong 0 (e)賭け金:中額、ターン:中盤 0 500 100 90 80 70 60 50 40 30 20 10 0 500 100 90 80 70 60 50 40 30 20 10 0 400 (d)賭け金:中額、ターン:序盤 weak strong 100 300 weak strong 0 (c)賭け金:少額、ターン:終盤 0 200 100 90 80 70 60 50 40 30 20 10 0 500 100 90 80 70 60 50 40 30 20 10 0 100 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.2.1 タイト積極的モデルの傾向値推移(開くカードを強い順に決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 28 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 0 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 200 300 400 200 300 400 300 400 500 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 500 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 200 (f)賭け金:中額:ターン:終盤 weak strong 100 100 weak strong 0 (e)賭け金:中額、ターン:中盤 0 500 100 90 80 70 60 50 40 30 20 10 0 500 100 90 80 70 60 50 40 30 20 10 0 400 (d)賭け金:中額、ターン:序盤 weak strong 100 300 weak strong 0 (c)賭け金:少額、ターン:終盤 0 200 100 90 80 70 60 50 40 30 20 10 0 500 100 90 80 70 60 50 40 30 20 10 0 100 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.2.2 タイト消極的モデルの傾向値推移(開くカードを強い順に決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 29 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 0 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 (c)賭け金:少額、ターン:終盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (f)賭け金:中額:ターン:終盤 weak strong 0 weak strong 0 (e)賭け金:中額、ターン:中盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (d)賭け金:中額、ターン:序盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.2.3 ルーズ積極的モデルの傾向値推移(開くカードを強い順に決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 30 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 0 100 200 300 400 500 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 (e)賭け金:中額、ターン:中盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 weak strong 0 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (f)賭け金:中額:ターン:終盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (d)賭け金:中額、ターン:序盤 weak strong 0 weak strong 0 (c)賭け金:少額、ターン:終盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.2.4 ルーズ消極的モデルの傾向値推移(開くカードを強い順に決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 31 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 0 100 200 300 400 500 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 (c)賭け金:少額、ターン:終盤 100 90 80 70 60 50 40 30 20 10 0 (e)賭け金:中額、ターン:中盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 weak strong 0 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (f)賭け金:中額:ターン:終盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (d)賭け金:中額、ターン:序盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.3.1 タイト積極的モデルの傾向値推移(開くカードを弱い順に決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 32 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 0 100 200 300 400 500 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 (c)賭け金:少額、ターン:終盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (f)賭け金:中額:ターン:終盤 weak strong 0 weak strong 0 (e)賭け金:中額、ターン:中盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (d)賭け金:中額、ターン:序盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.3.2 タイト消極的モデルの傾向値推移(開くカードを弱い順に決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 33 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 0 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 (c)賭け金:少額、ターン:終盤 100 90 80 70 60 50 40 30 20 10 0 (e)賭け金:中額、ターン:中盤 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (f)賭け金:中額:ターン:終盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (d)賭け金:中額、ターン:序盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.3.3 ルーズ積極的モデルの傾向値推移(開くカードを弱い順に決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 34 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 0 (a)賭け金:少額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 (c)賭け金:少額、ターン:終盤 100 90 80 70 60 50 40 30 20 10 0 (e)賭け金:中額、ターン:中盤 100 90 80 70 60 50 40 30 20 10 0 weak strong 0 100 200 300 400 500 (g)賭け金:多額、ターン:序盤 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (f)賭け金:中額:ターン:終盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (d)賭け金:中額、ターン:序盤 weak strong 0 weak strong 0 100 200 300 400 500 100 90 80 70 60 50 40 30 20 10 0 100 200 300 400 500 (b)賭け金:少額、ターン:中盤 weak strong 0 weak strong 100 200 300 400 500 (h)賭け金:多額、ターン:中盤 weak strong 0 100 200 300 400 500 (i)賭け金:多額、ターン:終盤 図 4.3.4 ルーズ消極的モデルの傾向値推移(開くカードを弱い順に決定する戦略) *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 35 4.3.3 シミュレーション実験のまとめ カードをどのような順番で開くかの戦略にかかわらず、各特徴を付加したシステムから以下 のことがわかる。 1.タイトモデルシステムよりもルーズモデルシステムに対しての方が、ドロップをする回数が 少ないためにプレイングシステムが優勢時に多額を得やすいため、利得をあげやすい 2.タイトモデルシステムはドロップをしやすいため、勝利数はルーズモデルシステムと比較し てタイトモデルシステム相手の方が多くあげられる傾向にある 3. ハッタリの成功率は、各モデルシステムで大差がない 4.ルーズモデルシステムはタイトモデルシステムに比べドロップをする割合が少ないため、シ ョウダウンでのプレイングシステムの勝利数はルーズシステムに対しての方が多い 5. ルーズモデルシステムが相手の場合は多額移動や超多額移動が多い 6. ルーズモデルシステムはタイトモデルシステムに比べ、終盤ターンでの発火数が多い(終盤ル ールの発火回数で F 検定を行い分散を調査した後、有意水準 5%の片側検定によって検定を 行った結果、有意差が見られた) 7. ルーズモデルシステムは、終盤に残っていても少額の場合は全数探索での強さの推定値より も実際は弱い事が多いが、タイトモデルシステムの場合は推定値以上に強いことが多いため、 強いハンドでしか残らないことが多い 8. 積極的モデルシステムは消極的モデルシステムに比べ、多額の発火数が多い(多額ルールの発 火回数で F 検定を行い分散を調査した後、有意水準 5%の片側検定によって検定を行った結 果、有意差が見られた) 9.積極的モデルシステムも消極的モデルシステムも多額を賭けてくる場合には見かけよりも強 いことが多いが、消極的モデルシステムの場合は中額でも積極的モデルシステムに比べると 強いことが多い タイトな特徴付けをしたモデルシステムが終盤では全数探索での推定結果よりも手役が強いと き以外はゲームに残っていないなど、傾向値の推移から対戦相手のプレーヤの特徴が読み取れて いる。 次に、上で述べた 9 項目のうち、特徴を示しているルールであると考えられる終盤ルールと多 額ルールの傾向値推移について考察する。 終盤ルールの傾向値推移 ルーズモデルシステムの終盤ではモデルシステムの賭け金が多額の場合は傾向値が単調減少し ている一方、中額や少額の場合には振動しているのに対し、タイトモデルシステムではモデルシ ステムの賭け金を問わず全数探索の優劣推定で優勢の場合には単調減少になっている。傾向値の 数値自体は、例えば同じ「タイトという特徴付けをされたモデルシステムの終盤でモデルシステ ムの賭け金が多額である場合のルール」であっても、カードを強い順から開いたり弱い順から開 いたりする戦略の違いによって異なっている。これは、それぞれの戦略によって全数探索での結 果と実際の優劣推定値の差を取って傾向値の変更をしているためである。しかしながら単調減少 という推移の仕方は等しい。 これは、プレイングシステムが「自分は優勢である」と判断するようなときでも実際は全数探 索での強さの推定値よりもモデルシステムが強いハンドを持っているときのみゲームに残ってい るということがいえる。つまり、ルーズモデルシステムは自分のハンドが全数探索での推定値ほ ど強くなくても終盤ターンに残っていることがあるが、タイトモデルシステムは自分の手役が強 36 い場合のみ終盤ターンに残っている傾向があるといえる。 多額ルールの傾向値推移 序盤からはあまり特徴ごとの特徴が観察されないため、中盤と終盤に着目する。傾向値が振動し ているのは、これは強いときと弱いときがあるということを意味している。消極的モデルシステ ムである場合は、レイズを好まないという特徴があるために多額を賭けてくる事は少ない。これ に対し、積極モデルシステムの場合は少額から多額まですべてのルールが発火している。また、 消極的モデルシステムが多額を賭ける場合には Strong の傾向値が下がっていることから、全数探 索での優劣推定値よりも実際の手役が強いときのみ多額を賭けるという特徴があるのに対し、積 極的モデルシステムは多額の場合でも傾向値が上下に振動していることから全数探索での推定値 よりも弱い場合でも多額を賭けてくることがあることがわかる。 以上の考察から、カードを度の順番で開くかの戦略に関わらず、終盤ルールの傾向値推移でタ イトかルーズかの分類ができ、多額ルールの発火数と推移とで積極的か消極的かの分類ができる ことがわかる。 37 第5章 5.1 被験者実験による評価 実験概要 被験者とハッタリ戦略を取り入れたシステムとの間でポーカーの対戦を 100 ゲーム行う。被験 者は全部で 12 人である。この実験では、 1.プレイングシステムシステムの各被験者との対戦結果(システムの最終利得や勝ち数など) 2.プレイングシステムが人間プレーヤを相手に意図的にハッタリをする例が見られるか 3.第 4 章で得られた特徴を分類するためのルールが実際の人間プレーヤにも適用できるか の 3 点について評価を行う。 この実験を行う際に被験者とプレイングシステムに対して配られるカードの種類と順序は予め 決めておくものとする。これは、全被験者が同一の条件で実験を行うことで、被験者事の傾向を システムがつかんでいるかどうかを調べやすくするためである。本実験で使用したカードの順序 は、100 回の対戦を全てショウダウンで決着すれば、システムの対戦成績が 50 勝 50 敗となるデ ータである。ただし、このことは被験者には伝えていない。 実験終了直後に、被験者には賭け金の決定とドロップの判断についてアンケートに記入しても らう。また、システムが記録したゲーム中の被験者の傾向値の推移を観察し、第 4 章で述べた 4 種類の特徴に分類を行う。そして、傾向値から読み取れる被験者の特徴と被験者自身のアンケー ト回答が合致しているかを調べる。アンケートの質問事項を以下に示す。 Q.1 ゲーム序盤でドロップするかどうかはどのように決めましたか?またこの時点でドロップ を考えましたか?またその理由も書いてください Q.2 ゲーム序盤で賭け金の金額はどのように決めましたか? Q.3 ゲーム中盤でドロップするかどうかはどのように決めましたか?またこの時点でドロッ プを考えましたか?またその理由も書いてください Q.4 ゲーム中盤で賭け金の金額はどのように決めましたか? Q.5 ゲーム終盤でドロップするかどうかはどのように決めましたか?またこの時点でドロッ プを考えましたか?またその理由も書いてください Q.6 ゲーム終盤で賭け金の金額はどのように決めましたか? Q.7 開くカードの決定はどのように行いましたか?また、弱いのに強いふりをしたり、強いの に弱いふりをすることを考えたりしましたか? 38 5.2 実験結果 5.2.1 2 つのシステムの被験者に対する最終利得 表 5.1 に 12 人の各被験者とシステムとの対戦結果を示す。 最終利得の面では、プレイングシステムは 7 勝 5 敗となっている。5 敗のうち、3 人の被験者 に対してはゲームの途中でシステムが破産をしている。この理由としては、この研究で用いてい るポーカーのルールの特徴として 1 ゲームでも多額が動く可能性があるため、いずれもシステム が優勢だと判断して多額を賭けたものの、実際には人間プレーヤの手役のほうが強かったために 大きな損失を出したことが挙げられる。被験者 5 と被験者 8 に対してともに 84 ゲーム目でシス テムが破産しているが、その際の被験者の手役は 3 のスリーカード、システムの手役は 9 と 2 ツ ーペアであった(付録 B)。このように両プレーヤの手役の強さが僅差である場合にはシステムが 優劣推定を誤る場合が見られる。 5.2.2 ハッタリ事例 表 5.2 に各被験者に対するプレイングシステムの全体勝利数、優勢時のハッタリによる勝利数、 劣勢時のハッタリによる勝利数、ハッタリ失敗数を示す。優勢時のハッタリによる勝利とは、シ ステムが優勢とわかっていながらわざとアップカードが弱く見えるように振る舞った結果、被験 者を途中でドロップさせることなくショウダウンで大きな利得を得ることができたものを指す。 一方、劣勢時のハッタリによる勝利数とは、システムが劣勢と判断していながらわざと強く見え るカードを開いて強気に賭け金をつり上げることで、被験者をドロップさせることができた例を 示す。ハッタリ失敗数は劣勢時に強いふりをしたものの、被験者をドロップさせることができず にシステムが負けてしまった事例である。次に、ハッタリの成功例と失敗例について、具体的に 示す。 表 5.1 各被験者とそれぞれのシステムとの対戦結果 被験者番号 プレイングシステムの最終利得 1 + 8931 2 + 14537 3 - 73038 4 + 63604 5 -119162 (84) 6 + 7 -151857 (84) 8 + 5411 9 + 73588 10 - 2368 11 -133377 (7) 12 +153909 (16) 847 * ( )の中の数字はゲームオーバーになったゲーム数. +ならば人間プレーヤが破産、-ならばシステムが 破産したことを示す 39 表 5.2 被験者番号 プレイングシステムのハッタリ成功数、ハッタリ失敗数 システムの全体 ショウダウンによ ハッタリによる ハッタリの失敗 勝利数 る勝利数 勝利数 数 1 55 7 3 8 2 60 5 2 9 3 63 1 4 8 4 51 10 0 6 5 54(84) 2 1 6 6 52 13 0 12 7 58 2 1 13 8 39(84) 5 0 12 9 45 16 0 16 10 65 6 0 8 11 3(7) 0 0 2 12 3(16) 3 0 3 ハッタリの成功例として、被験者 1 の 81 ゲーム目を表 5.3 に示す。表の中で影がついている 部分はホールカードであり、5 ターン目以降に描いてあるカードはそれぞれのプレーヤがそのタ ーンで開いたホールカードである。被験者 1 の 81 ゲーム目では実際の手役は被験者が Q と 6 の ツーペア、システムがナッシングで被験者が勝っている。また、このときの優劣推定値は表 5.3 に示すように 5 ターン以降は負になっており、劣勢とシステムは判断している。しかし、アップ カードで相手に見えているスートにハートが 3 枚あるので、システムは 6 ターン目でハートの K のカードを開いてフラッシュに見せるようなハッタリをしている。そして被験者の賭け金が 100 だったのに比べ、システムはハッタリで 1462 と大幅に賭け金を上げている。そのため「システ ムは本当にフラッシュができているのではないか」と被験者を不安にさせ、結果としてドロップ をさせることに成功している。これは、システムが劣勢時にハッタリをすることで勝つことがで きた例の1つである。 次に、被験者 3 の 94 ゲーム目の例を表 5.4 に示す。実際の手役は被験者が 9 と 3 のツーペア、 システムが T のワンペアで被験者が勝っている。また、このときの優劣推定値は表 5.4 に示すよ うに 5 ターン以降は負になっており、劣勢とシステムは判断している。しかし、アップカードで 相手に見えている数字が 9-T-J-Q と並んでいるので、システムはわざと自分の手役であるワンペ アを見せることで他に強いカードをホールカードに隠しているようなハッタリをしている。被験 者は賭け金で 1 を賭けることでシステムの様子を見ているが、システムが 336 と大幅に賭け金を 上げているので「システムのホールカードには 8 か K があるのではないか」と被験者に思わせ、 結果としてドロップをさせることに成功している。 一方、プレイングシステムのハッタリが被験者に見破られた例を表 5.5 に示す。表 5.5 は被験 者 9 の 26 ゲーム目である。両プレーヤの実際の手役は被験者が A と J のツーペア、システムは ナッシングである。このときの優劣推定値は表 6.5 のように劣勢と判断しているが、相手に見え ているカードの数字が 8-9-Q となっていることと自分のホールカードに T と K があることから、 ストレートのふりをするハッタリを行う。6 ターン目で T を開き、7 ターン目で K を開いてハッ タリを行ったが、被験者がドロップをしてくれなかったためにシステムが諦めて 7 ターン目でド ロップをしている。これはハッタリをしてしまったために損失が大きくなってしまったハッタリ の失敗例である。 40 システムが優勢と判断した場合のハッタリの成功例を表 5.6 に示す。表 5.6 は被験者 10 の 24 ゲーム目である。被験者の手役は 4 と 2 ツーペアでシステムの手役はフラッシュである。第 5 タ ーンの段階では、フラッシュの手役をつくっている 5 枚のうち 2 枚がホールカードに隠れている。 そこでシステムは第 6 ターンでフラッシュに関係のないスートであるクラブ 3 のカードを開き、 ダイヤのカードを隠している。その結果、被験者 10 を途中でドロップさせることなく、ショウ ダウンでシステムが大きな利得を挙げている。これは、優勢時に弱く見えるようにカードを開く ことで相手プレーヤから大きな利得を得ることができたハッタリの成功例である。 システムが優勢と判断した場合に弱いふりを行うハッタリが見破られ、被験者がドロップをし た例を表 5.7 に示す。表 5.7 は被験者 3 の 13 ゲーム目である。システムの手役はフラッシュ、被 験者 3 の手役は 7 のワンペアである。システムはフラッシュのうち 2 枚がホールカードに隠れて いる。しかしながらクラブのホールカードを開いてしまうと、被験者にワンペアが見えてしまう のでシステムはまず隠れているダイヤのうちの 1 枚を開いている。被験者は開かれたカードとシ ステムの賭け金を見て、第 6 ターンでドロップをしている。これは、優勢時にシステムが弱いふ りをしようとしたものの、被験者に見破られて途中でドロップをされてしまった例である。 表 5.3 被験者 1 の 81 ゲーム目に見られた強いふりのハッタリの成功例(1) turn 被験者 賭け金 システム 賭け金 1 2 3 4 5 6 2 6 Q 8 Q Q 3 10 18 36 10 105 20 173 200 501 100 Drop A 4 6 9 J 8 K 13 54 115 193 701 1462 0.353 0.204 -0.149 -0.169 -0.356 -0.421 A 6 K 優劣推定値 表 5.4 被験者 3 の 94 ゲーム目に見られた強いふりのハッタリの成功例(2) turn 被験者 賭け金 システム 賭け金 1 2 3 4 5 5 6 7 9 3 10 2 10 30 10 107 10 62 1 335 6 Q J T 9 2 12 40 117 72 336 0.069 -0.076 0.361 0.081 -0.053 3 T 優劣推定値 表 5.5 turn 被験者 賭け金 システム 賭け金 優劣推定値 6 9 9 Drop T -0.047 被験者 9 の 26 ゲーム目に見られた強いふりのハッタリの失敗例 1 T 2 2 3 4 5 6 7 A K 6 A J J T 7 Call 12 Call 12 Call 12 15 5 78 2 188 22 K 8 9 5 Q T T K 7 12 12 27 83 190 Drop -0.714 -0.687 -0.587 -0.535 -0.363 -0.448 -0.601 J 41 表 5.6 turn 被験者 賭け金 システム 賭け金 被験者 10 の 24 ゲーム目に見られた弱いふりのハッタリの成功例 1 2 3 4 5 6 7 Q 4 A 4 2 2 2 5 4 20 4 76 52 332 286 1500 1513 1000 7594 24782 10283 J 5 T 7 7 3 3 9 9 24 128 618 3013 8594 35065 -0.682 -0.712 0.283 0.378 0.473 0.402 0.152 2 T 9 優劣推定値 表 5.7 被験者 3 の 13 ゲーム目に見られた弱いふりのハッタリの失敗例 turn 被験者 賭け金 システム 賭け金 1 7 6 優劣推定値 2 3 4 5 6 3 K 5 7 8 7 10 6 40 Call 10 88 100 318 10 1154 1 Drop 4 7 9 4 3 T 6 16 40 98 418 1164 3483 0.027 -0.111 0.642 -0.181 0.418 0.418 2 5.2.3 人間プレーヤの特徴の識別 第 4 章のシミュレーション実験結果では、特徴付けを行ったモデルシステムは終盤ルールと多 額ルールの傾向値の推移を観察することにより特徴を分類できると述べたが、ここではそこで得 られた知見が実際の人間プレーヤにも適用できるか考察を行う。 全ての被験者に対して、傾向値の推移のグラフから読み取れる特徴と被験者自身のアンケート 結果との考察を行い、その比較を行う。比較結果を表 5.8 に示す。表 5.8 より、12 名中 10 名の 被験者で傾向値からの推測結果と被験者のアンケート回答で得られる特徴が一致していることが わかる。全被験者の傾向値の推移とアンケートの回答結果は付録 C に示す。ここでは例として被 験者 1、被験者 2、被験者 3 の 3 人に対しての考察を示す。被験者 1 の傾向値推移のグラフを図 5.1、被験者 2 の傾向値推移のグラフを図 5.2、被験者 3 の傾向値推移のグラフを図 5.3 に示す。 表 5.8 傾向値の推移グラフから読み取れる特徴とアンケート回答から得られた特徴の比較 被験者番号 傾向値から推測した特徴 アンケート回答からの特徴 1 タイト消極的 タイト消極的 2 ルーズ消極的 ルーズ消極的 3 タイト積極的 タイト積極的 4 ルーズ消極的 ルーズ消極的 5 タイト積極的 タイト積極的 6 ルーズ積極的 タイト積極的 7 タイト消極的 タイト消極的 8 タイト積極的 タイト積極的 9 タイト消極的 タイト積極的 10 タイト消極的 タイト消極的 11 タイト積極的 タイト積極的 12 ルーズ積極的 ルーズ積極的 42 被験者 1 の傾向値について考察を行う。被験者 1 は少額や中額のルールに比べ、多額のルール の発火数が少ないことがわかる。一方、終盤ルールに注目すると全数探索でシステムが優勢であ ると判断している場合は被験者 1 の賭け金の額に関わらず傾向値を減少させている。よって、傾 向値推移からは被験者 1 はタイトで消極的な特徴のプレーヤであると推測される。それに対し被 験者のアンケート回答結果は「序盤や中盤では自分の方が弱いと思った場合はドロップをし終盤 では確実に負けているときはドロップをした。賭ける金額は相手に合わせてコールするか、さほ ど高くない値にするようにした」となっている。被験者のアンケートの回答は、劣勢と判断した 場合にはドロップし多額を賭けることを好まないという結果なので、4 つの特徴に分類するなら ばタイト消極的となり、傾向値の推移から推測される特徴と被験者自身の回答が同じタイプにな っていることがわかる。 被験者 2 についての傾向値推移のグラフから、少額や中額ルールと比較して多額ルールは使わ れていないことがわかる。また、終盤ルールに注目すると終盤で中額の場合は Strong の傾向値 が下がっているのに対し、少額では増減があるため、終盤に残っていても賭け金が少ない場合は 全数探索の強さの推定値ほど被験者の実際の手役は強くないことがある。これより、被験者 2 の 特徴はルーズ消極的なタイプであると推測される。一方、アンケート回答では「自分に役がなけ ればドロップをするが、終盤まで来るとハッタリで最後までドロップをしなかった。賭け金は相 手に合わせてコールすることが多く、勝てそうだと思った場合は少しずつ上げた」となっている。 終盤では弱くても残り、賭け金は相手に合わせてコールを多用するという被験者のアンケート結 果は4つの特徴に分類するとルーズ消極的であるので、被験者 2 に関しても傾向値の推移から推 測される特徴と被験者自身の回答が同じタイプになっていることがわかる。 次に、被験者 3 の傾向値推移について考察を行う。被験者 3 の多額ルールに着目すると、少額、 中額ルールよりも高い頻度で発火していることがわかる。よって被験者 3 は積極的に多額をかけ てくるプレーヤである。また、終盤ルールの推移では Strong の傾向値が被験者の賭け金の額に よらず減少していることがわかる。これより、傾向値の推移からは被験者 3 はタイト積極的なプ レーヤであると推測できる。一方でアンケート回答では「強い手役では上限まで賭けた。ツーペ アくらいでは控えめにした。序盤ではドロップはしないが、中盤以降では絵札のツーペア以下の 手役ではドロップをした」と述べているので、アンケートの回答からも被験者 3 の特徴はタイト 積極的であることがわかる。このように、傾向値の推移から推測される特徴とアンケートの回答 結果が被験者 3 についても一致している。 43 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 100 0 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 80 40 60 80 40 60 80 80 100 20 40 60 80 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 5.1 100 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 1 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 44 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 100 0 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 80 40 60 40 60 80 80 100 20 40 60 80 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 5.2 100 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 2 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 45 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 0 100 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 80 40 60 40 60 80 100 20 40 60 80 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 5.3 100 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 3 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 46 傾向値から推測した値と、被験者自身の回答結果が一致しなかった場合について考察を行う。 被験者 6 に対しては、傾向値の推移からはルーズ積極的と分類されているが、アンケートの回答 では「自分の手役がナッシングだったりシステムの手役が強そうな場合はドロップをした」とタ イトな記述をしている。終盤での傾向値の推移を見ると、最初は傾向値が上昇しているがゲーム が進むにつれて減少しているので、実験の開始直後と終了直前でプレイスタイルの変化がある。 アンケートを回答する際には、実験終了直前の戦略を記述しているが、傾向値の推移からの分析 は 100 ゲーム全体での推移を観察するため、双方の結果が異なる理由として挙げられる。次に被 験者 9 について考察を行う。被験者 9 のアンケート結果では「勝てそうだと思った場合はどんど ん賭けた」とあるが、被験者は下限値と上限値から自分の賭け金の多少を判断しているのではな く、賭けたポイントの絶対値で判断している。被験者 9 の 47 ゲーム目(付録 B)を例に挙げる と、システムの手役が A と K のツーペアであるのに対し被験者の手役はストレートとかなり強い 手役ができているにも関わらず、上限値が 2471 であった場合に被験者は 281 しか賭けていない。 そのため、被験者自身にとっては 281 というポイントが多額であると感じたとしても、上限値が 2471 であればシステムの多額のルールは発火しないということが被験者の回答結果と傾向値推 移からの分析結果が異なっている原因として挙げられる。 このように被験者 6 と被験者 9 に関してはアンケートの回答結果と実際被験者のとった行動が 必ずしも一致しない例が見られたが、傾向値の推移からの推測とアンケートの回答結果が一致し ない例もあるが、12 名中 10 名で傾向値から推測される特徴とアンケートの回答結果の特徴が一 致することがわかる。これにより、終盤ルールと多額ルールに着目することにより第 4 章で得ら れた知見が実際の人間プレーヤの特徴を推測する際にも適用できるといえる。 47 第6章 おわりに 本研究では、不完全情報ゲームの例としてポーカーの一種であるセブンカードスタッドを取り 上げ、このゲームをプレイするシステムを構築した。プレイングシステムのとり得る戦略の中に は人間プレーヤがポーカーをする際に用いるハッタリを取り入れており、プレイングシステムが 人間プレーヤに対して意図的にハッタリをしていくことを可能にした。本研究で扱うハッタリと は強い手役を持っているのに弱く見えるふりをしたり、弱い手役しか持っていない場合に賭け金 をつり上げたり強いカードを対戦相手に見せることで対戦相手をドロップさせるようにすること を指す。また、ハッタリをする際には相手の傾向や特徴に応じた戦略決定が必要となるため、プ レイングシステムが記録している対戦相手の傾向値から相手の特徴をつかむために必要なルール をシミュレーション実験によって得た。そして、プレイングシステムのハッタリ戦略が人間プレ ーヤに通用するかということと、シミュレーション実験で得られた知見を実際の人間プレーヤに も適用できるかということについて評価を行うため、被験者実験を 12 名の被験者に対して行っ た。プレイングシステムの最終的な利得による勝敗は 7 勝 5 敗であった。また、被験者がシステ ムのハッタリにあう例や、逆に被験者がシステムのハッタリを見抜く例も見られた。シミュレー ション実験で得られた知見をもとに被験者の傾向値の推移を分析すると、傾向値の推移から推測 される被験者の特徴と被験者自身のアンケート回答結果が一致していることを示した。 今後の課題としては、シミュレーション実験と被験者実験で得られた知見をプレイングシステ ムがハッタリをする際に対戦相手に応じて意思決定ができるように利用し、現在のようにカード 情報のみからではなく対戦相手の傾向やゲームの状況も考慮してハッタリの意思決定ができるよ うにすることが挙げられる。 48 謝辞 本研究を進めるにあたって、ご多忙の中、親身にご指導を下さいました鬼沢武久教授に深く感謝 申し上げます。また、Word についてのつまらない質問やアルゴリズムについて相談に乗ってく ださり、このどうしようもない(?)論文の添削までしてくださった林さん、ゼミでいつも的確 な点を指摘してくださった畦原さん、様々な視点での意見をくれ、よく夜中研究室にいらっしゃ ったため会っている時間の多かった茂さん、一緒に愚痴をこぼしたりマシンの反乱に対応してく れた金子君、やべーやべーと言いながら修論・中退計画をともに乗り切った平澤君、ひょんなと こから私と旦那のキューピットになってくれたシカ、ケーキを焼いてきてくれた前田さん、寝不 足で瀕死の筆者を尻目に日々寝まくっていた大石君、いつも誰かを呼ぶ前に名前をつけてくれる ほのぼの木村さん、プリンタの設定とかで血迷っている筆者に手を差し伸べてくれた桜井くん、 イチゴが答のヒントで最初に「ヘタ」とか言われちゃうシステムを作ってくれた金沢くん、実は けっこうお互いイタイ話を握り合っている佐々木くん、そして筆者と同じプレイングシステムを 実験に用いたために共倒れの危機に陥りかけた矢野くん、みなさんどうもありがとうございまし た。クリスマスのゼミをやられたり、とんでもない研究室だなぁと思うこともありましたが、な んだかんだ仲が良く、この研究室に所属していたからこそこんな筆者が無事研究成果を出し、修 士論文という形でまとめることができたのだと思います。あと、被験者実験を引き受けてくださ った皆様にも深く御礼申し上げます(謝礼出してるんで、どちからと言えば紹介してくださった 方に感謝と言っても過言ではありません)。そして、いつも遠くからさまざまな面についてサポー トし見守ってくれた両親と、夫として、時には一人の研究者として筆者の研究生活を支えてくれ た真孝に、心から感謝致します。修論執筆中は筆者のサンドバック役として、新婚とは思えぬ生 活をさせてしまいました。優しく、筆者を見守りつづけてくれた彼に、感謝の気持ちが一杯です :-) 49 参考文献 [1] モートン・D・デービス,“ゲームの理論入門”,講談社,1973 [2] 松原仁,滝沢武信,“コンピュータ将棋はどのようにしてアマ4段まで強くなったか”,人工 知能学会誌,Vol.16, No.3,pp.378-383, 2001 [3] 伊藤琢巳,野下浩平,“詰将棋を速く解く2つのプログラムとその評価”,情報処理学会誌, Vol.35,No.8,pp.1531-1539, 1994 [4] Ian Frank,David Basin,Alan Bundy , “Combining Knowledge and Search to Solve Single-suit Bridge”,Proceedings of AAAI/IAAI2000,,pp.195-200, 2000 [5] Billings D,Papp D,Schaeffer J,Szafron D,“Opponent Modeling in Poker”,Proceedings of AAAI-98/IAAI-98, pp.493-499,1998 [6] Aaron Davidson,Darse Billings,Jonathan Schaeffer,Duane Szafron,“Improved Opponent Modeling in Poker”,Proceedings of ICAI2000, pp.1467-1473,2000 [7] デヴィッド・パーレット,“トランプゲーム百科”,社会思想社,pp.393-435, 1988 [8] 鬼沢武久,風見覚,高橋千晴,“不完全情報ゲームプレイングシステムの構築—スタッドポー カーを例にして—”,日本知能情報ファジィ学会誌,Vol.15, No.1,pp.127-141,2003 [9] Takehisa O.,Chiharu T.,“Bluff Strategy in Seven-card-Stud Poker Game” Proceedings of the 10th IFSA World Congress,pp.496-499,2003 ,海文堂,1989 [10] 本多中二,大里有生,“ファジィ工学入門” [11] Kendall G., and Willdig M., “An Investigation of an Adaptive Poker Player”, Proceedings of the 14th Australian Joint Conference on Artificial Intelligence,pp.189-200,2001 [12] Chiharu T.,Takehisa O.,“Analysis of Playing Style in Poker Game by Seven-card-Stud Poker System”,Proceedings of ISAGA2003, pp.393-402 50 付録 A 優劣推定に用いられる全ルールと傾向値の初期値を示す。 表 A.1 優劣推定ルールテーブル(序盤用) ~ B ~ D ~ (C = Early _ game) ~ A Middle Few Weak Positive Negative 50 Positive 50 Negative Positive 50 Negative Strong Positive Negative 50 Positive Negative 50 Positive 50 Negative 表 A.2 優劣推定ルールテーブル(中盤用) ~ B ~ D ~ (C = Middle _ game) ~ A Few Middle Much Weak Positive Negative 50 Positive Negative 50 Positive Negative 50 Strong Positive Negative 50 Positive Negative 50 Positive 50 Negative 表 A.3 優劣推定ルールテーブル(終盤用) ~ B ~ D ~ (C = End _ game) ~ A Much Few Middle Much Weak Positive Negative 50 Positive 50 Negative Positive 50 Negative Strong Positive Negative 50 Positive Negative 50 Positive 50 Negative 51 付録 B 被験者実験での 84 ゲーム目のカードデータを示す。 表 B.1 被験者 システム 被験者実験で 84 ゲーム目に配られたカードデータ 3 2 3 8 T 2 Q Q 3 9 4 7 A 9 * 影のついているカードはホールカードである 表 B.2 turn 被験者 賭け金 システム 賭け金 被験者 9 の 47 ゲーム目のカードデータと賭け金 1 6 3 2 3 4 5 6 7 Q 9 K J 4 6 4 10 5 11 19 11 62 210 203 397 248 752 1719 281 5037 K K A A 6 J J 3 15 30 73 413 645 2471 5318 T * 影のついているカードはホールカードである ** 第 6,7 ターン目は両プレーヤが開いたホールカードを示す 付録 C 各被験者のアンケート回答結果を以下に示す。 被験者 1 序盤や中盤では自分の方が弱いと思った場合はドロップをし、終盤では確実に負けているときは ドロップをした。賭ける金額は相手に合わせてコールするか、さほど高くない値にするようにし た 被験者 2 自分に役がなければドロップをするが、終盤まで来るとハッタリで最後までドロップをしなかっ た。賭け金は相手に合わせてコールすることが多く、勝てそうだと思った場合は少しずつ上げた 52 被験者 3 強い手役では上限まで賭けた。ツーペアくらいでは控えめにした。序盤ではドロップはしないが、 中盤以降では絵札のツーペア以下の手役ではドロップをした 被験者 4 役ができているときはやや多めで、できていないときは控えめにした。強いときは相手をドロッ プさせないように上限より少ない金額にするが、ハッタリのときだけは上限まで賭けた。序盤で はドロップしないけど、中盤以降はお互いの賭け金とカードを見て自分が負けていると思ったら ドロップをしていた 被験者 5 ゲームの最初は上限まで賭けた。相手に合わせて金額を決めたり、上限と下限の間くらいの金額 を賭けたりした。ただし終盤では弱いカードを開いて多額を賭けたりもした。序盤で手役が何も できていなかったり、システムの手役が強い場合はドロップをした。終盤では相手の手役が強い ことがわかったらドロップした 被験者 6 序盤ではいつも中額をかけて悟られないようにした。終盤では勝っている場合には多額を賭け、 負けていそうな場合には少額にした。自分がナッシングだったり、システムの手役が強いと思っ たときにはドロップをした。 被験者 7 序盤ではシステムの様子を見るために賭ける金額を 1 にすることが多かった。終盤では自分が強 いときは多く賭けた。自分の手役が数字の低いワンペアしかできていなかったり、相手が強そう だと思ったときはドロップをした。 被験者 8 強いときは上限一杯まで、弱いときは下限値で様子を見た。序盤ではドロップしないけれど、中 盤以降は相手の方が強そうだと思った場合はドロップをした。自分の手役がツーペアくらい場合 はシステムの出方を見てドロップするかを決めた 被験者 9 自分が勝てそうだというときにはどんどん賭けた。手役が強くないときは少額にした。序盤では ドロップはしないけれど、中盤以降では自分の手役がナッシングだったりシステムの手役のほう が強いとわかった時点でドロップをした。 被験者 10 システムよりも強いと思ったときは上限の 7 割くらい、弱いと思ったときは下限値など少額を賭 けた。相手の手役が強そうなときは序盤でもドロップした。終盤ではシステムの手役の予想がつ かないときやシステムの賭け金が大きくなったときもドロップをした。 被験者 11 中盤までは賭け金を上限まで賭ける。終盤は慎重に決めた。序盤、中盤はドロップしないが終盤 ではシステムの手役が強そうな場合はドロップした。 被験者 12 勝てると思ったときはいつも上限値を賭けた。自分に手役ができていなければ中盤でドロップし た。終盤ではドロップはしなかった。 53 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 100 0 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 80 40 60 80 40 60 80 80 100 20 40 60 80 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.1 100 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 1 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 54 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 100 0 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 80 40 60 40 60 80 80 100 20 40 60 80 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.2 100 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 2 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 55 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 0 100 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 80 40 60 40 60 80 100 20 40 60 80 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.3 100 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 3 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 56 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 b_weak b_strong 0 100 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 0 40 60 80 40 60 80 80 100 20 40 60 80 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.4 100 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 80 d_weak d_strong (c) ターン:終盤 賭け金:少額 0 60 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 40 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 20 被験者 4 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 57 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 100 0 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 80 40 60 80 40 60 80 80 100 20 40 60 80 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 20 40 60 80 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.5 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 100 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 5 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 58 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 b_weak b_strong 0 100 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 80 0 40 60 40 60 20 40 60 80 100 100 90 80 70 60 50 40 30 20 10 0 h_weak h_strong 0 80 100 (g) ターン:序盤 賭け金:多額 100 90 80 70 60 50 40 30 20 10 0 80 100 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 60 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 40 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 20 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 80 100 d_weak d_strong (c) ターン:終盤 賭け金:少額 0 60 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 40 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 20 20 40 60 80 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.6 100 被験者 6 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 59 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 0 100 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 80 40 60 80 40 60 80 80 20 40 60 80 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.7 100 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 0 100 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 7 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 60 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 0 100 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 80 40 60 80 40 60 80 80 20 40 60 80 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.8 100 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 0 100 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 8 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 61 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 0 100 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 40 60 40 60 80 80 100 20 40 60 80 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.9 100 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 9 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 62 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 0 100 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 80 40 60 40 60 80 80 100 20 40 60 80 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.10 100 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 10 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 63 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 0 100 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 40 60 40 60 80 80 20 40 60 80 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.11 100 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 0 100 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 11 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 64 100 90 80 70 60 50 40 30 20 10 0 100 90 80 70 60 50 40 30 20 10 0 a_weak a_strong 0 20 40 60 80 0 100 (a) ターン:序盤 賭け金:少額 100 90 80 70 60 50 40 30 20 10 0 20 40 60 40 60 80 40 60 80 100 20 40 60 80 h_weak h_strong 0 (g) ターン:序盤 賭け金:多額 20 40 60 80 100 (h) ターン:中盤 賭け金:多額 I_weak I_strong 0 20 40 60 80 100 (i) ターン:終盤 賭け金:多額 図 C.12 100 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 60 (f) ターン:終盤 賭け金:中額 g_weak g_strong 20 40 f_weak f_strong 0 (e) ターン:中盤 賭け金:中額 0 20 100 90 80 70 60 50 40 30 20 10 0 100 100 90 80 70 60 50 40 30 20 10 0 80 100 (d) ターン:序盤 賭け金:中額 e_weak e_strong 20 60 d_weak d_strong 0 (c) ターン:終盤 賭け金:少額 0 40 100 90 80 70 60 50 40 30 20 10 0 80 100 100 90 80 70 60 50 40 30 20 10 0 20 (b) ターン:中盤 賭け金:少額 c_weak c_strong 0 b_weak b_strong 被験者 12 の傾向値の推移グラフ *各グラフの縦軸は傾向値の大きさ、横軸はゲーム数を示す 65