Comments
Description
Transcript
第6章 繰り返しゲーム
戦略的マーケティングのためのゲーム理論 第6章 繰り返しゲーム これまでも見てきたとおり、ゲームの均衡は必ずしも「好ましい」結果に なるとは限らない。たとえば囚人のジレンマでは、双方が互いに裏切りあう のが唯一の均衡となる。しかし、現実にはもうすこしうまくやっているので はないだろうか。囚人のジレンマにあたる状況は多く見られるが、お互いに 信頼し合っていることもあるのではないだろうか。そうした信頼は、どのよ うなメカニズムによって支えられているのだろうか。 例 12. 里の民が米を、海の民が塩を俵に詰めて持ってきて、市で互いに 交換する。俵の中身をその場で確認することはできないため、両者は俵 の中身をごまかすことが可能であるとする。 C D 正直(協調:C ) 2, 2 −1, 3 ごまかす(裏切り:D) 3, −1 0, 0 ナッシュ均衡は(D,D)のみである。では、山の民と海の民は未来永劫 お互い欺き続けるのだろうか? こうした状況でお互いに欺き続けるのであれば、交易などしようがない。 しかし実際には人は交易を行い、それによって生活を充実させてきた。そこ には、裏切った者を制裁するような何らかのメカニズムがあったと考えられ AKANE Mitsuyuki,"a textbook of game theory",2004 Copyright©2004 Japan Consumer Marketing Research Institute. All rights reserved. 戦略的マーケティングのためのゲーム理論 2 第6章 繰り返しゲーム る。こうした状況に対して、ゲーム理論から引き出される解決策は2つある。 ゲームの外からの解決 ひとつは外部からの制裁、すなわち、裏切り者に対 して、ゲームの外にいる第三者が制裁を加える方法である。たとえば契約を 法的に保護し、債務不履行に陥った者に対して強制執行を認める制度はこれ にあたる。制裁を行うインセンティヴをどのように確保するかという問題1) は あるが、そうした問題をいったん考慮の外におくならば、これはシンプルで 有用な解決策である。ゲーム理論の立場からみた法律の主たる役割は、ゲー ムの利得を変更することにあるといえよう。 ゲームの内からの解決 このようなゲームの「外部」からの調整を期待でき ない場合には、ゲームの内部で、裏切った者を互いに制裁しあうという方法 がある。たとえば取引先が、はっきり契約違反とはいえるほどではないが、 しかし品質の良くない商品を納入してくる場合の対抗策としては、それを指 摘した上で次回から取引を控える、といったことが行われる。長期的関係に おいては、裏切り者に対して次回以降のゲームで制裁を加えることができる ので、協調関係を築きやすくなるのである。以下では、同じゲームを同じプ レイヤーどうしで繰り返しプレイする場合に、協調関係が生まれるメカニズ ムについて述べる。 6.1 無限回繰り返しゲーム ゲームが無限回くりかえして行われる場合には、裏切ると次回以降のステー ジで相手から罰を受けて利得が低下することを恐れて、協調関係が維持され ることがある。ここでは、囚人のジレンマにおけるトリガー戦略を用いた協 調の維持について説明する2) 。他のタイプのゲームにおいても、ここで紹介 1) 裏切り者に対して自らの手を痛めて制裁することをいやがる可能性がある。したがって、さらに「制裁し ない者を制裁する」ような機構が必要となる。これは二次フリーライダー問題と呼ばれることがある。 2) 協調関係を維持することができる、似たような仕組みの戦略は多数存在する。トリガー戦略はその中でも もっとも裏切りについて厳しいものであり、割引率が低い状況でも協調を最も維持しやすい。トリガー戦略の 欠点は、相手が間違えて D 戦略をとってしまう可能性があるような場合に、いったんトリガーがひかれて D 戦略に入ってしまうと、もう取り返しがつかないということである。そのような場合には、ある程度の過ちは 大目に見たり、あるいは、何回か制裁を加えた後で相手を許すような戦略のほうが有利になる。 AKANE Mitsuyuki,"a textbook of game theory",2004 Copyright©2004 Japan Consumer Marketing Research Institute. All rights reserved. 戦略的マーケティングのためのゲーム理論 6.1. 無限回繰り返しゲーム 3 した考え方を応用して、繰り返しゲームによる協調を実現することができる 場合が多い。 トリガー戦略 以下では、囚人のジレンマの例にならって、相手に対して協 調的な戦略を C 戦略(cooperate)、相手を欺き裏切るような戦略を D 戦略 (deceive)と書くことにする。トリガー戦略(trigger strategy)とは、次の ような戦略である。 • はじめてゲームをプレイする相手に対しては C 戦略をとる。 • 再びゲームをプレイする相手に対しては、 – 相手がこれまで 1 度も D 戦略をとったことがない場合、自分は C 戦略をとる。 – 相手が 1 度でも D 戦略をとったことがある場合には、自分は D 戦 略をとる。 トリガー戦略の名は、相手が1回でも裏切ると引き金(trigger)が引かれて、 もはや二度と協調関係が戻らないことからきている。以下ではトリガー戦略 によって協調関係が維持されるメカニズムを見ることにするが、そこで重要 な役割を果たす割引因子について先に説明しておきたい。 割引因子 繰り返しプレイされるゲームにおいて協調関係を維持してゆくに は、将来にわたって相手と良好な関係を維持してゆくことを、目先の利益より も重んじる姿勢が大切になる。今期の利得に比べて、来期の利得をどの程度重 んじる(あるいは、軽んじる)かを、経済学では割引因子(discount factor) を用いて表す。割引因子とは、1 期後の利得 1 単位の今期における価値のこ とであり、通常0以上1以下の値を取る。たとえば割引因子が 0.9 である人 にとって、来期もらえる 100 万円は、今期にもらえる 90 万円と同じ価値を 持つ。割引因子は個々人によって異なるし、社会の状況によっても変化する。 割引因子が大きい(1 に近い)ことは、 • その人は我慢強い。 • その人は目先のお金に困っていない。 AKANE Mitsuyuki,"a textbook of game theory",2004 Copyright©2004 Japan Consumer Marketing Research Institute. All rights reserved. 戦略的マーケティングのためのゲーム理論 4 第6章 繰り返しゲーム • その社会におけるインフレ率が小さい。 • 将来に対する不確実性が小さい3) 。 などということを表す。 トリガー戦略がナッシュ均衡になるための条件 先の例にあげたゲームにお いて、両者がトリガー戦略をとり続けることがナッシュ均衡になるための条 件を求めよう。ナッシュ均衡であることを示すためには、全ての期において、 いかなる歴史の後であっても、トリガー戦略から離脱して D 戦略をとる誘因 が両者に生まれないことを示せばよい。まず、トリガー戦略をとる相手に対 して、自分もトリガー戦略をとり続ける場合の利得と、第1期においてトリ ガー戦略から離脱して D 戦略をとる場合の利得とを比較する。割引因子を δ(0 ≤ δ ≤ 1) とする。トリガー戦略をとりつづける場合、以降協調関係が続 くので、第1期には 2、第2期には 2δ (これは第2期に得られる利得 2 を第 1期における利得の価値に換算した値を表す)、第 n 期には 2δ n−1 の利得を 得る。これらを足し合わせると 2 + 2δ + 2δ 2 + 2δ 3 + · · · = 2 1−δ となる。つぎに、第1期に自分がトリガー戦略から離脱して D 戦略をとった 場合、 トリガー戦略に従う相手は第2期以降永久に D 戦略をとりつづける。 それに対しては自分も D 戦略をとりつづけるのが支配戦略となる。この場合 の利得は 3 + 0 + 0 + 0 + ··· = 3 したがって 2 >3 1−δ すなわち δ ≥ 1/3 であれば、今日の得よりも明日以降の損のほうが大きく感 じられるため、協調関係を維持しようと努めることになる。なお、同様にし て、これまで協調が維持されている場合には、自分から均衡を破って D 戦略 3) たとえば明日にも世界が消えてなくなるかもしれない場合、人は明日得られる利得よりも今日得られる利 得を重んじる性向を持つ。 AKANE Mitsuyuki,"a textbook of game theory",2004 Copyright©2004 Japan Consumer Marketing Research Institute. All rights reserved. 戦略的マーケティングのためのゲーム理論 6.2. 有限回繰り返しゲーム 5 をとるのは損になる。またどちらかが D 戦略をとって協調がくずれた場合に は、相手は D 戦略をとりつづけるので自分も D 戦略をとりつづけるのが最 適反応となる。したがって、いかなる歴史の後でもトリガー戦略に従うのが 最適である。これで δ ≥ 1/3 であればトリガー戦略がナッシュ均衡であるこ とが示された。 フォーク定理 このように、無限回繰り返しゲームでは、割引因子が十分に 大きいなら、様々な利得をナッシュ均衡として実現することが可能となる4) 。 この事実はフォーク定理(folk theorem)としてよく知られている。なおここ では「協調し続ける」ことを目標としてトリガー戦略を用いたが、たとえば 「普段は正直に振る舞うが、毎年 4 月 1 日はお互いだまし合う」といった多種 多様な戦略を均衡として維持することも、まったく同じ方法で可能である。 6.2 有限回繰り返しゲーム 協調が生まれないケース 繰り返しが有限回で確実に終わる(ことを皆が認 識している)場合の均衡は、1回限りのゲームと同じである。囚人のジレン マであれば協調は生まれず、両者とも D 戦略をとりつづける。これは後ろ向 き帰納法によって示される。 t=T 今回でプレイは終わりなので、ゲームの結果は 1 回限りのゲームの時 と同じになる。したがって両者とも D 戦略をとる。 t=T-1 どのようにプレイしても次回は両者とも D 戦略をとることが分かっ ているので、今回協力しておくインセンティヴがない。したがって両 4) 実はトリガー戦略は部分ゲーム完全均衡ではない。たとえば相手がはじめ1回は裏切るがそれ以降は協調 しようとしている場合、 2回目以降ずっと制裁を続けるのは合理的ではないからである。しかし、次のよう に戦略をうまく工夫すればお互いに協調し合う状態をはじめ 様々な利得の組を部分ゲーム完全均衡として実 現できる。これは完全フォーク定理(perfect folk theorem)として知られている。 • 前のステージで他のプレイヤーが均衡から外れた戦略をとっていない場合、自分は均衡戦略をとる。 • 前のステージで均衡から外れたプレイヤーがいた場合、そのプレイヤーの利得を最小にするような 戦略(ミニマックス戦略)を他のプレイヤー全員で一定回数プレイする。 • 上記の制裁行動を怠るプレイヤーがいた場合、今度はそのプレイヤーが制裁の対象となる。 • 一定回数の制裁が終了したら、均衡戦略にもどる。 AKANE Mitsuyuki,"a textbook of game theory",2004 Copyright©2004 Japan Consumer Marketing Research Institute. All rights reserved. 戦略的マーケティングのためのゲーム理論 6 第6章 繰り返しゲーム 者とも D 戦略をとる。 t=T-2 どのようにプレイしても次回以降は両者とも D 戦略をとることが 分かっているので、協力のインセンティヴはなく、やはり両者とも D 戦略をとる。 … t=1 どのようにプレイしても次回以降は両者とも常に D 戦略をとるので、 協力のインセンティヴはなく、両者とも D 戦略をとる。 協調が生まれるケース しかし、ゲームが必ず有限回で終わる場合でも、い つ終わるかがあらかじめわからないケースでは、無限回繰り返しゲームと形 式的に同じになる。いま、毎期確率 r でゲームが終わるとする5) 。トリガー 戦略をとる場合の利得は 2 + 2(1 − r)δ + 2(1 − r)2 δ 2 + 2(1 − r)3 δ 3 + · · · = 2 1 − δ(1 − r) となる。ここで δ̄ ≡ δ(1 − r) を新たな割引因子としてみれば、無限回繰り返 しゲームと同じことになる。たとえば1期=1日とし、δ = 0.99 とすると、 1年先までゲームが続いている可能性は δ 365 ; 0.03 である。1年先にはか なりの確率でゲームが終わるようなケースでも、日々の割引因子は結構大き く、協調が可能であることがわかる。 6.3 交渉の分析 ここでは、一定の大きさの余剰をどのようにして分け合うかという問題を 扱う。次の例をみてみよう。 6.3.1 再交渉が不可能な場合:最終通牒ゲーム (take-it-or-leave-it offer) 例 13. 1 つのアイスクリームを 2 人で分けるゲームを考える。ゲームは 5) このとき limT →∞ (1 − r)T = 0 であるから、いつかは必ずゲームが終わる。確率1でゲームが終わる という意味で、このゲームは有限回繰り返しゲームであるが、均衡は無限回繰り返しゲームのそれに等しい。 AKANE Mitsuyuki,"a textbook of game theory",2004 Copyright©2004 Japan Consumer Marketing Research Institute. All rights reserved. 戦略的マーケティングのためのゲーム理論 6.3. 交渉の分析 7 次のように行われる。 t=1 プレイヤー 1 が分け方(x, 1 − x)を提案する t=2 プレイヤー 2 が提案を受け入れるかどうかを決める。提案を受け 入れた場合の両者の利得は(x, 1 − x)であり、拒否した場合は (0, 0) とする。提案を拒否した上で再び交渉することは一切でき ないものとする 両者はどのような戦略をとるか? このゲームには多数のナッシュ均衡が存在する。たとえばプレイヤー2が 「70 %以上くれないと提案を拒否する」と宣言し、プレイヤー1がそれを信じ て x = 0.3 を提案し、プレイヤー2はそれを受諾するというのもナッシュ均 衡である。しかし、これらの戦略の組は部分ゲーム完全均衡ではない。この 脅しは信ずべき根拠がない「ハッタリ」にすぎないからである。プレイヤー 2の脅しにかかわらずプレイヤー1が x = 0.9 といった図々しい提案をした 場合、プレイヤー2は泣く泣くそれを受諾せざるを得ないのである――突っ ぱねて利得が0になるよりはマシなので。部分ゲーム完全均衡はただ一つだ けである。分配の最小単位が「スプーン1杯」だとすると、1 は 2 にスプー ン1杯だけ与えることを提案し、2 はそれを承諾する、というのが唯一の均 衡となる。 交渉力の基本原理 一般に、「呑むや呑まざるや」の交渉においては、分け 前を提案する側は、相手がそれを受け入れても拒否してもちょうど無差別に なる水準まで、相手の取り分を下げることができる。これは交渉力の基本原 理として引用されることがある。これ以上取り分を減らすと相手が交渉を拒 否してしまうギリギリの水準のことを交渉決裂点(threat point)という。 6.3.2 再交渉が可能な場合:ルービンシュタインの逐次交渉ゲーム take-it-or-leave-it offer game は簡単なので経済学のモデルでよく用いられ るが、提案が拒否された後に再交渉しないということにコミットするのはか AKANE Mitsuyuki,"a textbook of game theory",2004 Copyright©2004 Japan Consumer Marketing Research Institute. All rights reserved. 戦略的マーケティングのためのゲーム理論 8 第6章 繰り返しゲーム なり難しく、その意味で現実的でないことが多い。では再交渉可能な状況にお いて両者の取り分はどのように決まるか。その解を協力ゲームの枠組みで示 したのがナッシュ(Nash)であるが、ルービンシュタイン(Rubinstein)は それを非協力ゲームの枠組みで再構成して衝撃を与えた。 例 14. 再び 1 つのアイスクリームを 2 人で分けるゲームを考える。ゲー ムは次のように行われる。 t=1 プレイヤー 1 が分け方(x, 1 − x)を提案する t=2 プレイヤー 2 が提案を受け入れるかどうかを決める。提案を受け 入れた場合、両者の利得は(x, 1 − x)である。提案を拒否した場 合、分け方 (y, 1 − y) を再提案することができる。 t=3 プレイヤー 1 が、提案を受け入れるか、再提案をするかを決める。 以下、提案が受け入れられるまで続く。t 期に分け方 (z1 , z2 ) が実現 した場合のプレイヤー i の利得は (δi )t · zi とする。ここで δi はプレイ ヤー i の割引因子である。両者はどのような戦略をとるか? このゲームにも無数のナッシュ均衡が存在するが、部分ゲーム完全均衡は ただ一つだけである6) 。定常的な均衡があると仮定して、部分ゲーム完全均 衡において両者が提案する分け方を(x, 1 − x), (y, 1 − y) とする。プレイヤー 1の提案をプレイヤー2が受け入れたときの利得は 1 − x、拒否して再提案 する場合の利得はたかだか δ2 y である。交渉力の基本原理から、これらが等 しくなるところまでプレイヤー1は相手の取り分を引き下げることができる。 したがって、 1 − x = δ2 y プレイヤー2のプレイヤー1に対する提案も同様に考えることができて、 δ2 (1 − y) = δ2 δ1 x 6) 均衡が一つしかないことの証明は岡田(1996)などを参照。 AKANE Mitsuyuki,"a textbook of game theory",2004 Copyright©2004 Japan Consumer Marketing Research Institute. All rights reserved. 戦略的マーケティングのためのゲーム理論 6.4. まとめ 9 この 2 式を解いて (x, 1 − x)= ( 1 − δ2 δ2 (1 − δ1 ) , ) 1 − δ1 δ2 1 − δ1 δ2 を得る。t=1 においてプレイヤー1がこれを提案し、プレイヤー2がこれ を受け入れるという戦略の組が、唯一の部分ゲーム完全均衡である。この結 果から得られる示唆をまとめておこう。 • 割引因子が同じ値ならば、最初に提案する方が有利である。 • 割引因子が大きい方が分け前がかなり大きくなる。 • 割引因子がお互いに等しく、十分 1 に近いならば、分け前は半々になる。 一般に、プレイヤーの交渉力は、交渉決裂点・割引因子・リスク性向7) に応 じて決まる。 6.4 まとめ • 繰り返しゲームでは、1回限りのゲームでは均衡となり得ないような 戦略の組が、均衡として維持されることがある。この事実はフォーク 定理と呼ばれる。割引因子が大きい、すなわち、人々が将来の利得を 重くみている場合ほど、多くの戦略の組が均衡として維持される。 • 「呑むや呑まざるや」の交渉においては、分け前を提案する側は、相 手がそれを受け入れても拒否してもちょうど無差別になる水準(交渉 決裂点)まで、相手の取り分を下げることができる。それに対し、再 交渉が可能である場合には、割引因子の大きい、すなわち、我慢強い プレイヤーが多くの分け前を得る。 7) リスク回避度が小さい(リスク中立に近い)ほうが多くの利得を得る。たとえば岡田(1996)pp.288-289 を参照。 AKANE Mitsuyuki,"a textbook of game theory",2004 Copyright©2004 Japan Consumer Marketing Research Institute. All rights reserved.