Comments
Description
Transcript
5.ゲーム理論
ミクロマクロ経済学Ⅰ 5.ゲーム理論 この章では,各経済主体の戦略均衡について考えてみましょう.4 章までとは違う言葉 が出てきますので,しっかりおさえておきましょう.ゲーム理論は,何人かの天才によっ て生み出されました.本章では扱いませんが,ゲーム理論といえば「ミニマックス均衡」 の事を指していた時代がありました.ミニマックス均衡は,フォン・ノイマンとモルゲン シュテルンの『ゲームの理論と経済行動』で詳解されました.ノイマンは,ゲーム理論だ けでなく,コンピュータや天気予報の理論も創りました.その後,ナッシュによってゲー ム理論は発展しました.本章では,ナッシュ均衡についてみていきましょう. ナッシュは数学を使って解説しましたが,その後「囚人のジレンマ」というストーリー がつけられて,多くの人に知られるようになりました. 5−1.ナッシュ均衡 あなたと相棒は,銀行強盗の容疑をかけられています.2 人は,まったく 犯行を自供しないので,看守は一計を案じることにしました. まず,2 人を別々の部屋に入れて相談ができないようにします.そうして, 2 人に同じ条件を提示します.そうして, 「相棒も同じ事をしている」と告げ るのです. さて,あなたはどうしますか? あなたの戦略 看守が 2 人にみせたのは下表です. 相棒の戦略 黙秘 自白 黙秘 (3 年,3 年) (10 年,1 年) 自白 (1 年,10 年) (5 年,5 年) ゲームに登場する「あなた」と「相棒」のことをプレーヤー,ゲームの得点を「利得」 といいます.プレーヤーと利得の組み合わせを表した表を「利得表」といいます. 表の横方向はあなたの戦略,縦方向は相棒の戦略です.表の数字は各プレーヤーの利得 (あなたの利得,相棒の利得)を表しています.あなたが黙秘,相棒が黙秘を選択すると, 組み合わせは左上になり,2 人とも懲役 3 年になります.同様に,あなたが黙秘,相棒が 自白を選択すると,組み合わせは右上になり,あなたは懲役 10 年,相棒は懲役 1 年になり ます. 33 ミクロマクロ経済学Ⅰ ゲームを進める上で,ゲームのルールが必要になります. 「 囚人のジレンマ」のルールは, 「各プレーヤーは,自己の利得が最大になるような戦略を選択する」というものです.ゲ ームを解きながら,ルールも確認してみましょう. 相棒は別の部屋にいて,どの戦略を採るのか分かりませんので,どちらの戦略を採って もいいように考えておきましょう.まず,相棒が黙秘した場合です.あなたが黙秘すると (黙秘,黙秘)の組になり,あなたは懲役 3 年になります.反対に,自白すると(自白, 黙秘)の組になり,あなたは懲役 1 年になります.ということは,相棒が黙秘した場合に は,あなたは自白したほうが得になります. (自白,黙秘)の組に目印をつけておきましょ う. 同様にして,相棒が自白した場合には,黙秘の 10 年と自白の 5 年を比べて,あなたは自 白を選ぶことになります.結局,相棒の戦略にかかわらず,あなたは自白を選びます.こ のように,相手の戦略にかかわらず,自分の戦略が 1 つに決まることを「支配戦略」とい います. 相棒も他の部屋で同じゲームをしています.相棒は,あなたが黙秘した場合と自白した 場合でそれぞれ戦略を決めています.利得表をみながら,相棒の戦略をみていってくださ い.相棒も自白の支配戦略を持つことが分かります. あなたと相棒の戦略をみた後には,利得表に目印が何個かついていますね.あなたの戦 略の目印と,相棒の戦略の目印の 2 つがついている組(自白,自白)があります.ここが, 「ゲームの解」で,このゲームの結論です.このルールの下でのゲームの解を「ナッシュ 均衡」とも言います. CHECK POINT ナッシュ均衡は 1 つとは限りません.ナッシュ均衡が 2 つあるゲームもあります し,ナッシュ均衡がないゲームもあります.ナッシュ均衡の数は,利得表によって 変わってきます. CHECK POINT A の利得しか表示していない利得表もよくあります.このときの B の利得は,A の利得にマイナスをつけるか,A の利得+B の利得=100 となっているかのどちら かです.問題文に表記してあるので,チェックが必要です. 34 ミクロマクロ経済学Ⅰ さて,囚人のジレンマをよくみてみましょう.このゲームの特徴は,ナッシュ均衡が望 ましい解ではないということです.ナッシュ均衡は, (自白,自白)ですが,これは 2 人と も懲役 5 年です. (黙秘,黙秘)では,2 人とも懲役 3 年ですから,こちらのほうが望まし いのに,ここには目印が 1 つもありません.経済学では「望ましい」ということを表す言 葉がいくつかありますが,その中でもよく使われる言葉に「パレート最適」というものが あります.囚人のジレンマでは,2 人のプレーヤーはパレート最適に達することができま せん. 囚人のジレンマは,さまざまなストーリーに応用されています.例えば,プレーヤーを イスラエルとパレスチナにします.そうして,黙秘→和平,自白→戦闘として,懲役 3 年 を死者 3 万人というようにゲームを変えると,今の状況を表していることになります. 5−1.繰り返しゲーム 囚人のジレンマをみて,自分の考えとは違う,と感じる人も多いと思います.たとえ, 「各プレーヤーは,自己の利得が最大になるような戦略を選択する」というルールの下で も,黙秘を選ぶ人が多いのではないでしょうか.これは,相棒として友人や家族など関係 の深い人を想定しているためです.囚人のジレンマであっても,相手と長期的な関係が続 く場合には,ゲームの解が変わることが知られています.そこで,次のゲームをみてみま しょう. 新しいゲーム B の戦略 A の 戦 略 協調 裏切 協調 (3,3) (0,5) 裏切 (5,0) (1,1) このゲームは,(裏切,裏切)がナッシュ均衡になり,囚人のジレンマを表しています. 1 回限りのゲームだと, (裏切,裏切)でゲームが決着しますが,ゲームが繰り返し行われ る場合には,どちらかが裏切ると相手との信頼関係が損なわれて(裏切,裏切)が続く可 能性が高くなります.そうすると, (協調,協調)を選び続けたときよりも,合計利得(得 点)が少なくなってしまいます. アクセルロッドは,繰り返しゲームの研究を行い,世界中からプログラムを募集して, コンピュータにゲームをさせました.サッカーのようにリーグ戦を行い,得点順で成績を つけたところ,2 つの大会で同じプログラムが優勝しました. それは,「オウム返し戦略(しっぺ返し戦略)」とよばれるものです.これは,1 手目は 協調を選びます.その後は,相手の戦略を真似していくだけです.とても単純なプログラ ムですが,このプログラムが優勝しています. オウム返し戦略は,相手が協調し続けている限りは,自分も協調し続けます.しかし, 相手が裏切った場合には,自分も次に裏切って相手に罰を与えます.オウム返しと似た戦 35 ミクロマクロ経済学Ⅰ 略に「トリガー戦略」というものがありますが,これは,相手が 1 度でも裏切ると,その 次からゲームが終わるまでずっと裏切り続けます.これに対して,オウム返しでは,相手 が協調に戻ると,自分も次に協調に戻ります.オウム返しは,相手の裏切りには罰を与え るものの,協調に戻ればそれを許す柔軟性を持っています.これが長期的な得点を高くす るのです. ここから,1 回限りのゲームでは,裏切りベースの戦略を採りますが,繰り返しゲーム では協調ベースの戦略が有効であることが分かります. §.授業で扱っていないトピック ミニマックス均衡 混合戦略 ゲームの樹 サブゲーム 36