5．ゲーム理論

by user

on 28 марта 2017

Category: Documents

>> Downloads: 4

views

Report

Comments

Description

Download 5．ゲーム理論

Transcript

5．ゲーム理論

ミクロマクロ経済学Ⅰ
５．ゲーム理論
この章では，各経済主体の戦略均衡について考えてみましょう．4 章までとは違う言葉
が出てきますので，しっかりおさえておきましょう．ゲーム理論は，何人かの天才によっ
て生み出されました．本章では扱いませんが，ゲーム理論といえば「ミニマックス均衡」
の事を指していた時代がありました．ミニマックス均衡は，フォン・ノイマンとモルゲン
シュテルンの『ゲームの理論と経済行動』で詳解されました．ノイマンは，ゲーム理論だ
けでなく，コンピュータや天気予報の理論も創りました．その後，ナッシュによってゲー
ム理論は発展しました．本章では，ナッシュ均衡についてみていきましょう．
ナッシュは数学を使って解説しましたが，その後「囚人のジレンマ」というストーリー
がつけられて，多くの人に知られるようになりました．
５−１．ナッシュ均衡
あなたと相棒は，銀行強盗の容疑をかけられています．2 人は，まったく
犯行を自供しないので，看守は一計を案じることにしました．
まず，2 人を別々の部屋に入れて相談ができないようにします．そうして，
2 人に同じ条件を提示します．そうして，
「相棒も同じ事をしている」と告げ
るのです．
さて，あなたはどうしますか？
あなたの戦略
看守が 2 人にみせたのは下表です．
相棒の戦略
黙秘
自白
黙秘
（3 年，3 年）
（10 年，1 年）
自白
（1 年，10 年）
（5 年，5 年）
ゲームに登場する「あなた」と「相棒」のことをプレーヤー，ゲームの得点を「利得」
といいます．プレーヤーと利得の組み合わせを表した表を「利得表」といいます．
表の横方向はあなたの戦略，縦方向は相棒の戦略です．表の数字は各プレーヤーの利得
（あなたの利得，相棒の利得）を表しています．あなたが黙秘，相棒が黙秘を選択すると，
組み合わせは左上になり，2 人とも懲役 3 年になります．同様に，あなたが黙秘，相棒が
自白を選択すると，組み合わせは右上になり，あなたは懲役 10 年，相棒は懲役 1 年になり
ます．
33
ミクロマクロ経済学Ⅰ
ゲームを進める上で，ゲームのルールが必要になります．
「囚人のジレンマ」のルールは，
「各プレーヤーは，自己の利得が最大になるような戦略を選択する」というものです．ゲ
ームを解きながら，ルールも確認してみましょう．
相棒は別の部屋にいて，どの戦略を採るのか分かりませんので，どちらの戦略を採って
もいいように考えておきましょう．まず，相棒が黙秘した場合です．あなたが黙秘すると
（黙秘，黙秘）の組になり，あなたは懲役 3 年になります．反対に，自白すると（自白，
黙秘）の組になり，あなたは懲役 1 年になります．ということは，相棒が黙秘した場合に
は，あなたは自白したほうが得になります．
（自白，黙秘）の組に目印をつけておきましょ
う．
同様にして，相棒が自白した場合には，黙秘の 10 年と自白の 5 年を比べて，あなたは自
白を選ぶことになります．結局，相棒の戦略にかかわらず，あなたは自白を選びます．こ
のように，相手の戦略にかかわらず，自分の戦略が 1 つに決まることを「支配戦略」とい
います．
相棒も他の部屋で同じゲームをしています．相棒は，あなたが黙秘した場合と自白した
場合でそれぞれ戦略を決めています．利得表をみながら，相棒の戦略をみていってくださ
い．相棒も自白の支配戦略を持つことが分かります．
あなたと相棒の戦略をみた後には，利得表に目印が何個かついていますね．あなたの戦
略の目印と，相棒の戦略の目印の 2 つがついている組（自白，自白）があります．ここが，
「ゲームの解」で，このゲームの結論です．このルールの下でのゲームの解を「ナッシュ
均衡」とも言います．
CHECK
POINT
ナッシュ均衡は 1 つとは限りません．ナッシュ均衡が 2 つあるゲームもあります
し，ナッシュ均衡がないゲームもあります．ナッシュ均衡の数は，利得表によって
変わってきます．
CHECK
POINT
A の利得しか表示していない利得表もよくあります．このときの B の利得は，A
の利得にマイナスをつけるか，A の利得＋B の利得＝100 となっているかのどちら
かです．問題文に表記してあるので，チェックが必要です．
34
ミクロマクロ経済学Ⅰ
さて，囚人のジレンマをよくみてみましょう．このゲームの特徴は，ナッシュ均衡が望
ましい解ではないということです．ナッシュ均衡は，
（自白，自白）ですが，これは 2 人と
も懲役 5 年です．
（黙秘，黙秘）では，2 人とも懲役 3 年ですから，こちらのほうが望まし
いのに，ここには目印が 1 つもありません．経済学では「望ましい」ということを表す言
葉がいくつかありますが，その中でもよく使われる言葉に「パレート最適」というものが
あります．囚人のジレンマでは，2 人のプレーヤーはパレート最適に達することができま
せん．
囚人のジレンマは，さまざまなストーリーに応用されています．例えば，プレーヤーを
イスラエルとパレスチナにします．そうして，黙秘→和平，自白→戦闘として，懲役 3 年
を死者 3 万人というようにゲームを変えると，今の状況を表していることになります．
５−１．繰り返しゲーム
囚人のジレンマをみて，自分の考えとは違う，と感じる人も多いと思います．たとえ，
「各プレーヤーは，自己の利得が最大になるような戦略を選択する」というルールの下で
も，黙秘を選ぶ人が多いのではないでしょうか．これは，相棒として友人や家族など関係
の深い人を想定しているためです．囚人のジレンマであっても，相手と長期的な関係が続
く場合には，ゲームの解が変わることが知られています．そこで，次のゲームをみてみま
しょう．
新しいゲーム
B の戦略
A
の
戦
略
協調
裏切
協調
（3，3）
（0，5）
裏切
（5，0）
（1，1）
このゲームは，（裏切，裏切）がナッシュ均衡になり，囚人のジレンマを表しています．
1 回限りのゲームだと，
（裏切，裏切）でゲームが決着しますが，ゲームが繰り返し行われ
る場合には，どちらかが裏切ると相手との信頼関係が損なわれて（裏切，裏切）が続く可
能性が高くなります．そうすると，
（協調，協調）を選び続けたときよりも，合計利得（得
点）が少なくなってしまいます．
アクセルロッドは，繰り返しゲームの研究を行い，世界中からプログラムを募集して，
コンピュータにゲームをさせました．サッカーのようにリーグ戦を行い，得点順で成績を
つけたところ，2 つの大会で同じプログラムが優勝しました．
それは，「オウム返し戦略（しっぺ返し戦略）」とよばれるものです．これは，1 手目は
協調を選びます．その後は，相手の戦略を真似していくだけです．とても単純なプログラ
ムですが，このプログラムが優勝しています．
オウム返し戦略は，相手が協調し続けている限りは，自分も協調し続けます．しかし，
相手が裏切った場合には，自分も次に裏切って相手に罰を与えます．オウム返しと似た戦
35
ミクロマクロ経済学Ⅰ
略に「トリガー戦略」というものがありますが，これは，相手が 1 度でも裏切ると，その
次からゲームが終わるまでずっと裏切り続けます．これに対して，オウム返しでは，相手
が協調に戻ると，自分も次に協調に戻ります．オウム返しは，相手の裏切りには罰を与え
るものの，協調に戻ればそれを許す柔軟性を持っています．これが長期的な得点を高くす
るのです．
ここから，1 回限りのゲームでは，裏切りベースの戦略を採りますが，繰り返しゲーム
では協調ベースの戦略が有効であることが分かります．
§．授業で扱っていないトピック
ミニマックス均衡
混合戦略
ゲームの樹
サブゲーム
36