ゲーム理論

混合戦略ナッシュ均衡|誰でも5分で混合戦略ナッシュ均衡が求められます

こんな人におすすめ
  1. 混合戦略ナッシュ均衡の求め方を知りたい人
  2. 純粋戦略ナッシュ均衡をマスターした人

前回では、純粋戦略ナッシュ均衡の求め方について紹介していきました。

純粋戦略ナッシュ均衡をマスターした次には、混合戦略ナッシュ均衡を求めることができるようになりましょう。

今回は、基本的なパターンの混合戦略ナッシュ均衡の求め方を紹介していきます。

基礎ができるようになれば、ゲーム理論を制したと言っても過言ではありません。

それくらい重要な考え方なので、ぜひマスターしてくださいね。

そもそも混合戦略ってどういうこと?

まずは、混合戦略について簡単に説明していこうかと思います。

混合戦略とは

プレイヤーの各純粋戦略を選ぶ確率を指定する行動計画のこと

れん
れん
もっと噛み砕いて説明していこうかと思います

前回の純粋戦略ナッシュ均衡を求める時に、屋台の出店について取り上げました。

クリックすると問題が見れます

問題

まずは、AさんとBさんがお祭りの屋台を出店する場合を考えていきます。

お祭りの屋台で、たこ焼きと焼きそばのお店を出店すると考えたときに、AさんとBさんの利得が以下のようになると仮定します。

Aさん\Bさん たこ焼き 焼きそば
たこ焼き (2, 2) (4, 6)
焼きそば (6, 4) (3, 3)

この時のナッシュ均衡を求めよ。

この場合、AさんもBさんもたこ焼き店か焼きそば店のどちらか一方を出店するのが純粋戦略です。

一方、混合戦略とは、例えば$1/3$の確率でたこ焼き店、$2/3$の確率で焼きそば店を出店するというものです。

混合戦略ナッシュ均衡の求め方(2×2)の場合

それでは、混合戦略ナッシュ均衡の求め方を解説していきます。

2×2の混合戦略ナッシュ均衡を求めるステップとしては以下の通りです。

れん
れん
2×2以外の混合戦略ナッシュ均衡は、難易度が高いので別記事で詳しくまとめます
混合戦略ナッシュ均衡の求め方
  1. 各プレイヤーの戦略の確率を$p$と$q$を用いて表現する
  2. 各プレイヤーの期待値を求める
  3. 期待値が最大になるような組み合わせを見つける

①:各プレイヤーの戦略の確率を$p$と$q$を用いて表現する

問題

Aさん\Bさん たこ焼き 焼きそば
たこ焼き (2, 3) (4, 6)
焼きそば (6, 4) (2, 3)

この時の混合戦略ナッシュ均衡を求めよ。

まず、2×2の混合戦略ナッシュ均衡を求める問題と出会った時には、各プレイヤーが戦略を選ぶ確率を$p$と$q$を用いて表します。

例えば、Aさんがたこ焼きを選ぶ確率を$p$とします。

すると、Aさんが焼きそば店を選択する確率はどのように表せるでしょうか。

 

そうですね。$1 – p$と表現できます。

れん
れん
選択肢が2つしかないから、片方の確率を$p$とすると$1-p$と表現できるよ!

Aさんと同じようにBさんがたこ焼きを選ぶ確率を$q$とすると、どうなるでしょうか。

れん
れん
たこ焼きを選ぶ確率が$q$、焼きそばを選ぶ確率が$1-q$になりますね!

ここまで理解できたら、次のステップに移動していきます。

②:各プレイヤーの期待値を求める

次にするべきことは、各プレイヤーの期待値を求めることです。

期待値について知りたい方はこちら

統計学で、確率の見地から算定した平均値。一つの変量の各実現値とそれが起こる確率との積の総和。連続量の場合は積分で定義する。

引用:Oxford Languagesの定義より

簡単にいうと、$確率×利得$ということです。

まずは、Aさんの期待を求めていきましょう。

確率 $q$ $1-q$
確率 Aさん\Bさん たこ焼き 焼きそば
$p$ たこ焼き (2, 3) (4, 6)
$1-p$ 焼きそば (6, 4) (2, 3)

この時、Aさんの期待値は以下の通りになります。

$E_A =$ $p \times {2q + 4(1-q)} $ $+$ $(1-p) \times {6q + 2(1-q)}$

赤線部分が、Aさんがたこ焼きを選択した時の期待値、青線部分がAさんが焼きそばを選択した時の期待値です。

これをさらに以下のように変形していきます。

$E_A =$ $p(2q +4 – 4q)$ $+ (1-q)(6q + 2 – 2q)$

$= p(4 – 2q) + (1-q)(4q + 2)$

$=$ $p(2-6q)$ $+$ $4q + 2$

式変形のポイントとしては、Pさんの意思が関わっている部分とそうでない部分に分けることです。

つまり、今回の例でいくと、$p$が含まれている部分(赤線)とそれ以外に分けるということです。

ここまでできれば、ほとんどやることは終わったと言っても過言ではありません。

れん
れん
Bさんの期待値については自分で計算してみてください!
Bさんの期待値はこちら

$E_B =$ $q(1 – 4p)$ $+ 3p + 3$

③:期待値が最大になるような組み合わせを見つける

そして、最後にやることは期待値が最大になるような組み合わせを見つけるということです。

②で、AさんとBさんの期待値を実際に求めることができました。

AさんとBさんの期待値

$E_A=$ $p(2-6q)$ $+$ $4q + 2$

$E_B =$ $q(1 – 4p)$ $+ 3p + 3$

そこで、この期待値の式を利用してAさんとBさんの期待値を最大にするような戦略を見つけていくことにします。

れん
れん
まずはわかりやすくAさんからみていきましょう!

Aさんの期待値を最大にする戦略

Aさんの期待値は、$E_A=$ $p(2-6q)$ $+$ $4q + 2$で表すことができます。

れん
れん
まず着目すべきは赤線の部分です

赤線部分をみてみると、$(2-6q)$が正か負かで$p$の値が変わってくることはわかるでしょうか。

れん
れん
確率$p$は0から1までしかとらないから、$(2-6q)$が正の時は1、負の時は0をとると期待値が最大にできますね!

つまり、

  1. $q > \frac{1}{3}$の時、$p = 0$
  2. $q < \frac{1}{3}$の時、$p = 1$
  3. $q = \frac{1}{3}$の時、$p$はなんでも良い(期待値は変わらない)

ということになります。

これをBさんも同様に計算していきます。

Bさんの期待値を最大にする戦略

次に、Bさんの期待値を最大にする戦略を計算していきます。

Bさんの期待値、$E_B =$ $q(1 – 4p)$ $+ 3p + 3$のどこに着目するべきかはもう大丈夫でしょうか?

れん
れん
そうです!$q$が含まれている$q(1 – 4p)$に着目します

$1 – 4p$の正負によって、$q$が変化していくので場合わけをしていきます。

  1. $p > \frac{1}{4}$の時、$q = 0$
  2. $p < \frac{1}{4}$の時、$q = 1$
  3. $p = \frac{1}{4}$の時、$q$はなんでも良い(期待値は変わらない)
れん
れん
ここまでできればあと少しです!

頑張りましょう!

③:最適反応戦略を図示して答えを導く

そして最後に、最適反応戦略を図示して答えを導いていきます。

黄緑色がAさんの行動、赤色がBさんの行動になっています。

Aさんの最適戦略とBさんの最適戦略の交点が混合ナッシュ均衡になります。

そのため、今回の混合戦略ナッシュ均衡は

(Aさんの戦略, Bさんの戦略) = $((0, 1), (1, 0))$, $((\frac{1}{4}, \frac{3}{4}), (\frac{1}{3}, \frac{2}{3}))$, $((1, 0), (0, 1))$