- 混合戦略ナッシュ均衡の求め方を知りたい人
- 純粋戦略ナッシュ均衡をマスターした人
前回では、純粋戦略ナッシュ均衡の求め方について紹介していきました。
純粋戦略ナッシュ均衡をマスターした次には、混合戦略ナッシュ均衡を求めることができるようになりましょう。
今回は、基本的なパターンの混合戦略ナッシュ均衡の求め方を紹介していきます。
基礎ができるようになれば、ゲーム理論を制したと言っても過言ではありません。
それくらい重要な考え方なので、ぜひマスターしてくださいね。

突然ですが、記事を読む前に3分だけ時間をください!
t-newsというサイトに登録すると、今だけAmazonギフト券500円がプレゼントされます!
- 大学生活のお役立ち情報が手に入る!
- 高時給家庭教師案件が豊富にある!
- 高時給採点バイトの案内が届いて荒稼ぎ可能!



興味のある方は下のボタンから登録してみてくださいね!
下のボタン以外からの登録だとAmazonギフト券はもらえないので注意してください!
そもそも混合戦略ってどういうこと?
まずは、混合戦略について簡単に説明していこうかと思います。
プレイヤーの各純粋戦略を選ぶ確率を指定する行動計画のこと



もっと噛み砕いて説明していこうかと思います
前回の純粋戦略ナッシュ均衡を求める時に、屋台の出店について取り上げました。
この場合、AさんもBさんもたこ焼き店か焼きそば店のどちらか一方を出店するのが純粋戦略です。
一方、混合戦略とは、例えば$1/3$の確率でたこ焼き店、$2/3$の確率で焼きそば店を出店するというものです。
混合戦略ナッシュ均衡の求め方(2×2)の場合
それでは、混合戦略ナッシュ均衡の求め方を解説していきます。
2×2の混合戦略ナッシュ均衡を求めるステップとしては以下の通りです。



2×2以外の混合戦略ナッシュ均衡は、難易度が高いので別記事で詳しくまとめます



また、ナッシュ均衡を学ぶフローはこちらの記事を参考にしてください!
少し話がそれましたが、混合戦略ナッシュ均衡は、以下のように求めることができます。
- 各プレイヤーの戦略の確率を$p$と$q$を用いて表現する
- 各プレイヤーの期待値を求める
- 期待値が最大になるような組み合わせを見つける
①:各プレイヤーの戦略の確率を$p$と$q$を用いて表現する
問題
Aさん\Bさん | たこ焼き | 焼きそば |
たこ焼き | (2, 3) | (4, 6) |
焼きそば | (6, 4) | (2, 3) |
この時の混合戦略ナッシュ均衡を求めよ。
まず、2×2の混合戦略ナッシュ均衡を求める問題と出会った時には、各プレイヤーが戦略を選ぶ確率を$p$と$q$を用いて表します。
例えば、Aさんがたこ焼きを選ぶ確率を$p$とします。
すると、Aさんが焼きそば店を選択する確率はどのように表せるでしょうか。
そうですね。$1 – p$と表現できます。



選択肢が2つしかないから、片方の確率を$p$とすると$1-p$と表現できるよ!
Aさんと同じようにBさんがたこ焼きを選ぶ確率を$q$とすると、どうなるでしょうか。



答えがわかった方は下のボックスをクリックして答え合わせしてみてください!
ここまで理解できたら、次のステップに移動していきます。
②:各プレイヤーの期待値を求める
次にするべきことは、各プレイヤーの期待値を求めることです。
まずは、Aさんの期待を求めていきましょう。
確率 | $q$ | $1-q$ | |
確率 | Aさん\Bさん | たこ焼き | 焼きそば |
$p$ | たこ焼き | (2, 3) | (4, 6) |
$1-p$ | 焼きそば | (6, 4) | (2, 3) |
この時、Aさんの期待値は以下の通りになります。
$E_A =$ $p \times {2q + 4(1-q)} $ $+$ $(1-p) \times {6q + 2(1-q)}$
赤線部分が、Aさんがたこ焼きを選択した時の期待値、青線部分がAさんが焼きそばを選択した時の期待値です。
これをさらに以下のように変形していきます。
$E_A =$ $p(2q +4 – 4q)$ $+ (1-q)(6q + 2 – 2q)$
$= p(4 – 2q) + (1-q)(4q + 2)$
$=$ $p(2-6q)$ $+$ $4q + 2$
式変形のポイントとしては、Pさんの意思が関わっている部分とそうでない部分に分けることです。
つまり、今回の例でいくと、$p$が含まれている部分(赤線)とそれ以外に分けるということです。
ここまでできれば、ほとんどやることは終わったと言っても過言ではありません。



Bさんの期待値については自分で計算してみてください!
③:期待値が最大になるような組み合わせを見つける
そして、最後にやることは期待値が最大になるような組み合わせを見つけるということです。
②で、AさんとBさんの期待値を実際に求めることができました。
- $E_A=$ $p(2-6q)$ $+$ $4q + 2$
- $E_B =$ $q(1 – 4p)$ $+ 3p + 3$
そこで、この期待値の式を利用してAさんとBさんの期待値を最大にするような戦略を見つけていくことにします。



まずはわかりやすくAさんからみていきましょう!
Aさんの期待値を最大にする戦略
Aさんの期待値は、$E_A=$ $p(2-6q)$ $+$ $4q + 2$で表すことができます。



まず着目すべきは赤線の部分です
赤線部分をみてみると、$(2-6q)$が正か負かで$p$の値が変わってくることはわかるでしょうか。



確率$p$は0から1までしかとらないから、$(2-6q)$が正の時は1、負の時は0をとると期待値が最大にできますね!
つまり、
- $q > \frac{1}{3}$の時、$p = 0$
- $q < \frac{1}{3}$の時、$p = 1$
- $q = \frac{1}{3}$の時、$p$はなんでも良い(期待値は変わらない)
ということになります。
これをBさんも同様に計算していきます。
Bさんの期待値を最大にする戦略
次に、Bさんの期待値を最大にする戦略を計算していきます。
Bさんの期待値、$E_B =$ $q(1 – 4p)$ $+ 3p + 3$のどこに着目するべきかはもう大丈夫でしょうか?



そうです!$q$が含まれている$q(1 – 4p)$に着目します
$1 – 4p$の正負によって、$q$が変化していくので場合わけをしていきます。
- $p > \frac{1}{4}$の時、$q = 0$
- $p < \frac{1}{4}$の時、$q = 1$
- $p = \frac{1}{4}$の時、$q$はなんでも良い(期待値は変わらない)



ここまでできればあと少しです!
頑張りましょう!
③:最適反応戦略を図示して答えを導く
そして最後に、最適反応戦略を図示して答えを導いていきます。


黄緑色がAさんの行動、赤色がBさんの行動になっています。
Aさんの最適戦略とBさんの最適戦略の交点が混合ナッシュ均衡になります。
そのため、今回の混合戦略ナッシュ均衡は以下のようになります。
(Aさんの戦略, Bさんの戦略) = $((0, 1), (1, 0))$, $((\frac{1}{4}, \frac{3}{4}), (\frac{1}{3}, \frac{2}{3}))$, $((1, 0), (0, 1))$



少し難しかったかもしれませんが、慣れれば解けるようになります!
演習問題も、今後用意していくのでぜひ参考にしてくださいね。



記事を最後まで読んでいただき、ありがとうございます!
最後に、3分だけ時間をください!
t-newsというサイトに登録すると、今だけAmazonギフト券500円がプレゼントされます!
- 大学生活のお役立ち情報が手に入る!
- 高時給家庭教師案件が豊富にある!
- 高時給採点バイトの案内が届いて荒稼ぎ可能!



興味のある方は下のボタンから登録してみてくださいね!
下のボタン以外からの登録だとAmazonギフト券はもらえないので注意してください!
コメント