(賭博は法律で禁止されているから考えたくないという方は,これは,仮想の国でのお話しと思って頂くか,お金の替わりにゲーム用のメダルを考えてください。
「じゃんけんぽん,アイコでしょ…」というかけ言葉,
関東近辺でよく使われていますが,他の地域はどんなかけ言葉は?)
前節と同様に,との出す手によって,貰えるお金,支払うお金がどうなるか,
の立場で以下のように
<利得表2>に表しておきます。
<利得表2>
0 | -10 | 10 | |
10 | 0 | -10 | |
-10 | 10 | 0 |
「-10」はに10円払う事を表します。
の立場に立ってみます。先ず,このゲームの利得表には、前節で説明した鞍点がありません。双方が選択の余地のない「平衡状態」にする戦略はないわけです。出す手をランダムしてゲームを繰り返す方法以外ありません。このような問題を混合戦略問題といいます。
じゃんけんを繰り返すわけですが,どのような「戦略」があるでしょうか?
グーを出し続ける? でも,はそれを直ぐ見破って,
パーを出し続けてくるでしょう。続ければ続けるほどは大損です。
同様にパーを出し続けるのも駄目,チョキを出し続けるのも駄目です。
結局,例えば,サイコロを用意して,出た目によって出す手を決めるランダムな手の繰り返す方法でしょう。
(1か6ならグー,2か5ならパー,3か4ならチョキなど)
問題は,どんな割合で(確率で)グー,チョキ,パーを出すべきかです。
相手のはの出す手を監視しながら
と対戦しますので,が選択したグー,チョキ,パーの確率を直ぐに見破り,
それでも,自分にとって有利
な手を選択してくると考えるべきです。
との立場を替えても全く同じです。
ゲームの理論を創始し,この種の問題に解を与えたのが,ノイマン(
現在の計算機の原理開発者としても有名)です。
前節の鞍点のある問題と異なり,一工夫が必要です。それは,ゲームの利得 の替わりに期待値を使います。以下、その説明をします。
が選択する戦略(グー,チョキ,パーを出す確率)をとし,
で表しておきます。
このゲームの場合、「戦略」は幾つかある「手」をランダムに選んで繰り返す
確率の組み合わせになるわけです。
同様にが選択する戦略を
で表しておきます。
という計算を全て行いますと
です。
です。
簡単のための採り得る集合を
で表しておきます。前節のと異なり,それぞれ,確率を要素にもつベクトルの 集合になっています。
がの中から選択されるとはこれに対抗して
が最小になるように
(自分の損失が最小になるように)
を中で選択するはずです。
すなわち
が実現されるとなるようなをの中から探すことになります。
この最大値を
まっく逆のQの立場からは,
がの中から選択されるとはこれに対抗して
が最大になるように
を中で選択するはずです。
すなわち
以上出てきた,2つの値には一般には
という関係が成り立っています。
証明は前節のの場合と全く同じなので
省略します。
ノイマンは上のような問題では,の中に
となることを証明しました。
その証明についての話しは後の章ということにして,
このとを具体的求めることにします。
問題を解きやすくするため,最初に出てきた<利得表>
(損失と利益の表)の要素に全て10を加えて
おきます。
<利得表2>
10 | 0 | 20 | |
20 | 10 | 0 | |
0 | 20 | 10 |
これでは,一方的なのゲームじゃないかと思われるかもしれませんが,
も,も,も未知な量ですが
は判っているもの
として
に注目します。
で,
という条件を満たせば,任意のについて
〜の両辺をで割り,
として,
から
結局,線形計画法の問題
を最小化する。
という問題が出てきます。後は,先日から御紹介しているMicrosoft Excel
のsolver などツールが利用できます。実際,この問題を解いてみて下さい。
その解から
とすれば,の最適戦略が求まります。
との役目を交換しても全く同じなので,です。 最初の<利得表2>を用いれば,も求まります。