タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

ゲーム理論に関するyowaのブックマーク (6)

  • Nicolò Cesa-Bianchi - Selected papers

    yowa
    yowa 2008/04/11
    > "Finite-time analysis of the multiarmed bandit problem"
  • しっぺ返し戦略の優位は幻想である | wrong, rogue and log

    3日前のエントリで、Dreber, A. et al.の"Winners don't punish"を紹介したのだが、そのときにAxelrodの有名な「しっぺ返し戦略("Tit for Tat strategy")」について触れた。じつは、そのしっぺ返し戦略は、真っ当なゲーム理論家にとっては、お笑い話の幻想にすぎず、決して他を圧倒するような戦略になり得ないのは常識である、という話。 この話は、Tim Harfordのブログ経由で、ゲーム理論の権威であるKen BinmoreのAxelrodのに対する書評にあった。なんとこの書評は10年前に書かれたものだ。まさに蒙を啓かされるとはこのことか。 実際に網羅的なシミュレーションを行うと、しっぺ返し戦略が生き残るのは20%未満、それも中間状態の一時的現象にすぎず、結局最終的には「ずるい戦略」が勝ち残ってしまうそうなのだ。Probst, D. 19

    しっぺ返し戦略の優位は幻想である | wrong, rogue and log
  • UCTを利用したモンテカルロ法とミスに着目したゲームの特性 - マッタリプログラミング日誌

    コンピュータ将棋協会のブログで知ったのですが、ゲームプログラミングの学会GPW2007の話題の中心はボナンザタイプの機械学習による評価関数のデザインと、UCTらしい。 機械学習については、以前調べて、大体のどんな感じのものかおぼろげに理解したけれど、UCTってなんなのか、まったく言葉すら知らなかったのでちょっと調べてみた。 ついでにプログラムを組んでみた。 UCTって何か? これは、モンテカルロ囲碁で最近流行の手法で、UCB1を使ってゲームの木のノードを下ってからモンテカルロシミュレーションする手法のことらしい。 UCB1ってなにか? ぶっちゃた言い方をすると、パチンコの台選びを想像するのが理解しやすいかも。 釘が読めない前提でパチンコで台を選ぶとき、それぞれの台を試し打ちして、スタートチャッカーへの入賞率が高い台(いわゆる良く回る台)を探す。 そのとき、「そこそこ回るパチンコ台を見つけた

    UCTを利用したモンテカルロ法とミスに着目したゲームの特性 - マッタリプログラミング日誌
  • やねうらお―よっちゃんイカは買ってもレニエのお菓子は買わない男 - アタック25必勝陣形について

    3月25日放送分のアタック25で以下のような陣形になった。 □□■□□ □□■□□ ■■■■■ □□■□□ □□■□□ (■は緑、□は空き) 以下、イノセンスさんによる解説文。 まだ角を取る戦いが始まってないので勝負はここからのように思えるが、4人の解答者全員が自分にとって最も有益な行動を取った場合、なんとこの時点で緑の勝ちが確定する。この特殊な陣形を、私は「グランドクロス」と名づけた。 まず、アタック25の公式ルールによると、自分が引っくり返せるパネルがないときに正解したら、次に引っくり返せるパネルができるような位置を取らなければならない。 よって、グランドクロスの状況で緑以外の誰かが正解しても角にいきなり飛び込むことはできず、緑のパネルに隣接したどこかを取ることになる。ここでそのような取り方をしてしまうと、取った人以外の3人は次から角を取ることができるようになるにもかかわらず、取った

    やねうらお―よっちゃんイカは買ってもレニエのお菓子は買わない男 - アタック25必勝陣形について
  • Life is beautiful: ビルゲイツの面接試験―ジャンケン編 解説

    たくさんの方たちからさまざまな回答をいただいた「ビルゲイツの面接試験-ジャンケン編」。気が付いた人も多いようだが、この問題の面白さは、単なる数学の問題ではない点にある。中途半端な「ゲーム理論」の知識が逆にじゃまになったり、「数式を使って解けるはず」だとか「正解は一つだけあるにちがいない」などといった思い込みが答えの幅を狭くする。 「ゲーム理論」に基づいて解いて「グーとパーを50%ずつの割合でランダムに出すのが良い」という答えにたどり付いた人が何人かいたが、この方法は最適解とは言いがたい。その戦略で得られる期待値、125000円よりも多くの賞金が期待できる戦略が他にもあるし(後述)、相手がこちらがその手法を取っていることに気が付いて全部パーを出して来たときにどうしようもなくなる。 注目すべきなのは、これがゼロサムゲームではなく、二人で結託してパーとグーを交互に出し合って250000円ずつを得

  • 戦略ゲーム『繰り返し囚人のジレンマ』記念大会開催 | WIRED VISION

    戦略ゲーム『繰り返し囚人のジレンマ』記念大会開催 2004年10月15日 コメント: トラックバック (0) Wendy M. Grossman 2004年10月15日 イギリスのサウサンプトン大学のチームが、戦略ゲーム『繰り返し囚人のジレンマ』の誕生20周年記念大会で新しい戦略を用いて優勝し、長年のチャンピオンをその座から引きずりおろした。 ソフトウェア・エージェントを主要な研究分野とする同大学のチームは、プレイヤーたちに互いを認識させ、協調して行動させるための一連の動きを戦略に織り込んだ。 古典的ゲームの囚人のジレンマは、2人のプレイヤーを対象としたゲーム理論のモデルで、通常は次のように説明される。2人の共犯者が逮捕され、警察から別々に取り調べを受け、それぞれ同じ選択肢を与えられる――「自白する」(寝返り)か「黙秘する」(協調)かのどちらかだ。もし片方が寝返り、他方が協調した場合、寝返

  • 1