gokichanのブックマーク / 2007年4月12日

Bonanzaの学習法 - 小宮日記

CSAの例会のコメントを見ると、柿木さんは「Bonanzaに習って私も学習してみました」と書かれてました、このような集められる情報を、それこそ目を皿のようにして読みました。 TD法も勉強しました。最急降下法も勉強しました。ロジステロの学習法も学びました。はじめは、ロジステロのように学習しようと思いましたが、「正確な評価値？」分かりません＿|￣|○ 終盤ではなく、序盤・中盤で、正確な値は分からない。 Bonanzaがやっている学習は、正確な評価値を出すように評価関数を最適化しているのではなくて、棋譜の手とよく一致するように評価関数を最適化しているのでした。では、TD法とどう違うのか？ TD法による学習は、棋譜ではなく、相手と対局して、状況の変化を利用していました。オセロは将棋のように静止探索をしないでいいので、ある局面の評価＝その局面の評価で済むのです。将棋は違います。それを

はてなブックマーク

タグ

2007年4月12日のブックマーク (2件)

妻の小言。

Bonanzaの学習法 - 小宮日記

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス