「急に転勤を言われ、4月から新しい職場に行っていますが、先輩(年下)の意地悪ときつい言葉に毎日辛い思いをして、会社を出た途端帰り道涙が止まりません。
![妻の小言。](https://cdn-ak-scissors.b.st-hatena.com/image/square/92da61a0f168c525e96cc19de889df95fe7e0e0f/height=288;version=1;width=512/https%3A%2F%2Fpds.exblog.jp%2Flogo%2F1%2F197001%2F01%2F23%2Fa010092320240321231516.jpg)
CSAの例会のコメントを見ると、柿木さんは「Bonanzaに習って私も学習してみました」と書かれてました、 このような集められる情報を、それこそ目を皿のようにして読みました。 TD法も勉強しました。最急降下法も勉強しました。ロジステロの学習法も学びました。 はじめは、ロジステロのように学習しようと思いましたが、 「正確な評価値?」分かりません_| ̄|○ 終盤ではなく、序盤・中盤で、正確な値は分からない。 Bonanzaがやっている学習は、正確な評価値を出すように評価関数を最適化しているのではなくて、 棋譜の手とよく一致するように評価関数を最適化しているのでした。 では、TD法とどう違うのか? TD法による学習は、棋譜ではなく、相手と対局して、状況の変化を利用していました。 オセロは将棋のように静止探索をしないでいいので、ある局面の評価=その局面の評価で済むのです。 将棋は違います。 それを
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く