はじめに Chainerで機械学習と戯れる: Treasureゲームの強化学習を50日程続けた経過メモ から 更に60日以上経過しました。 賢い学習モデルでなくてもそれなりに目的は達成できるのか、というところに興味があるところです。 TreasureGameの現状 現在のハイスコア時の動きを動画にキャプチャしました。 https://youtu.be/iyBHR1gzumA ハイスコア更新にかかる時間 前回の記録を見ると、 「27万回」「107万回」「192万回」「207万回」「269万回」「297万回」「371万回」 でスコア更新していたようです。今回のを見ると 「549万回」「558万回」「1057万回」「1308万回」 でスコアを更新していたようです。 遂に1000万回突破してました。感慨深い。。 新しい動き 「549万回」目(0:43~)のときに、 敵をぐるっと一周するような動きを