少し誤解している人がいらっしゃるようなので補足します。 まず、人間の棋譜を参考にせずに学習させようとした場合、探索で正しい手が指せるのは詰みの絡む局面(≒終盤)だけなので、終盤の指し手から(開始して、それを前倒ししていき、最終的に序盤の指し手を)学習させるというのは当然のことです。これは私のアイデアではないです。オセロのロジステロなど先行事例(10数年以上前から!)は多数あります。 この部分、誤解している人が多いので、以下に「ひまわり(将棋)」の山本さんのツイートを紹介しておきます。 https://twitter.com/kyamamoto9120/status/529958077491970049 https://twitter.com/kyamamoto9120/status/529960169023631360 その上で私のアイデアは、二点あります。 一つは、学習に強化学習(TD法