強化学習はデータ探索の試行錯誤を伴うため、達成精度に対する必要データ量の効率は悪くなる傾向にあります。一方、性質の良くない系列(不正解)も含めて様々な詳細パターンを経験するため、最終的にはより豊富な表現が得られる可能性も秘めています。実際、参照論文では、元の教師ありの結果と比較し、より良い性能を発揮したことが報告されています。 一方、強化学習の大きなメリットは、ルールや達成したい目的のみから、supervisionやドメイン知識無しで自律的に学習を進めることができる点です。この論文のアプローチは、AlphaGo Zero3のように、ヒューリスティクスに準ずる(もしくは置き換わる)ような組合せ生成パターンを、ルールのみからスクラッチ学習しようという精力的な試みとなっています。 以上から推察される通り、本アプローチの適用ケースとしては - ヒューリスティクスが与えにくいような条件が複雑な難しい
![巡回セールスマン問題を深層強化学習で解いてみる - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/1a95c1c6d43dd623370b4e3416cb2b70239b8e4c/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-7940cd1c8db80a7ec40711d90f43539e.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU1JUI3JUExJUU1JTlCJTlFJUUzJTgyJUJCJUUzJTgzJUJDJUUzJTgzJUFCJUUzJTgyJUI5JUUzJTgzJTlFJUUzJTgzJUIzJUU1JTk1JThGJUU5JUExJThDJUUzJTgyJTkyJUU2JUI3JUIxJUU1JUIxJUE0JUU1JUJDJUI3JUU1JThDJTk2JUU1JUFEJUE2JUU3JUJGJTkyJUUzJTgxJUE3JUU4JUE3JUEzJUUzJTgxJTg0JUUzJTgxJUE2JUUzJTgxJUJGJUUzJTgyJThCJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnR4dC1jb2xvcj0lMjMzQTNDM0MmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmcz0yMGNkZDg2NzA0YWU3YjIxNTFmOWYzMzJhN2QzZWE5ZA%26mark-x%3D120%26mark-y%3D96%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9OTcyJnR4dD0lNDBwYW5jaG92aWUmdHh0LWNvbG9yPSUyMzNBM0MzQyZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTYxZjBjZTdlODM2ODkzMmJmYTZmNzkzMjRjNTNmNmEz%26blend-x%3D120%26blend-y%3D445%26blend-mode%3Dnormal%26txt64%3DaW4gQnJhaW5QYWQgSW5jLg%26txt-width%3D972%26txt-clip%3Dend%252Cellipsis%26txt-color%3D%25233A3C3C%26txt-font%3DHiragino%2520Sans%2520W6%26txt-size%3D36%26txt-x%3D134%26txt-y%3D546%26s%3Dd214c49a8e3849107e9b9767f5e47e3e)