エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
巡回セールスマン問題を深層強化学習で解いてみる - Qiita
強化学習はデータ探索の試行錯誤を伴うため、達成精度に対する必要データ量の効率は悪くなる傾向にあり... 強化学習はデータ探索の試行錯誤を伴うため、達成精度に対する必要データ量の効率は悪くなる傾向にあります。一方、性質の良くない系列(不正解)も含めて様々な詳細パターンを経験するため、最終的にはより豊富な表現が得られる可能性も秘めています。実際、参照論文では、元の教師ありの結果と比較し、より良い性能を発揮したことが報告されています。 一方、強化学習の大きなメリットは、ルールや達成したい目的のみから、supervisionやドメイン知識無しで自律的に学習を進めることができる点です。この論文のアプローチは、AlphaGo Zero3のように、ヒューリスティクスに準ずる(もしくは置き換わる)ような組合せ生成パターンを、ルールのみからスクラッチ学習しようという精力的な試みとなっています。 以上から推察される通り、本アプローチの適用ケースとしては - ヒューリスティクスが与えにくいような条件が複雑な難しい
2020/03/03 リンク