はじめに 以前 足し算ゲームを強化学習で学習できるか? を試してみて、問題なく学習ができました。 今回はもう少し現実的な問題を想定してみようと思います。 Webサイトに来るユーザに対して、Webサイト運営者が「あるアクション(メール?クーポン?など)」を起こすと、望ましい行動(そのユーザが何か購入するなど)を取る、とします その時、どのユーザにどのタイミングでどのアクションを取ればいいか、を知りたい という問題があります。 まあ、メールぐらいなら全員に送れば良いじゃん的な話はありますが、送りすぎると離脱に繋がりますし、クーポンはコストもかかるのであまり乱発したくはないです。 この問題を Q-Learning的な枠組みでやったらどうなるのだろうか、というのが今回のお題です。 Q-Learningだと、アクションが複数になっても対応できるのが良い所です。 といっても、簡単な完全に仮想的なシチュ