機械学習における強化学習の一種である「Q学習」は、行動主体となるエージェントが現在の状況と未来の状況、そして得られる報酬から最適な答えを学習する手法です。そんなQ学習にベイズ推定の要素を取り込む研究が機械学習エンジニアのBrandon Da Silva氏によって行われています。 brandinho.github.io/bayesian-perspective-q-learning/ https://brandinho.github.io/bayesian-perspective-q-learning/ Q学習の基本的な考え方は「ある状態の価値(Q値)は、得られる報酬と次の時点の状態の価値から決まる」というもので、以下の式で表されます。「q(s, a)」は現在の状態からある行動を取った時の価値、「r」は得られる報酬、「q(s', a')」は次の地点での状態からある行動を取った時の価値を表して