※この投稿は米国時間 2021 年 8 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。 強化学習(RL)は機械学習の形態の 1 つであり、エージェントが環境に対する行動を選択しながら、その一連の選択を通じて得られる目標(報酬)を最大化する方法を学習していくというものです。RL のアプリケーションの例として、学習ベースのロボット工学、自律走行車、コンテンツ配信などがあります。基本的な RL システムには、多くの状態、対応する行動、それらの行動に対する報酬が含まれています。これを映画のレコメンデーション システムで考えてみましょう。「状態」はユーザー、「行動」はユーザーにおすすめする映画、「報酬」は映画に対するユーザー評価に当てはめることができます。Applied ML Summit 2021 の基調講演 で Spotify が述べていたように、RL は ML
![Vertex AI を利用して強化学習レコメンデーション アプリケーションをビルドする | Google Cloud 公式ブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/3b6cc866966645c1860c08e3be68fbb1d48af21f/height=288;version=1;width=512/https%3A%2F%2Fstorage.googleapis.com%2Fgweb-cloudblog-publish%2Fimages%2Fgooglecloud_2022_RYqbQfm.max-2500x2500.jpg)