Google DeepMindが視覚および言語を行動に変換できる学習モデル「Robotic Transformer 2(RT-2)」を2023年7月28日に発表しました。RT-2を搭載したロボットは「イチゴを正しいボウルに入れて」「机から落ちそうな物を持ち上げて」といった指示を実行できる他、学習データに含まれていない指示も高い精度で実行可能です。 RT-2: New model translates vision and language into action https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action What is RT-2? Google DeepMind’s vision-language-action model for robotics http
![Googleが学習していない環境でも「○○を動かして」などの複雑な指示を実行できるロボットAI「RT-2」を発表](https://cdn-ak-scissors.b.st-hatena.com/image/square/26aafba4069affc585129711144133061299baa1/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2023%2F07%2F31%2Fgoogle-rt-2-vision-language-action-model-ai%2F00.jpg)