米Googleと独ベルリン工科大学の研究者らは3月6日、ロボット制御のための具現化されたマルチモーダルな視覚言語モデル「PaLM-E」についての論文を発表した。視覚と言語を統合する、5620億ものパラメータを備えた視覚言語モデル(VLM)だ。 PaLM-E(Pathways Language Model with Embodied)は、Googleが昨年のGoogle I/Oで発表した大規模言語モデル(LLM)「PaLM」をベースにしており、画像や状態推定などの視覚的な入力を受け取り、自然言語で出力できる。これにより、ロボットは人間の音声による命令を受けてタスクを実行できる。 例えば、ロボットに「引き出しからスナックの袋を出して持ってきて」と口頭で頼むと、ロボットは頭脳であるPaLM-Eと搭載したカメラの視野に映る情報に基づいて命令を実行に移す。 Githubで公開された動画では、ロボット