米Googleと独ベルリン工科大学の研究者らは3月6日、ロボット制御のための具現化されたマルチモーダルな視覚言語モデル「PaLM-E」についての論文を発表した。視覚と言語を統合する、5620億ものパラメータを備えた視覚言語モデル(VLM)だ。 PaLM-E(Pathways Language Model with Embodied)は、Googleが昨年のGoogle I/Oで発表した大規模言語モデル(LLM)「PaLM」をベースにしており、画像や状態推定などの視覚的な入力を受け取り、自然言語で出力できる。これにより、ロボットは人間の音声による命令を受けてタスクを実行できる。 例えば、ロボットに「引き出しからスナックの袋を出して持ってきて」と口頭で頼むと、ロボットは頭脳であるPaLM-Eと搭載したカメラの視野に映る情報に基づいて命令を実行に移す。 Githubで公開された動画では、ロボット
![Google、マルチモーダルVML「PaLM-E」搭載ロボットのデモを公開](https://cdn-ak-scissors.b.st-hatena.com/image/square/c6a28d7ac83de8b5ca3cc5bc9a61621cd849401c/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fnews%2Farticles%2F2303%2F09%2Fcover_news182.jpg)