対話型AI「ChatGPT」などに使われる言語モデルは複雑なタスクを実行することが実証されていますが、これをロボットに応用する場合、状況にあった動作を行うために言語モデルはより詳しい情報を収集する必要があります。Googleとベルリン工科大学のAI研究者グループは、カメラで捉えた映像とテキストによる指示を理解できる新しい言語モデル「PaLM-E」を開発したことを明らかにしました。このモデルを使うことにより、「引き出しからお菓子を持ってきて」というような複雑な命令をロボットが処理できるようになります。 PaLM-E: An Embodied Multimodal Language Model https://palm-e.github.io/ Google’s PaLM-E is a generalist robot brain that takes commands | Ars Techn
![Googleが視覚とテキストから人間のように理解するロボット向け言語モデル「PaLM-E」を発表、「お菓子を持ってこい」などの複雑な命令も遂行可能](https://cdn-ak-scissors.b.st-hatena.com/image/square/6f356c3295060afa126dae44f9cc0e3075c0fe10/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2023%2F03%2F09%2Fgoogle-palm-e%2F00.png)