今、AI(人工知能)によりロボットの世界が様変わりしようとしている。人間は五感を使って周囲の環境を認識し、行動する。同様にロボットも、外部環境と適切にインタラクションするために、視覚、聴覚、触覚など複数の感覚器を使って、異なる種類のデータ、すなわちマルチモーダルなデータを統合的に処理し、動作を生成する能力が必要になってくる。 環境の認識から動作の生成までを扱うEnd-to-End モデル 従来のロボットは感覚器ごとに処理が異なり、動作の生成も感覚器の処理とは独立していた。ところが近年のAI、特に大規模言語モデル(LLM:Large Language Model)の中核をなす「Transformer」は、単体でマルチモーダルなデータの扱いを可能にした。それだけではない。同じTransformerモデルによって複雑な動作も生成できるようになってきた。 これは、環境の認識から動作の生成までを1つ