人が外界を認識する時、「人通りの多い通りを見ながら、車のエンジン音を聞く」というように、視覚・聴覚・触覚・嗅覚・味覚という複数の感覚を同時に使います。MetaのAI開発部門であるMeta AIが、「テキスト」「画像と映像」「音声」「動きを計算する深度(3D)」「赤外線による熱」「慣性測定ユニット(IMU)による動き」という6つのデータを統合するオープンソースのAIモデル「ImageBind」を発表しました。 ImageBind: Holistic AI learning across six modalities https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/ IMAGEBIND: One Embedding Space To Bind Them All (PDFファイル)https://dl.fbaipu