米Metaは5月9日(現地時間)、マルチモーダルな情報をバインドするAIモデル「ImageBind」をオープンソース化したと発表した。 「マルチモーダル」は複数の「モダリティ」の処理が可能であることを示す。モダリティは、データの種類。ImageBindは、テキスト、画像および動画、音声、深度(3D)、熱(赤外線)、慣性測定単位(IMU)という6種類のモダリティの情報を単一の表現空間で学習する。 例えば、トラの写真を解析し、その吠え方、体温、動きなどの総合的な情報を生成したり、にぎやかな市場の音に基づいて市場の画像を生成したりできるという。 ImageBindは、モダリティの組み合わせごとのデータのトレーニングが不要で、複数のモダリティにわたって結合埋め込み空間を作成できる。 例えば、研究用に交通量の多い都市の道路からの音声データと熱データを1つのデータセットにすることも可能だ。 3Dセンサ