従来のAI技術では、画像処理分野では画像(視覚情報)、音声認識分野では音声(聴覚情報)など、1つの情報(モダリティ)を使うことが一般的です。しかし、人間など動物は単一のモダリティに基づいて思考や判断をしておらず、人間のように複数モダリティを利用する技術はAI技術の発展に繋がると考えられます。そのため、複数のモダリティを統合して扱うAI技術として登場したのがマルチモーダルAIです。複数のモダリティを活用することで、より正確に予測や推論ができるようになったり、今まで解決できなかった問題を解くことができるようになることが期待されており、様々な研究や論文が発表されている分野です。今回は、『Transformerを使った初めての物体検出「DETR」』で紹介した物体検出を行うDETRと、自然言語処理のRoBERTaを組み合わせた「MDETR」について解説します。また、MDETRで解決タスクとGoogl