はじめに 生成AI系アプリの開発では、LLMが専門的な質問にも回答できるようにするために、RAG(Retrieval Augmented generation)が広く使われています。このRAGのインプットには多様なファイル形式(たとえば、PDF, CSV, TXTなど)がサポートされていますが、最終的にはテキストの形でチャンクに分割し、各々のチャンクをベクトル化してベクトルストアに保存するというのが一般的なやり方となっています。 しかし、実際の文書にはテキストだけでなく、画像やテーブルもたくさんある場合が多く、本来ならこれらの情報もベクトルストアに保存するべきで、RAGの精度を高めていく際に本質的に重要です。 DALL-E 3で作成したMulti-modal RAGのイメージ画 今回の記事では、異なるデータタイプ(画像、テキスト、テーブル)を横断して、ベクトルストアを構成することが可能なM
![GPT-4VをつかったMulti-modal RAGの実装 (1) - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/85c7046567f1bc1c0b827e51fe2cf7b4f96fcc0d/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9R1BULTRWJUUzJTgyJTkyJUUzJTgxJUE0JUUzJTgxJThCJUUzJTgxJUEzJUUzJTgxJTlGTXVsdGktbW9kYWwlMjBSQUclRTMlODElQUUlRTUlQUUlOUYlRTglQTMlODUlMjAlMjgxJTI5JTIwJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz0yZTQ5MjBjZWU4OTVjMzMxNTdlNDdhODA0Yzk2ODY5Nw%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwbWFzaG1vZWlhcjExJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz05NDg1NzY4MDVjMzIwN2JlZmM4ZGNkOGJhNmY3YWFmNw%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3Dcd904346b38713b424719697f268413f)