はじめに この記事は、現在(2023年8月4日時点)パブリックプレビュー中のCognitive Searchのベクトル検索機能について、ベクトルDBの構築手順を解説する記事です。公式ドキュメントにはクイックスタート記事も公開されており、こちらのブログで日本語で丁寧に解説してくれています。 公式ドキュメントのクイックスタートを読んでいると、下記の課題に遭遇します。 PDFなどのドキュメントはどのように扱えばいいか? チャンク分割やベクトル生成は具体的にどのように行えばよいか? 言語アナライザーを日本にするにはどこを変えればよいか? インデックスを自動更新するにはどうすれば良いか? このような課題に対して、Azure公式のGitHubリポジトリにあるcognitive-search-vector-prにあるインデックス作成ツール(azure-search-vector-ingestion-py
![Cognitive Searchの生成AI用ベクトルDBの構築手順書 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/ef98c554a8890a45d84db7ba06d537b9eda686c0/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9Q29nbml0aXZlJTIwU2VhcmNoJUUzJTgxJUFFJUU3JTk0JTlGJUU2JTg4JTkwQUklRTclOTQlQTglRTMlODMlOTklRTMlODIlQUYlRTMlODMlODglRTMlODMlQUJEQiVFMyU4MSVBRSVFNiVBNyU4QiVFNyVBRiU4OSVFNiU4OSU4QiVFOSVBMCU4NiVFNiU5QiVCOCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1jbGlwPWVsbGlwc2lzJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9NDBlZWIyYjViOGVhYjc5ZjEzNDNkMjA5MTEwM2JjYjY%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTcxNiZ0eHQ9JTQwdG1peWF0YTI1JnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzImdHh0LWFsaWduPWxlZnQlMkN0b3Amcz0wOGNmNDRlNjU1MDRiYzBiYjA0YWQ5YjZhZjVhYzg5OQ%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D107264ec229c6087a9da1dcf01b73604)