はじめに このごろ多様なベクトルデータベースが開発されていますが、これまで扱ったことも基本的なことも知らないままでした。 そこで日本語の処理を念頭にして調査のうえ、実際に手を動かして扱いを確認しました。 この記事は、高い性能を示した日本語文埋め込みモデル(cl-nagoya/sup-simcse-ja-base)を用いて日本語文をベクトル化し、Chromaデータベースに登録して検索を行うまでの一連の作業メモです。 はじめに 調査 日本語文のベクトル化について 文章のチャンク化について 日本語文の区切りについて 日本語文章の準備 Chromaへの登録 検索 クエリ 結果 ベクトル化文の足し引き コード 調査 日本語文のベクトル化について 日本語文をベクトル化することで、類似文の検索や自然言語処理タスクに利用できます。多くのモデルが利用可能ですが、本記事ではローカル環境で動作する「cl-nag