タグ

NLPとvectorDBに関するAOI-CATのブックマーク (1)

  • 日本語文のベクトル化と、ベクトルDB Chromaへの登録・検索をローカル環境で実行する - AOI-CAT's diary

    はじめに このごろ多様なベクトルデータベースが開発されていますが、これまで扱ったことも基的なことも知らないままでした。 そこで日語の処理を念頭にして調査のうえ、実際に手を動かして扱いを確認しました。 この記事は、高い性能を示した日語文埋め込みモデル(cl-nagoya/sup-simcse-ja-base)を用いて日語文をベクトル化し、Chromaデータベースに登録して検索を行うまでの一連の作業メモです。 はじめに 調査 日語文のベクトル化について 文章のチャンク化について 日語文の区切りについて 日語文章の準備 Chromaへの登録 検索 クエリ 結果 ベクトル化文の足し引き コード 調査 日語文のベクトル化について 日語文をベクトル化することで、類似文の検索や自然言語処理タスクに利用できます。多くのモデルが利用可能ですが、記事ではローカル環境で動作する「cl-nag

    日本語文のベクトル化と、ベクトルDB Chromaへの登録・検索をローカル環境で実行する - AOI-CAT's diary
    AOI-CAT
    AOI-CAT 2024/05/25
    Chromaでcl-nagoya/sup-simcse-ja-largeを使って良い感じに日本語文をベクトル化して動かした。
  • 1