はじめに この記事では、ベクトル検索で似た文書を検索するコードを解説します。具体的には、Sentence Transformersライブラリを用いてベクトル化、Faissという近似最近傍探索ライブラリを用いて高速な検索を行います。 用語説明 ベクトル検索 ... 文書の検索にベクトルを使用する方法。例えば、文書に映画に関する内容が 10 %、音楽が 2 %、俳優が30%含まれていた時、シンプルにそれを表すと [0.1, 0.02, 0.3]というベクトルを作ることができる。Googleの説明が詳しい。 Sentence Transformers ... ベクトル検索に必要なベクトル化を行うためのライブラリ Faiss ... ベクトル同士の類似度を高速に検索してくれるライブラリ。以下のHakkyさんのページが詳しい。 コード 入力:検索したい文字のリスト、検索される文字のリスト 出力:どの
![似た文書をベクトル検索で探し出したい ~SentenceTransformersとFaissで効率的にベクトル検索~](https://cdn-ak-scissors.b.st-hatena.com/image/square/280b2a5cc54359d1780f24f3c3f457a34405bcb2/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--EPBJ1L5U--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E4%2525BC%2525BC%2525E3%252581%25259F%2525E6%252596%252587%2525E6%25259B%2525B8%2525E3%252582%252592%2525E3%252583%252599%2525E3%252582%2525AF%2525E3%252583%252588%2525E3%252583%2525AB%2525E6%2525A4%25259C%2525E7%2525B4%2525A2%2525E3%252581%2525A7%2525E6%25258E%2525A2%2525E3%252581%252597%2525E5%252587%2525BA%2525E3%252581%252597%2525E3%252581%25259F%2525E3%252581%252584%252520~SentenceTransformers%2525E3%252581%2525A8Faiss%2525E3%252581%2525A7%2525E5%25258A%2525B9%2525E7%25258E%252587%2525E7%25259A%252584%2525E3%252581%2525AB%2525E3%252583%252599%2525E3%252582%2525AF%2525E3%252583%252588%2525E3%252583%2525AB%2525E6%2525A4%25259C%2525E7%2525B4%2525A2~%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Anishimoto%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzZjZWNmNDMwYWMuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)