はじめに 今回はColQwen2を使った日本語PDFのページ検索を試してみます。 具体的には以下を(個別のpythonスクリプトで)実装してます。 create_embedding.py : 日本語PDFをベクトル化してインデックスを作成 search_pdf.py : 作成したインデックスを用いて検索クエリからPDFの検索を実行後、検索結果として上位スコア5件(ページ)を出力 search_pdf_normalize.py : 作成したインデックスを用いて検索クエリからPDFのページ検索を実行後、検索結果のスコアを正規化(Min-Max法)して0.6以上の結果をフィルタリングして出力 search_pdf_qa.py : 上位スコア1件を検索後、Qwen2-VLを用いてQ&Aを実行 ColQwen2とは ColQwen2は、画像からインデックスを作成して検索可能にするColPaliという
