タグ

docsとsearchに関するsh19910711のブックマーク (2)

  • ColQwen2(Colpali)による日本語PDFのページ検索(上位スコアの抽出とフィルタリング)+ Qwen2-VLでQ&A

    はじめに 今回はColQwen2を使った日PDFのページ検索を試してみます。 具体的には以下を(個別のpythonスクリプトで)実装してます。 create_embedding.py : 日PDFをベクトル化してインデックスを作成 search_pdf.py : 作成したインデックスを用いて検索クエリからPDFの検索を実行後、検索結果として上位スコア5件(ページ)を出力 search_pdf_normalize.py : 作成したインデックスを用いて検索クエリからPDFのページ検索を実行後、検索結果のスコアを正規化(Min-Max法)して0.6以上の結果をフィルタリングして出力 search_pdf_qa.py : 上位スコア1件を検索後、Qwen2-VLを用いてQ&Aを実行 ColQwen2とは ColQwen2は、画像からインデックスを作成して検索可能にするColPaliという

    ColQwen2(Colpali)による日本語PDFのページ検索(上位スコアの抽出とフィルタリング)+ Qwen2-VLでQ&A
    sh19910711
    sh19910711 2025/04/30
    2024 / "ColQwen2: 日本語PDFもいい感じに検索 / サイズが大きいとそれだけメモリの消費量が大きくなるため、(特に「max_pixels」には)適切な値を設定することをお勧め"
  • 【自然言語】近傍検索を使って、PDFの関連部分にマークをつける

    やること chatGPTにしろperplexityにしろ、ハルシネーションのリスクは常に付きまとっており、間違った答えを返されるくらいなら、答えの生成まで不要というシーンも多々あります。 そこで、PDFの文書から探したい場所を見つけ出して、その部分にマーカーを引く機能を実装します。 今回はキリンのサスティナビリティレポートを題材にしてみます。 (なぜサスティナビリティレポートかというと、私の職が某製造業のサスティナビリティ部門だからです。ちなみにキリンの社員ではありません) ※ 以前PDFの読み込みやFAISSを用いた近傍検索の記事を書きました。これらの更新版です。 環境設定 2024年10月7日にpython3.13.0が正式にリリースされました。少し遅れて日、pyenvもpython3.13.0をインストールできるようになり、早速私も試してみました。 ですが、現時点ではFAISS、

    【自然言語】近傍検索を使って、PDFの関連部分にマークをつける
    sh19910711
    sh19910711 2025/03/05
    2024 / "PDFの文書から探したい場所を見つけ出して、その部分にマーカーを引く / Unstructured: 有料になった + 月1000ページまでは無料 / コードに書いてあるとおり、ptとmmは25.4/72で換算でき"
  • 1