タグ

algorithmとaiに関するkiririmodeのブックマーク (6)

  • OpenSearch における 10 億規模のユースケースに適した k-NN アルゴリズムの選定 | Amazon Web Services

    Amazon Web Services ブログ OpenSearch における 10 億規模のユースケースに適した k-NN アルゴリズムの選定 この記事は、Choose the k-NN algorithm for your billion-scale use case with OpenSearch を翻訳したものです。 自然言語処理 (NLP) システムや、レコメンドエンジン、または検索システムなどの機械学習 (ML) アプリケーションを構築しようとすると、ワークフローのどこかで k 最近傍 (k-NN) 検索アルゴリズムを使用することがよくあります。データポイントの数が数億や数十億に達すると、k-NN 検索システムのスケーリングが大きな課題となります。近似最近傍 (ANN) 検索アルゴリズムは、この課題を解決するための優れた方法の 1 つです。 k-NN は、他の ML の技術と比

    OpenSearch における 10 億規模のユースケースに適した k-NN アルゴリズムの選定 | Amazon Web Services
    kiririmode
    kiririmode 2024/09/07
    近似最近傍検索に関するHNSW、IVF+PQの説明と比較。IVFはベクトルをクラスタリングしてクラスタ内のサブセットを検索。PQはベクトルを量子化することで情報量を削減
  • Hierarchical Navigable Small Worlds (HNSW) | Pinecone

    Hierarchical Navigable Small World (HNSW) graphs are among the top-performing indexes for vector similarity search[1]. HNSW is a hugely popular technology that time and time again produces state-of-the-art performance with super fast search speeds and fantastic recall. Yet despite being a popular and robust algorithm for approximate nearest neighbors (ANN) searches, understanding how it works is f

    Hierarchical Navigable Small Worlds (HNSW) | Pinecone
    kiririmode
    kiririmode 2024/09/07
    ベクトルの近傍検索で用いられるHNSWの構築/検索アルゴリズム。Mやefsearch、efconstructionを大きくすればrecallは大きくなるが構築/検索時間やメモリ使用量がトレードオフ
  • https://arxiv.org/pdf/2212.10496.pdf

    kiririmode
    kiririmode 2023/11/12
    HyDEの論文。HyDEでは、質問に対してLLMで仮想ドキュメントを生成した上で、その文書とナレッジベースとの関連を計算する形でretrievalを行う
  • RAGにおけるドキュメント検索精度向上について(概要編)

    はじめまして。損害保険ジャパン株式会社 DX推進部の眞方です。普段はリードエンジニアとして、新しいサービスのアーキテクチャ検討からローンチまでの作業や、新規技術を用いたアプリのプロトタイプ実装などを行なっています。 弊社では、LLM(Large Language Models)を活用したアプリケーションの開発を積極的に検討し、既に社内でいくつかのプロトタイプをローンチしています。 記事では、その最も一般的?なユースケースの一つとも言えるRAG(Retrieval Augmented Generative)の構築において、ドキュメント検索精度の向上にどのように取り組んだ内容の概要を紹介させていただきます。実際の詳細な手法および結果については、別記事(実践編)で解説予定です。 はじめに RAGとは? この記事を読まれている方の中にはご存知の方も多いでしょうが、RAGとはRetrieval A

    RAGにおけるドキュメント検索精度向上について(概要編)
    kiririmode
    kiririmode 2023/11/12
    RAGでのドキュメント検索精度を向上するためのさまざまな手法の紹介。対象ドキュメントをサマリしておいたり、質問の方を拡張したり(HyDE含む)、関連文書をre-rankingしたり。
  • BM25を数式から説明する - Qiita

    はじめに BM25は特に検索アルゴリズムに使われる自然言語処理の一つで、tf-idfの進化系である。具体的には単語の出現頻度に基づいて、文章の順位付けを行う。tf-idfとの違いはドキュメントが短いほど順位が高くつき、長いほど順位が低くつく傾向があるというところである。この記事では数式を紐どいて、BM25の性質を説明する。 数式 BM25の数式についてまず説明する。$D$を文章全体の集合(以下全文章と呼ぶ)、$d$は文章であり$D$の要素、$q$を検索クエリ($q_i\in q$)とした時のBM25の数式は以下のようなものである。 $$ score(q, d) = \sum_i idf(q_i)\times\frac{(k_1+1)f(q_i, d)}{f(q_i, d)+k_1(1-b+b\frac{|d|}{avg(dl)})} $$ $idf(q_i)$は単語$q_i$のidf、$f

    BM25を数式から説明する - Qiita
    kiririmode
    kiririmode 2023/11/12
    単語の出現頻度に基づいて文章間の関連の強さをランクづけする
  • GitHub - erikbern/ann-benchmarks: Benchmarks of approximate nearest neighbor libraries in Python

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - erikbern/ann-benchmarks: Benchmarks of approximate nearest neighbor libraries in Python
    kiririmode
    kiririmode 2023/11/08
    ベクトル検索のアルゴリズムANNのパフォーマンス比較
  • 1