タグ

情報検索に関するmisshikiのブックマーク (7)

  • BM25/Okapi BM25(情報検索のアルゴリズム)とは?

    用語「BM25」について説明。各文書中の各単語の重要性をバランスよく評価する尺度で、主に検索クエリに最も一致する文書を特定するのに用いられる。キーワード検索以外にも、類似文書の検索やレコメンデーションにも活用できる。計算式は「(ある単語の文書間でのレア度)×(ある文書における、ある単語の出現頻度、の正規化された値)」で、正規化するための調整パラメーターを持つ、tf-idfの発展版と見なせる。 連載目次 用語解説 情報検索/自然言語処理におけるBM25(Best Matching 25)とは、検索クエリに最もよく一致する文書を見つけ出すための統計的アルゴリズムの一つである。このアルゴリズムは、文書内での単語の出現頻度(tf:term frequency)と、その単語が含まれる文書の希少性(idf:inverse document frequency)を用いて、各文書内に含まれる各単語が「その

    BM25/Okapi BM25(情報検索のアルゴリズム)とは?
    misshiki
    misshiki 2024/04/22
    “各文書中の各単語の重要性をバランスよく評価する尺度で、主に検索クエリに最も一致する文書を特定するのに用いられる。”
  • ML 駆動の検索エンジンで企業の情報管理を革新 ! Amazon Kendra をグラレコで解説 - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS

    builders.flash 読者のみなさん、こんにちは ! テクニカルライターの米倉裕基と申します。 記事では、AWS が提供するエンタープライズ向けのインテリジェント検索サービス Amazon Kendra の機能と特徴を紹介します。 Kendra は、Amazon Simple Storage Service (Amazon S3)、Microsoft SharePoint、Salesforce など、複数のデータソースに分散するドキュメントを、自然言語で横断的に検索できるインテリジェントなエンタープライズ検索サービスです。Kendra は機械学習を活用することで、ユーザーの検索意図を理解し、関連性の高い結果を高速に返します。また、AWSAI/ML サービスと連携することで、ドキュメント以外の音声や動画などをインデックス化でき、単なる文書検索に留まらない、高度な検索システムの

    ML 駆動の検索エンジンで企業の情報管理を革新 ! Amazon Kendra をグラレコで解説 - builders.flash☆ - 変化を求めるデベロッパーを応援するウェブマガジン | AWS
    misshiki
    misshiki 2024/03/05
  • 情報検索の評価指標の弱点と選択バイアスを考慮した改善アプローチ - ZOZO TECH BLOG

    こんにちは。検索基盤部の山﨑です。検索基盤部では、ZOZOTOWNの検索機能の改善を目的とした施策の有効性をA/Bテストで検証しています。 A/Bテストは、新たな施策の有効性を評価する手法として信頼性の高い手法ではあるものの、下記のような制約があります。 統計的に有意な差が出るためには、多くのユーザーからのフィードバックが必要である 比較手法を実際のユーザーに提示するため、ユーザー体験に悪影響を与えるリスクがある これらの制約から、実験したい全ての施策をA/Bテストで検証することは困難なため、事前に有効な可能性が高い施策に絞った上でA/Bテストに臨むことが大切です。 事前に有効な可能性が高いことを示すためには、オフラインでの評価結果を活用します。しかし、オフライン評価とA/Bテストの結果は必ずしも一致しないことが知られており、ZOZOTOWNにおいても同様の問題が発生しています。 このよう

    情報検索の評価指標の弱点と選択バイアスを考慮した改善アプローチ - ZOZO TECH BLOG
    misshiki
    misshiki 2024/03/01
    “情報検索の評価指標で広く使われているnDCG(normalized Discounted Cumulative Gain)と MRR(Mean Reciprocal Rank)について説明。...近年、nDCGやMRRに対して選択バイアスを考慮するように拡張した評価手法が提案されています。”
  • A search engine in 80 lines of Python

    February 05, 2024 · 26 mins · 4728 words Discussion on HackerNews. Last September I hopped on board with Wallapop as a Search Data Scientist and since then part of my work has been working with Solr, an open source search engine based on Lucene. I’ve got the basics of how a search engine works, but I had this itch to understand it even better. So, I rolled up my sleeves and decided to build one fr

    misshiki
    misshiki 2024/02/08
    “80行のPythonで作られた検索エンジン” 検索エンジンがどのように機能するかの基本を理解するためにゼロから構築していく。面白そうですね。クローラーから。キーワード検索(BM25)。
  • Amazon Kendra で独自文書に対するセマンティック検索(自然言語での検索)を実現する - Taste of Tech Topics

    こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) ここ一か月、健康的な事を心がけ、 1kg 減量しました。 リモートワークだから仕方ないと思っていたのが、間違いでした。 さて、今回は Amazon Kendra での検索について検証していきます。 1. Amazon Kendra とは 2. 環境構築 3. 検証 3.1. 複数の文書の検索 3.2. 高度なクエリ構文による検索 3.3. 文書の更新があった場合の確認 データソースのSync スケジュールについて 4. まとめ 1. Amazon Kendra とは Amazon Kendra (以下、 Kendra )は Amazon が提供する、機械学習を利用し

    Amazon Kendra で独自文書に対するセマンティック検索(自然言語での検索)を実現する - Taste of Tech Topics
    misshiki
    misshiki 2023/09/06
    “Amazon Kendra (以下、 Kendra )は Amazon が提供する、機械学習を利用したインテリジェント検索サービスです。”
  • Introduction to Embedded Machine Learning

    misshiki
    misshiki 2021/02/10
    “組み込み機械学習”の入門講座
  • 文書のランキングは情報推薦なのか? - Qiita

    検索エンジンにこれらのフィールドを持つ文書として格納します。「冷蔵庫 安い 黒」のような文字列のクエリが来たら単語に分解して各フィールドに一致する文書をフィルタして、なんらかの方法でソートして表示すればよさそうですね。このように基的に検索システムは候補生成とランキングの多段構成になっています。候補生成に関してはクエリ拡張や候補拡張など様々な手法が提案されてきて、多くの現場で実際に使われていると思いますが、ランキングはどうでしょうか。 文書のランキングの目的は検索結果の有用性を最大化することです。1977年にRobertsonは与えられた文書セットに対して関連度の確率を高い順にソートしたときに有用性が最大になるというProbability Ranking Principleを提案し、それ以来人々は様々な方法で関連度を推定しようと試みてきました。 従来の単語の出現頻度からランク付けをする手法

    文書のランキングは情報推薦なのか? - Qiita
    misshiki
    misshiki 2020/08/25
    “ランキングとレコメンデーションは目的を共有しているので情報推薦の新しめの論文を持ってきてモデルをそのまま使ってもある程度良い性能が出るかもしれない。”
  • 1