タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

algorithmとsearchに関するemonkakのブックマーク (3)

  • Apache Lucene 8のTop-k クエリプロセッシング最適化 | ログミーBusiness

    2019年2月26日、検索技術研究会が主催するイベント「Search Engineering Tech Talk」が開催されました。「検索」や「検索システム」にまつわる技術や手法を共有するイベント。第1回となる今回は、3人のエンジニアが、現場の経験を通して学んだノウハウや、検索にまつわる知見を語ります。プレゼンテーション「Efficient top-k query processing in Lucene 8」に登壇したのは打田智子氏。講演資料はこちら Lucene 8のTop-k クエリプロセッシング最適化打田智子氏(以下、打田):よろしくお願いします。イベントの最後でお疲れかもしれないんですけど、今日の発表はさらに疲れる話が出てきちゃうので、半分ぐらいの方は起きていてもらえるようにがんばりたいと思います。お付き合いください。 打田と申します。自己紹介なんですけど、Twitterはこの

    Apache Lucene 8のTop-k クエリプロセッシング最適化 | ログミーBusiness
  • 確率的情報検索 Okapi BM25 についてまとめた - sonickun.log

    ひょんなことで情報検索の知識が必要になったので,勉強したことを簡単にまとめておきます. 情報検索とは,コンピュータを用いて大量のデータ群から目的に合致した物を取り出すことです. Okapi BM25は情報検索における文章中の単語の重み付けの手法の一つであり,他にもTF-IDFと言ったアルゴリズムがあります. Okapi BM25 - Wikipedia, the free encyclopedia 一般的にはTF-IDFよりも良い結果が得られると言われ,比較手法としてのベースラインになっています. Term Frequency (TF) 文書中において出現頻度の高い単語は重要であるという考え方です. ある単語Tiの文書Dj中における重みを考えると TF(i,j) = (文書Djにおける単語Tiの出現回数) / (文書Djのの総単語数) となります. Inverse Document Fre

    確率的情報検索 Okapi BM25 についてまとめた - sonickun.log
  • Bing検索の裏側―BitFunnelのアルゴリズム - Hatena Developer Blog

    はてなアプリケーションエンジニアの id:takuya-a です。 この記事では、Microsoft の検索エンジン Bing で採用された BitFunnel アルゴリズムを紹介します。 昨年のエンジニアアドベントカレンダーでは、文字列検索のアルゴリズム全般について紹介しました(文字列アルゴリズムの学びかた - Hatena Developer Blog)。今年はそのなかでも、インデックス(索引)を使った全文検索アルゴリズムについてのお話になります。 この記事の前半は全文検索の入門にもなっていますので、検索技術になじみがない方にも楽しんでいただけるのではないでしょうか。 逆に、「そんなのもう知ってるよ!」という方は、題である「BitFunnel アルゴリズムの詳細」から目を通していただければと思います。 この記事は、はてなエンジニア Advent Calendar 2017の21日目の

    Bing検索の裏側―BitFunnelのアルゴリズム - Hatena Developer Blog
  • 1