タグ

irに関するsyou6162のブックマーク (18)

  • クエリ修正を考慮した検索評価指標sDCGを使ってユーザーの検索体験を監視をしたい - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームの中村(@po3rin) です。 好きな言語はGo仕事では主に検索周りを担当しています。最近、ユーザーの検索体験の向上のために、以下の検索評価に関するを読んでいました。 情報アクセス評価方法論 作者:酒井 哲也発売日: 2015/05/19メディア: 単行 そこで今回は検索評価指標の1つであるsDCG (session-based Discounted Cumulative Gain)を使ってエムスリーの検索ログから体験の悪かった検索を抽出してみたのでその方法を紹介します。 現状の検索監視 現状の検索監視の問題 nDCG sDCG 線形横断 最下位クリックにおける検索結果の破棄 クリック=適合文書 nsDCGを実際の検索ログに使ってみる sDCGを使って感じたこと まとめ We're hiring !!! Reference 現

    クエリ修正を考慮した検索評価指標sDCGを使ってユーザーの検索体験を監視をしたい - エムスリーテックブログ
  • クランフィールド検索実験から2019年のニューラルモデルまで - Qiita

    このテーブルからクエリが「quick」ならDoc1が「news」ならDoc2が「fox」なら両方の文書が関連しているドキュメントとして候補になることがわかります。ドキュメントを絞り込んだ後どのように並べるかですが、おおまかに分けるとクエリと文書をベクトルに変換して類似度を比較するVector Space Modelと、関連度を文書とクエリが与えられたときの条件付き確率 $P(rel \mid q, d)$ と定義するProbabilistic Modelがあります。その中でも70年代に発明されたBM25というアルゴリズム ("Best Matching" の頭文字) はElasticsearchに採用されていることもあり広く使われているので、検索に携わっている方ならば一度はこの式を見たことがあるのではないでしょうか。 $$ BM25(q, d) = \sum_{t_{q} \in q} i

    クランフィールド検索実験から2019年のニューラルモデルまで - Qiita
    syou6162
    syou6162 2019/12/02
  • Lucene’s Practical Scoring Function | Elasticsearch: The Definitive Guide [2.x] | Elastic

    WARNING: The 2.x versions of Elasticsearch have passed their EOL dates. If you are running a 2.x version, we strongly advise you to upgrade. This documentation is no longer maintained and may be removed. For the latest information, see the current Elasticsearch documentation.

    Lucene’s Practical Scoring Function | Elasticsearch: The Definitive Guide [2.x] | Elastic
  • Beyond Ranking: Optimizing Whole-Page Presentation

    404: Missing Page You have requested a resource that is not available on the U-M Personal web server. It is difficult to guess why this is the case on a server with so many different, unrelated web pages, but the page, image, or resource you requested is not available at this time. Here are some helpful tips: Check the spelling in the web address that appears in the address bar Search: Use the hel

    syou6162
    syou6162 2016/05/13
  • Webscope | Yahoo Labs

    This dataset contains a random sample of 4496 queries posted to Yahoo's US search engine in January, 2009. For privacy reasons, the query set contains only queries that have been asked by at least three different users and contain only letters of the English alphabet, sequences of numbers not longer than four numbers and punctuation characters. The query set does not contain user information nor d

  • 単語と文字の話 - Preferred Networks Research & Development

    4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。 検索という文脈ですと形態素インデックスという言葉がありますが、これは検索の最小単位を文字単位ではなくて形態素の単位にするということです。例えば「東京都」は「東京」「都」に分かれるため、「京都」というクエリに対して見つかるのを防ぐなど、精度を上げる効果があります。反面、深刻な検索漏れを引き起こす可能性があるため嫌われることが多いです。こうした漏れは検索に限らず、テキストマイニングなどの文脈でも問題となることが

  • CSAを使った全文検索ライブラリtsubomiを公開してみる - EchizenBlog-Zwei

    しばらく前から作っていた全文検索ライブラリtsubomiを公開しておく。 ライブラリは接尾辞配列(Suffix Array)というアルゴリズムを使っていて、入力として与えたキーワードを含む行をテキストデータから探して、その行と出現位置を取得できる。さらに圧縮接尾辞配列(Compressed Suffix Array)による圧縮もサポートしているのでインデックスサイズを小さく抑えることができる。 ライブラリは検索のためのAPIのほかに、インデックス作成、圧縮、検索を行うツールが付属している。ツールを使うだけでも、ある程度のことができる。 以下、簡単に紹介。 tsubomiはGoogleCodeでコードを管理している。詳細は下記URLを参照。 http://code.google.com/p/tsubomi/ コード管理にはsubversionを使っているので $$ svn checkou

    CSAを使った全文検索ライブラリtsubomiを公開してみる - EchizenBlog-Zwei
  • 情報検索ことはじめ(3): 情報検索 (IR) 分野の国際会議と論文誌 - シリコンの谷のゾンビ

    どの会議や雑誌に投稿すべきかの情報を共有するのは素晴らしい - 発声練習を読んで,そういやIR系のカンファレンスまとめを見たことがないなぁ,と思ったのでIR系の研究を取り扱っているまとめてみることにしました.とはいうものの,自分が通ったことないので,偉そうに語っている部分は全て又聞き情報と妄想によるです. 長らく書いていなかったので,「情報検索ことはじめ」シリーズにしてみました.今回が第3弾です. 過去の情報検索ことはじめシリーズ 情報検索ことはじめ〜研究者編〜 - 睡眠不足?! 情報検索ことはじめ〜教科書編〜 - 睡眠不足?! 何が情報検索 (IR; information retrieval) なの? と言われると明確な定義を説明することができません.愛するIIRから引用します. Information retrieval (IR) is finding material (usual

    情報検索ことはじめ(3): 情報検索 (IR) 分野の国際会議と論文誌 - シリコンの谷のゾンビ
    syou6162
    syou6162 2010/02/08
  • 第10回MG輪講: 5章 Index Construction - シリコンの谷のゾンビ

    第10回MG輪講に参加してきました.13:00-19:00の長丁場でした. 内容が盛りだくさんだったので,帰宅してから復習がてらに学んだ内容をまとめてみました.やっぱりもりだくさんという事実と,参加者以外には到底理解できないであろうまとめノートが出来上がりました. 目次はこんな感じ.長い. 5. Index construction 5.1 Memory-based inversion 5.2 Sort-based inversion 5.3 Exploiting index compression 5.4 Compressed in-memory inversion 5.5 Comparison of inversion methods 5.6 Constructing signature files and bitmaps 5.7 Dynamic collections 章は大きく三

    第10回MG輪講: 5章 Index Construction - シリコンの谷のゾンビ
    syou6162
    syou6162 2010/02/02
    MGも読みたいが、、、
  • SVD and LSI Tutorial 1: Understanding SVD and LSI

    A tutorial on Singular Value Decomposition (SVD) and Latent Semantic Indexing (LSI), its advantages, applications and limitations. Covers LSI myths and misconceptions from search engine marketers. About this Tutorial I wrote this tutorial to: debunk the notion that SVD is too abstract to grasp- Most SVD tutorials are written by and for specialists. Thus, average users reading an article on SV

  • Information Retrieval Tutorials

    A Collection of Information Retrieval Tutorials for IR Students and Search Engine Marketers Here is a list of IR tutorials. Some include examples, fast tracks, reader's feedback and reviews or exercises. Fast Tracks Fast tracks are meant to be quick references. For detailed explanations please read the corresponding tutorials. LSI Keyword Research Singular Value Decomposition (SVD) A Linear Alge

  • きまぐれ日記: キーワード抽出: tf-idf の意味づけ

    単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

  • 情報検索システム論

    2009年度前期木曜4限「情報検索システム論」のページです。 担当:村上 晴美 場所:学術情報総合センター 9階 端末室B 講義主題と目標(シラバスより) インターネットやパソコンの普及に伴い、個人や集団が扱うデジタルデータは膨大な量になってきている。 講義では「WWWと検索エンジン」を例にあげ、テキスト処理を中心とする「情報検索システムの開発と評価」について説明する。 情報検索システムに関する研究や業務を行うために必要な、基礎的な知識の修得を目標とする。 授業計画 受講者の興味に応じて省略や順番変更の可能性がある。 第1回(4/ 9): コース概要、情報検索とは 今日のテキスト 『情報検索と言語処理』 『情報検索の理論と技術』 配布資料 コース概要 情報検索とは コース概要 講義の内容と目標, 成績評価方法(予定), 教科書・参考書, Contact 情報検索とは 情報検索とは,

    syou6162
    syou6162 2009/10/06
  • Simple-9について解説 - tsubosakaの日記

    前回に引き続き転置インデックスの圧縮を実装してみる。今回紹介するのは[2]で提案されているSimple-9というアルゴリズムである。 Simple-9は32bitのwordにできるだけ数字を詰めていくという圧縮アルゴリズムである。例えば2bitの数が16個ならんでいれば32bitで表現できる。しかし、実際は大きい数字も出現するため数字の長さの情報も格納する必要がある。Simple-9では4bitを用いて残りの28bitがどう詰められているかを表す。 28bitの表し方としては 上位bit 符号の個数 符号のビット長 0000 28 1 0001 14 2 0010 9 3 0011 7 4 0100 5 5 0101 4 7 0110 3 9 0111 2 14 1000 1 28 の9通りがあり、これがSimple-9の名前の由来となっている。 例えば ( 3 , 5 , 0 , 0 ,

    Simple-9について解説 - tsubosakaの日記
  • 転置インデックスの圧縮 - tsubosakaの日記

    Managing Gigabytes勉強会で転置インデックスの圧縮の話が出たので実際に圧縮を行った場合にどれくらいのサイズになるかを計測してみた。 利用したデータは英語版Wikidiaの全記事で 文書数 2,872,589 単語数 2,735,620 転置インデックスのポインタの数 397,603,176 ぐらいのサイズのデータです。 無圧縮の転置インデックスのフォーマットは 単語ID,文書数,文書1,....文書N, 単語ID,...で各項目4byteとなっており、1.5Gぐらいのサイズになっています。 これに対して各圧縮アルゴリズムを適用した結果は アルゴリズム 無圧縮 Variable Byte Code unary符号 γ符号 δ符号 Rice Coding pforDelta(仮) サイズ 1537MB 497MB 239475MB 474MB 407MB 367MB 455MB

    転置インデックスの圧縮 - tsubosakaの日記
  • 検索における適合率 (Precision) と再現率 (Recall)

    検索における適合率 (Precision) と再現率 (Recall) 2008-01-17-1 [IIR] 「Introduction to Information Retrieval」[1] の輪講の第一回[2008-01-12-1]でちらっと話しましたが、第一章の 1.1 に Precision と Recall の説明があります(第八章でも出てきます)。 若干混乱しやすくややこしい話なので、ここで改めて解説します。 § Precision (適合率) とは、 全検索結果に対しての、 検索要求 (information need) を満たす検索結果の割合です。 例えば、 「MacBook Air の重量を知りたい」という検索要求を満たすために検索キー「MacBook Air 重さ」でウェブ検索した結果100件のうち、検索要求を満たす(重さが分かる)のが85件だとすると、 Precis

    検索における適合率 (Precision) と再現率 (Recall)
  • リンク解析とか: 重要度尺度と von Neumann カーネル - smly’s notepad

    NAIST の入学手続を終えた. 残りの期間はサーベイするぞーということで shimbo 先生の講義資料「リンク解析とその周辺の話題」を読んでいます. 一日目, 二日目の資料は PageRank, HITS, SALSA などの重要度尺度の紹介と, von Neumann Kernels と HITS の関係についてのお話が中心. これらを実装してみた. 後半に進むほど力尽きて記述が適当になってます:)PageRankポイントはランダム遷移行列による random walk では定常分布に収束しない (エルゴード性 (ergodic) を満たさない) という点. どうして満たさないかというと. sink (出次数のない節点) が存在するとき, 明らかに既約 (irreducible) でないのでエルゴード性を満たさない. 複数の強連結成分を持つケース => 周期性を持つと考えてよい? 周期

  • Introduction to Information Retrieval

    This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

  • 1