タグ

irに関するoverlastのブックマーク (16)

  • [O] 新年会 + #DSIRNLP 5 を開催しました & 動画UPしました

    新年会 + #DSIRNLP 5 を開催しました & 動画UPしました Tweet [日記] 新年会とデータ構造と情報検索と言語処理勉強会 #DSIRNLP の第5回目を開催しました。 ご発表、ご参加頂いたみなさま、どうもありがとうございました。 会場を提供していただきました、スマートニュース株式会社のみなさま、どうもありがとうございました。 # スマートニュースさんは今後も各種勉強会に会場を提供してくださるそうです。 DSIRNLP 5 について 今回は参加するための条件を設けてみました。 参考文献 : http://partake.in/events/572bb762-87ed-490a-b993-8b864137e7e1 条件はとてもシンプルで、発表する方か、ググったらどんなことが得意なのかが分かる方だけが参加できる、というものです。 実際にやってみた感触として、参加者からはとても好

  • 新年会 + データ構造と情報検索と言語処理勉強会 #DSIRNLP 5 - 参加者は何か発表してネ スペシャル - PARTAKE

    This domain may be for sale!

    overlast
    overlast 2013/12/28
    やりますよ " 2014年1月11日(土)"
  • 確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ

    GW中にやることリストのひとつである確率的情報検索ノートができたので公開. Notes on Probabilistic Information Retrieval ―Probability Ranking PrincipleからBM25まで― 確率的情報検索とは,Prbability Ranking Principle (説明はノート参照) をスタート地点にして適合確率をモデル化した情報検索のいち分野.Binary independence modelやBM25などが含まれる (BM25はいろんなヒューリスティクスが入っているのだけれど). BM25とは, [tex:\sum_{t \in q} q_t \cdot \frac{f_{t,d} (k_1 + 1)}{k_1*1 + f_{t,d}} \cdot w_t] という (説明はノート参照),ぱっと見ワケワカラン計算式だけれど当た

    確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ
    overlast
    overlast 2012/05/04
    偉すぎる!!
  • DSIRNLP#1で「ランキング学習ことはじめ」を発表しました - シリコンの谷のゾンビ

    第1回データ構造と情報検索と言語処理勉強会に参加して発表をしてきました.幹事の@overlast さん,ボランティアのみなさま,会場を提供してくださったmixiさんに感謝申し上げます. ランキング学習に関するハードな発表を依頼されたので,気合いを入れて2晩夜更かしして資料をまとめてみた.発表資料(公開用)をslideshareにアップしました. DSIRNLP#1 ランキング学習ことはじめ View more presentations from sleepy_yoshi ランキング学習は検索ランキングを教師あり機械学習の枠組みで最適化する方法で,どのように目的関数を設定するかという観点で3つのアプローチ (pointwise, pairwise, listwise) に分かれる.これらのアプローチは,目的関数の設定方法が違うだけで,眺めてみると (基的な方法は) そんなに難しくないよ,

    DSIRNLP#1で「ランキング学習ことはじめ」を発表しました - シリコンの谷のゾンビ
  • F値の前身はE値? - シリコンの谷のゾンビ

    当はF値で使われている調和平均が相加平均,相乗平均よりも小さくなるという証明を書くつもりだったのだけれど,F値について調べているうちに知らなかった歴史が少しだけ紐解かれた. F値の初出について調べる余力がなかったので,F値の初出をご存じの方がいれば,教えて頂けると幸いです. さてF値という評価指標を知らない方のためにちょっとだけ説明.検索評価に限らず,機械学習などの評価でお馴染みのprecision (適合率),recall (再現率)というものがある. 検索された文書 検索されなかった文書 適合 A B 不適合 C D とすると,precision Pは検索された文書のうち,適合文書の割合 で計算し,recall Rは適合文書がどれだけ検索されたのかという割合 で計算する.さて,みんな大好きF値は, として計算されることが多いが,これは正確にはF1値と呼ばれ,precisionとrec

    F値の前身はE値? - シリコンの谷のゾンビ
    overlast
    overlast 2011/04/19
  • The Xapian Project

    Welcome to the Xapian project website. Xapian is an Open Source Search Engine Library, released under the GPL v2+. It's written in C++, with bindings to allow use from Perl Python 2, Python 3, PHP, Java, Tcl, C#, Ruby, Lua, Erlang, Node.js and R (so far!) Xapian is a highly adaptable toolkit which allows developers to easily add advanced indexing and search facilities to their own applications. It

  • Locality Sensitive Binary Codes for Shift Invaliant KernelsとSpectral Hashingの比較 - Yasuo Tabeiの日記

    Locality Sensitive Hashing(LSH)とは、ベクトルとして表現されたデーターの集合を入力として、それらの2点間の距離を保存したまま、ハミング距離に基づく文字列の集合に射影する技術です。コサイン距離[1]、ユーグリッド距離[2]に基づくものや、機械学習法を応用した、semantic hashing[3], spectral hashing[4], kernelized LSH[5], その他[6][7][8]、現在までに多くの手法が提案されています。この背景には、Googleが、昔に提案されたLSHが、ニュース記事の推薦システムで使えることを示した[9]のきっかけに、現在、推薦システム、画像検索、文章のクラスタリング[10]など、色々なシステムや研究の場面で利用されています。 理論的な収束の保証があるという意味で、オリジナルのコサイン距離ベース[1]の手法が良いのです

    Locality Sensitive Binary Codes for Shift Invaliant KernelsとSpectral Hashingの比較 - Yasuo Tabeiの日記
  • [O] 情報検索の教科書「Information Retrieval: Implementing and Evaluating Search Engines」

    情報検索の教科書「Information Retrieval: Implementing and Evaluating Search Engines」 Tweet [日記] 「Information Retrieval: Implementing and Evaluating Search Engines」という情報検索の教科書が出るそうです。@tsubosaka さんから教えていただきました。ありがとうございます。 このは必ず買うと思います。MIT Press から出るみたいですが、いまのところ Amazon.com でも予約できないので時々様子を見ないと。。 [2010-05-05]:追記 MIT Press から出ます。Amazon.co.jp か Amazon.com で予約できます。 Information Retrieval: Implementing and Evaluat

  • Information Retrieval: Implementing and Evaluating Search Engines

    Information retrieval is the foundation for modern search engines. This textbook offers an introduction to the core topics underlying modern search technologies, including algorithms, data structures, indexing, retrieval, and evaluation. The emphasis is on implementation and experimentation; each chapter includes exercises and suggestions for student projects. Wumpus, a multi-user open-source info

  • お手軽転置インデクスを用いた検索エンジン: (1) AND検索編 - シリコンの谷のゾンビ

    突然Cでコードを書きたくなったので,なんちゃって転置インデクスを用いた検索プログラムを書いてみた. 転置インデクスとは,索引語と呼ばれる単語が出現する文書情報 (場合によっては位置情報も) を保持したデータ構造のことで,索引語と,それに対応する転置リストによって構成される. # 索引語 -> 転置リスト hoge -> 5: 1,2,3,4,5 fuga -> 3: 1,4,5 piyo -> 2: 4,5これは,hogeという単語が文書1,2,3,4,5に出現し,fugaという単語が文書1,4,5に出現し,piyoという単語が文書4,5に出現する情報を保持している.最初の5,3,2という数字はそれぞれ索引語がいくつの文書に出現したかという文書頻度 (document frequency; DF) を表している. 検索クエリhogeが入力された場合には,文書1,2,3,4,5を検索結果とし

    お手軽転置インデクスを用いた検索エンジン: (1) AND検索編 - シリコンの谷のゾンビ
  • Galago -

    Overview Quick Start Downloads Documentation Indexing Retrieval Guide FAQ galagosearch-core JavaDocs Test Coverage Source Xref galagosearch-tupleflow JavaDocs Test Coverage Source Xref galagosearch-tupleflow-typebuilder JavaDocs Test Coverage Source Xref Project Documentation Project Information Overview Galago is a toolkit for experimenting with text search. It is based on small, pluggable compon

  • ストップワードとは?

    ストップワードとは? 2008-01-20-2 [IIR][NLP] 「Introduction to Information Retrieval」[1]の第二章 (次回の輪講の範囲)の2.2.2に出てくるストップワード (stop word) の 話題をまとめました。 § ストップワード (stop word) とは、 検索にほとんど役に立たないためインデックス作成時に除外する 単語のことである。 検索対象文書に出現するすべての単語をインデックスとするのは 無駄な面が多い。 例えば、「て」「に」「を」「は」などの助詞や 英語の冠詞・前置詞 (a, the, in, of) はほぼすべての文書に出現する。 そのため、 postings list が巨大になり格納スペースや処理時間に悪影響を与え、 その上、 検索結果も大量となり検索要求を満たす結果を得るのが困難となる。 そこで効率化のために

    ストップワードとは?
  • ステミングとは?

    ステミングとは? 2008-01-20-1 [IIR][NLP][Algorithm][Programming] 「Introduction to Information Retrieval」[1]の第二章 (次回の輪講の範囲)の2.2.4に出てくるステミング (Stemming) の 話題をまとめました。 § 英語などの欧米系の言語では、 意味的には同じ単語が語形変化により表層文字列が異なることがある。 例えば、"retrieves", "retrieved", "retrieving", "retrieval" などで[2]、実用上これらを同じ意味のものと見なし インデックス作成時に同じ単語として扱いたいという要求がある。 ステミング (stemming) はこのような語形変化を取り除き 同一の単語表現に変換する処理である。 ステミングの手法として、 ポーターのアルゴリズム (Port

    ステミングとは?
  • [を] 検索におけるテキスト走査とインデックス

    検索におけるテキスト走査とインデックス 2008-01-19-5 [IIR] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の1.1にの冒頭に出てきた、 「テキスト走査による方法とインデックスによる方法の違い」 をまとめました。 この手の導入的解説は、 私も過去の論文等の冒頭で何度も書いていたりするのですが、 今回、IIRをベースに改めて整理してみました。 § 文書集合から検索質問に合致する文書を検索するために実装は、 「テキスト走査」による方法と 「インデックス」による方法の大きく二つに分けられる(図)。 テキスト走査(文字列照合 (string pattern maching)[2])による方法は、 単純に文書集合の先頭から最後まで検索キーを順番に照合していく。 最低でも1回は最後まで走査しなければならないので

    [を] 検索におけるテキスト走査とインデックス
  • 検索における適合率 (Precision) と再現率 (Recall)

    検索における適合率 (Precision) と再現率 (Recall) 2008-01-17-1 [IIR] 「Introduction to Information Retrieval」[1] の輪講の第一回[2008-01-12-1]でちらっと話しましたが、第一章の 1.1 に Precision と Recall の説明があります(第八章でも出てきます)。 若干混乱しやすくややこしい話なので、ここで改めて解説します。 § Precision (適合率) とは、 全検索結果に対しての、 検索要求 (information need) を満たす検索結果の割合です。 例えば、 「MacBook Air の重量を知りたい」という検索要求を満たすために検索キー「MacBook Air 重さ」でウェブ検索した結果100件のうち、検索要求を満たす(重さが分かる)のが85件だとすると、 Precis

    検索における適合率 (Precision) と再現率 (Recall)
  • アドホック検索とは?

    アドホック検索とは? 2008-01-16-1 [IIR] 先日[2008-01-12-1]の 「Introduction to Information Retrieval」[1]の輪講で、 第一章に出てきた "ad-hoc retrieval"(アドホック検索)を説明する際に、 ぐだぐだな感じになってしまったことを深く反省し、 改めてまとめてみました。 § 「情報検索アルゴリズム」(共立出版)[2]によれば、 アドホック検索 (ad-hoc retrieval) とは、 「検索質問を短期的 (short-term) あるいは動的 (dynamic)、 文書集合を長期的 (long-term) あるいは静的 (static) なもの としてとらえる情報検索」とのこと。また、これとは逆に、 短期的に更新(追加)されていく文書集合に対して、 長期的な検索質問で検索要求を満たすものだけを取り出す

    アドホック検索とは?
  • 1