タグ

iirに関するmogwaingのブックマーク (12)

  • IIR の階層的クラスタリングを試す (nakatani @ cybozu labs)

    Pathtraq で Web ページの自動分類を手がけてみて。 Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。 メンテナンスフリーが理想ですが、もちろん難しい。 現実的なところとしては「追加学習が必要なことを検知して、適切な学習データの候補を提案してくれる」というものが作りたいなあ……などなど考えているわけです。 そこらへんも含めて、自然言語処理とか機械学習とかそこら辺のお勉強をしてるんですが、実際に手を動かさないとわかんないですよねー。 というわけで、 "Introduction to Information Retrieval" の Chapter 17 "Hierarchical clustering" に沿って、ドキュメントの分類器を作ってみました。 ポイン

  • 情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ

    2011-01-18追記 教科書編その2 にて2011年版のIR教科書を紹介しています 情報検索(IR)の勉強を格的に始めて8ヶ月.大体どんな分野があって,どんなことを勉強すればいいのかわかってきた(と思う).この気持ちを忘れないうちにメモしておこう.以下,若輩があーだこーだ言ってるだけなので,間違いや他に情報があれば,ぜひコメントをお願いします. # ここで述べている情報検索とは,コンピュータサイエンスの一分野としての情報検索です.図書館情報学の側面は一切扱っていません,あしからず. というわけでまず教科書編. 腰を入れて勉強する場合,基礎づくりのためには教科書選びがいちばん重要だと思っている.自分の知っている限り,情報検索における教科書の選択肢はそれほど広くはない.以下に紹介するは,情報検索を学ぶ上で「買い」の.これらを読めば,最新の論文を読めるだけの土台はできるし,専門家と議

    情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ
    mogwaing
    mogwaing 2008/12/16
    最新の論文を読んでいると,芋づる式に古い論文を読む必要があるはず.僕個人としては,ピンポイントの論文については引用文券を深さ優先探索し,abstractとconclusionを読むレベルの論文については幅優先探索でサーベイしていくと,その分野の概要や状況が掴めてくる.
  • 18 Matrix decomposition and latent semantic indexing (pp.369-384) - シリコンの谷のゾンビ

    ちょっと飛ばして,先にIIR18章を読んでみた.単語文書行列を特異値分解して新しい空間でベクトル空間モデルを使うというLSIの話. ページ数が少なかったので,魔が差して翻訳もしてみた.さらに数式が多いのでTeXで書いてみた.ここまで来たらこだわろうとAB型の悪い癖が出て,数式や演習も全部訳してみた.ついカッとなってやってしまった.今は公開している.でも反省はしていない.まだやっつけの部分があるのでこつこつとバージョンアップしてきます. Introduction to information retrieval: 18 Matrix decomposition and latent semantic indexing(和訳) 大体1ページ1時間.こつこつ夜なべをして3日間くらいかかりました.否が応でも精読するので,とても理解が深まりました.じっくり読むのも翻訳作業もとても楽しかったので,なん

    18 Matrix decomposition and latent semantic indexing (pp.369-384) - シリコンの谷のゾンビ
  • http://overlasting.dyndns.org/2008-10-18-2.html

    mogwaing
    mogwaing 2008/10/30
  • CS276 Course Syllabus (Autumn 2008)

    CS 276 / LING 286 Information Retrieval and Web Mining Autumn 2008 Required Textbook: IIR = Introduction to Information Retrieval, by C. Manning, P. Raghavan, and H. Schütze. Cambridge University Press, 2008. This book is available in from the Stanford bookstore (or your favorite book purveyor). You can also download and print chapters at the book website. (The book is brand new and we’d appreci

  • Logarithmic Merging を理解するためのサンプルプログラム

    Logarithmic Merging を理解するためのサンプルプログラム 2008-04-12-1 [Algorithm][IIR] 「Introduction to Information Retrieval」[1]の第四章[2008-04-12-2]の「4.5 Dynamic indexing 」に出てくる Logarithmic Merging のアルゴリズム (Figure 4.7) を説明用に Perl で実装してみました。 といっても、説明用プログラムなので、実際とは異なります。 実際は postings のマージをやるんだけど、term のマージだけ。 indexes と Z と I がどのように変化するのかを追って処理の流れを確認するためだけのものです。 コード: #!/usr/bin/perl use strict; use warnings; my $cnt = 1;

    Logarithmic Merging を理解するためのサンプルプログラム
    mogwaing
    mogwaing 2008/08/11
    one of the way of index construction
  • kh.log - Introduction to Information Retrieval を読むのに必要な英単語900

    « 2007.12.25のdel.icio.us Main Let'snote R7 買いました » Introduction to Information Retrieval を読むのに必要な英単語900 | たつをさん主催のIIR輪読会に参加することになってます。 IIRのドラフト版のPDFをダウンロードしてみたら、だいたい500ページくらいあるようです。普通は辞書を引き引き読み進んでいくことになるのですが、「文丸ごと単語にバラして、重複を取り除いたリスト」を用意すれば、あらかじめ必要な単語をチェックできてラクに読めるのではないかと思いつき、試してみました。 手順は以下のとおり。 Adobe Reader で PDFを txt に変換 TreeTaggerで各単語の原型と出現頻度を取得 出現頻度とSVLのレベル情報を利用して、リストを足きり 参考程度に、 Yahoo!検索APIを利

    mogwaing
    mogwaing 2008/06/05
    iirを読む上で簡単でない特徴的な単語を抽出してる
  • Information Retrievalの発表資料 by naoya

    Name Last modified Size Description Parent Directory - iir_01.ppt 05-Feb-2008 19:22 274K iir_02_1.ppt 18-Feb-2008 10:42 66K iir_02_2.ppt 08-Mar-2008 16:23 361K iir_03_1.ppt 08-Mar-2008 16:23 508K iir_04.ppt 27-Apr-2008 10:18 1.2M iir_05.ppt 17-May-2008 22:34 707K iir_06.ppt 08-Jun-2008 23:34 799K iir_07.ppt 22-Jun-2008 23:13 627K iir_08.ppt 05-Jul-2008 23:04 863K iir_09.ppt 21-Jul-2008 2

  • 「Introduction to Information Retrieval」輪講第七回

    「Introduction to Information Retrieval」輪講第七回 2008-05-17-1 [IIR] 「Introduction to Information Retrieval」の輪講の第七回です。 - Introduction to Information Retrieval http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 今回は六木ヒルズ20Fの百度 (Baidu, http://www.baidu.jp/) の会議室を使わせて頂きました。ありがとうございました。 今回は第6章 「Scoring, term weighting & the vector space model」でした。 内容は、簡単な重み学習ロジック、TF-IDF などの指標、 そしてベクタースペー

    「Introduction to Information Retrieval」輪講第七回
    mogwaing
    mogwaing 2008/05/18
  • Introduction to Information Retrieval 輪講第7回 : no hacking, no life

    たつをさんが主催するIIR輪講の第7回に参加してきました。 (今回が初参加。誘って頂きありがとうございます!) 最初に、恒例(らしい)のnaoyaさんからの前回の復習がありました。 「転置インデックスの圧縮は、Termを保存する辞書と、Termの出現位置を保存するPostingの両方が圧縮対象で、それぞれ・・・(省略)などの方法があります」という話で、すごいわかりやすい説明だったので、これだけでもとてもためになりました。拙作のLuxではインデックスの圧縮はまだ実装していないので、5章を見ていろいろやってみようと思います。postingsに関しては、variable byte encodedが圧縮率や実装のしやすさの面でよさそうな感じがしました。 その後、題の6章の「Scoring, term weighting and the vector space model」について担当の能登

  • ドクショノキロク

    P242 @東京大学大学院情報理工学系研究科創造情報学専攻 秋葉原拠点 参加者 7 名 Exercise 4.30 a. (being (proc (car items)) は thunk を作らない begin は手続きじゃないので apply しないので thunk にならない eager なまま b. Original => (1 2) => 1 Cy's Ver. => (1 2) => (1 2) c. actual-value の中で d. もっと意味のある例を出せ? e.g. 非常ベルを鳴らす 遅延評価器イラネ??? 好き嫌いの話って... ;; Side Effect 嫌い? begin の実装として選択するとして,Cy と Ben の実装を比べると Cy の方がマシ Exercise 4.31 lazy が後置なのは,仮引数が car で取れるから? 仮引数が lazy

    ドクショノキロク
  • Introduction to Information Retrieval

    This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

    mogwaing
    mogwaing 2007/09/16
    stanfordのIRの授業資料
  • 1