ブックマーク / sleepy-yoshi.hatenablog.com (7)

  • 確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ

    GW中にやることリストのひとつである確率的情報検索ノートができたので公開. Notes on Probabilistic Information Retrieval ―Probability Ranking PrincipleからBM25まで― 確率的情報検索とは,Prbability Ranking Principle (説明はノート参照) をスタート地点にして適合確率をモデル化した情報検索のいち分野.Binary independence modelやBM25などが含まれる (BM25はいろんなヒューリスティクスが入っているのだけれど). BM25とは, [tex:\sum_{t \in q} q_t \cdot \frac{f_{t,d} (k_1 + 1)}{k_1*1 + f_{t,d}} \cdot w_t] という (説明はノート参照),ぱっと見ワケワカラン計算式だけれど当た

    確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ
  • 研究室に配属されたばかりのB4にそっと渡したい一冊‐それが「入門ソーシャルデータ」 - シリコンの谷のゾンビ

    オライリー・ジャパンさんから頂いた「入門ソーシャルデータ」を読みました. 入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘出版社/メーカー: オライリージャパン発売日: 2011/11/26メディア: 大型購入: 18人 クリック: 779回この商品を含むブログ (42件) を見る ご紹介いただいた@overlastさん,オライリー・ジャパンさんどうもありがとうございます! 記念すべき人生初献.なんと監訳者全員が (IIR輪講などの勉強会を通じて) 知っている方だったのでびっくり. さて,遅ればせながら書のレビューを書きたいと思います.ただ,すでに著名なメンバーがレビューを書いていらっしゃるので,できるだけ観点がかぶらな

    研究室に配属されたばかりのB4にそっと渡したい一冊‐それが「入門ソーシャルデータ」 - シリコンの谷のゾンビ
  • DSIRNLP#1で「ランキング学習ことはじめ」を発表しました - シリコンの谷のゾンビ

    第1回データ構造と情報検索と言語処理勉強会に参加して発表をしてきました.幹事の@overlast さん,ボランティアのみなさま,会場を提供してくださったmixiさんに感謝申し上げます. ランキング学習に関するハードな発表を依頼されたので,気合いを入れて2晩夜更かしして資料をまとめてみた.発表資料(公開用)をslideshareにアップしました. DSIRNLP#1 ランキング学習ことはじめ View more presentations from sleepy_yoshi ランキング学習は検索ランキングを教師あり機械学習の枠組みで最適化する方法で,どのように目的関数を設定するかという観点で3つのアプローチ (pointwise, pairwise, listwise) に分かれる.これらのアプローチは,目的関数の設定方法が違うだけで,眺めてみると (基的な方法は) そんなに難しくないよ,

    DSIRNLP#1で「ランキング学習ことはじめ」を発表しました - シリコンの谷のゾンビ
  • awk歴一日の初心者が語るawk理解のポイント - シリコンの谷のゾンビ

    今までテキスト処理などでワンライナーを使うときはperlを使っていた.Perlを先に覚えた身としてはawkやsedは過去の産物だと思い込んでいた.awkの方が簡潔に書けるケースに出くわしたことをきっかけにawkを勉強してみたら単なわず嫌いだったことに気が付いたのでポイントをまとめてみる. なおプログラミング言語としてはAWKという表記が正しく (Aho, Weinberger, Kernighanの頭文字! ということだけは以前から知っていた),オリジナル処理系のことをawkと呼ぶのだろうけれど,今回は処理系の違いは気にしないのでawk, nawk, gawkの違いは気にしないことにした.ていうか詳しく知らない. 「awkってなんぞ?」という方が対象読者.スクリプト言語と正規表現の基礎知識が少しでもあれば,たぶんすぐに使えるようになると思う.awkを一度でも使ったことがある人には新しい情

    awk歴一日の初心者が語るawk理解のポイント - シリコンの谷のゾンビ
  • 情報検索ことはじめ〜教科書編その2 (2011年決定版) 〜 - シリコンの谷のゾンビ

    しばらく情報検索に関わるブログ記事を書いていなかったけれど,「情報検索ことはじめ〜教科書編〜」から丸2年が経過し,Modern Information Retrievalの第二版が発売されたことで,2011年版を書いてみようと思ったので,ここ2年で発売された情報検索の教科書について書くことにする. あの頃は検索を勉強し始めて8ヶ月のペーペーだったけれど,そのまま加算すると,どうやら2年8ヶ月になるらしい.「まるで成長していない…」とか某安西先生につぶやかれそうな気がするけれど,自分のことは棚に上げて,この2年間に新たに出版された教科書を紹介したいと思う. さて,例によって若輩の主観と独断と偏見にまみれた記事になっています.誤りの指摘,違ったご意見があれば,コメント頂けると幸いです. 情報検索の教科書 この2年で出版された教科書的存在の文献は3冊.それぞれ紹介する.以下の3冊の共通点としては

    情報検索ことはじめ〜教科書編その2 (2011年決定版) 〜 - シリコンの谷のゾンビ
  • 情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ

    昨年書いた教科書編が(僕にとっては)嬉しくて跳ね上がるほどブックマークされたので,調子に乗って第二弾を書いてみました.皆様ありがとうございます(ブックマークにがんばってくださいというコメントがあったのがめちゃくちゃ嬉しかったです).今回は研究寄りですが,少しでも誰かの役に立てば幸いです. 僕は網羅的にサーベイを,キーワード検索以外に主に二つの方法で行っています. 会議毎にサーベイ 研究者毎にサーベイ 1.はさておき,2.ですが,僕は研究者のDBLPをチェックしています.気になる論文の著者のDBLPを眺めると,知らなかった要チェックや!論文を拾うことができます. なので,一線で活躍する研究者の論文は定期的にチェックする必要があります. 今回はIR研究者の中でも,戦闘力が高く,この人は常にウォッチせねばという研究者の一部を紹介したいと思います. 下記は若輩の独断と偏見に基づくものです.一線で活

    情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ
  • 情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ

    2011-01-18追記 教科書編その2 にて2011年版のIR教科書を紹介しています 情報検索(IR)の勉強を格的に始めて8ヶ月.大体どんな分野があって,どんなことを勉強すればいいのかわかってきた(と思う).この気持ちを忘れないうちにメモしておこう.以下,若輩があーだこーだ言ってるだけなので,間違いや他に情報があれば,ぜひコメントをお願いします. # ここで述べている情報検索とは,コンピュータサイエンスの一分野としての情報検索です.図書館情報学の側面は一切扱っていません,あしからず. というわけでまず教科書編. 腰を入れて勉強する場合,基礎づくりのためには教科書選びがいちばん重要だと思っている.自分の知っている限り,情報検索における教科書の選択肢はそれほど広くはない.以下に紹介するは,情報検索を学ぶ上で「買い」の.これらを読めば,最新の論文を読めるだけの土台はできるし,専門家と議

    情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ
  • 1