タグ

ブックマーク / sleepy-yoshi.hatenablog.com (11)

  • TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ

    TokyoNLP#5に参加して「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」というタイトルで発表しました.発表資料 (検閲後) をuploadしました. なお,2種類のAveraged Perceptronというものがあるというような発表をしてしまいましたが,実は両方とも実質同じアルゴリズムでした.片方はVoted Perceptronの近似 [Carvalho+ 06] という文脈.もう一方は構造学習を行うStructured Perceptron [Collins 02]の文脈で提案されています.その部分を修正しました.@uchumikさんのコメントで気が付きました.どうもありがとうございます. TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ〜ん View more presentations from sleepy_yoshi 音声付きで用意したネタ.どうやら徹夜明けの妙な

    TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ
  • F値の前身はE値? - シリコンの谷のゾンビ

    当はF値で使われている調和平均が相加平均,相乗平均よりも小さくなるという証明を書くつもりだったのだけれど,F値について調べているうちに知らなかった歴史が少しだけ紐解かれた. F値の初出について調べる余力がなかったので,F値の初出をご存じの方がいれば,教えて頂けると幸いです. さてF値という評価指標を知らない方のためにちょっとだけ説明.検索評価に限らず,機械学習などの評価でお馴染みのprecision (適合率),recall (再現率)というものがある. 検索された文書 検索されなかった文書 適合 A B 不適合 C D とすると,precision Pは検索された文書のうち,適合文書の割合 で計算し,recall Rは適合文書がどれだけ検索されたのかという割合 で計算する.さて,みんな大好きF値は, として計算されることが多いが,これは正確にはF1値と呼ばれ,precisionとrec

    F値の前身はE値? - シリコンの谷のゾンビ
    hiromark
    hiromark 2011/04/11
    まったく知らなかった。
  • 1/nの確率で観測できる事象をn回試行すると1度でも観測できる確率は□以上 - シリコンの谷のゾンビ

    トリビアの種風なタイトルにしてみた.タイトルの答えは後半で述べる. ことの発端は,「17の倍数であるナンバープレートを見つけるためには,車を何台観測しなければないか」というような雑談がきっかけ.こういう日常的な算数ができるとかっこいいなぁと思ったので,ちょっと考えてみた. 現在は希望ナンバーがあるため,ナンバーの分布には偏りがあるものの,ナンバーは一様分布していると仮定する. すると,17の倍数はおおよそ1/17の確率で見つけることができる.ここで各観測はベルヌーイ試行と捉えることができるため,確率や統計の初歩的な知識でなんとかできそうな気がする. たとえば,5回目に "初めて" 17の倍数を見つける確率は,4回17の倍数以外 (=16/17) の事象を観測し,5回目に1/17の事象を観測したと考えることができ, で求めることができる. さて,これを一般化すると,確率pで起きる事象をk回目

    1/nの確率で観測できる事象をn回試行すると1度でも観測できる確率は□以上 - シリコンの谷のゾンビ
  • The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料 - シリコンの谷のゾンビ

    巷 (もしかしたら非常に一部?) を騒がせているWWW2010に採択されたソーシャル検索エンジンAardvark論文 "The Anatomy of Large-Scale Social Search Engine" を読んで,ここ3日間ほど夜なべをして作成した輪講用資料を公開します.普段読まない類の論文だったので色々大変でしたが,非常に勉強になりました. ちょうど論文を読んだ頃にGoogleによる買収が正式発表になったので非常にタイムリーなネタとなりました. The Anatomy of Large-Scale Social Search EngineView more presentations from sleepy_yoshi. 論文や資料を見ればわかるとおり,個々の技術はオーソドックスな技術の組み合わせになっています.それを組み合わせてひとつのサービスという形で提供し,更に実際の

    The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料 - シリコンの谷のゾンビ
    hiromark
    hiromark 2010/02/16
    論文も読もうっと。
  • 第10回MG輪講: 5章 Index Construction - シリコンの谷のゾンビ

    第10回MG輪講に参加してきました.13:00-19:00の長丁場でした. 内容が盛りだくさんだったので,帰宅してから復習がてらに学んだ内容をまとめてみました.やっぱりもりだくさんという事実と,参加者以外には到底理解できないであろうまとめノートが出来上がりました. 目次はこんな感じ.長い. 5. Index construction 5.1 Memory-based inversion 5.2 Sort-based inversion 5.3 Exploiting index compression 5.4 Compressed in-memory inversion 5.5 Comparison of inversion methods 5.6 Constructing signature files and bitmaps 5.7 Dynamic collections 章は大きく三

    第10回MG輪講: 5章 Index Construction - シリコンの谷のゾンビ
  • PRML読書会10回: 第8章グラフィカルモデル (前半) - シリコンの谷のゾンビ

    PRML読書会第10回に参加してきました.今回は8章グラフィカルモデルの前半を勉強しました. 自分が担当した資料 (8.2節 条件付き独立性) を公開します. PRML 8.2 条件付き独立性View more documents from sleepy_yoshi. 条件付き独立性では,グラフィカルモデルにおいて,特に有向分離基準と呼ばれる経路遮断の原理から,条件付き独立性について解説しています.今回は内容が平易だったので,きちんと基的なところから説明するように心がけました.前回,前々回の猛省を少しは活かせたと思っています. その結果,30分で終わるよと宣言して,1.5時間も喋ってしまいました. ベイジアンネットワークの話題では必ずといっていいほど出てくる? "explain away" は書では「弁明」現象と翻訳されていました.あまりしっくりこなかったのでアンケートを取ることにしま

    PRML読書会10回: 第8章グラフィカルモデル (前半) - シリコンの谷のゾンビ
  • お手軽転置インデクスを用いた検索エンジン: (1) AND検索編 - シリコンの谷のゾンビ

    突然Cでコードを書きたくなったので,なんちゃって転置インデクスを用いた検索プログラムを書いてみた. 転置インデクスとは,索引語と呼ばれる単語が出現する文書情報 (場合によっては位置情報も) を保持したデータ構造のことで,索引語と,それに対応する転置リストによって構成される. # 索引語 -> 転置リスト hoge -> 5: 1,2,3,4,5 fuga -> 3: 1,4,5 piyo -> 2: 4,5これは,hogeという単語が文書1,2,3,4,5に出現し,fugaという単語が文書1,4,5に出現し,piyoという単語が文書4,5に出現する情報を保持している.最初の5,3,2という数字はそれぞれ索引語がいくつの文書に出現したかという文書頻度 (document frequency; DF) を表している. 検索クエリhogeが入力された場合には,文書1,2,3,4,5を検索結果とし

    お手軽転置インデクスを用いた検索エンジン: (1) AND検索編 - シリコンの谷のゾンビ
    hiromark
    hiromark 2009/10/13
  • IR研究者をスコアリングしてみた - シリコンの谷のゾンビ

    前回の記事に対するブックマーク,コメントありがとうございます. 最初の四天王は考えてみれば,アルゴリズムと検索アーキテクチャにかなり寄っていました.情報検索の中でも「全文検索システム」という観点で見ていたからです. IRと一言でいっても(人工知能ほど大きな分野ではないかもしれませんが)自然言語処理やデータマイニングくらい広い分野です.四天王なんて枠組みではとうてい語ることなぞできませんでした.そしてIR四天王という名称は語弊を招く表現でした.言ってみたかっただけです,すみません. 分野ごとにあれば面白いという意見を頂いたり,具体的な研究者も紹介していただきました.ありがとうございます. そんなコメントを頂いたにもかかわらず,ゆとりなんで自動的に研究者リストをつくれないかなぁということを考えていました.DBLPのデータを解析すれば,単純にトップ会議に沢山論文通している研究者取得できるじゃん,

    IR研究者をスコアリングしてみた - シリコンの谷のゾンビ
    hiromark
    hiromark 2009/02/16
    とりあえず面白い!
  • 情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ

    昨年書いた教科書編が(僕にとっては)嬉しくて跳ね上がるほどブックマークされたので,調子に乗って第二弾を書いてみました.皆様ありがとうございます(ブックマークにがんばってくださいというコメントがあったのがめちゃくちゃ嬉しかったです).今回は研究寄りですが,少しでも誰かの役に立てば幸いです. 僕は網羅的にサーベイを,キーワード検索以外に主に二つの方法で行っています. 会議毎にサーベイ 研究者毎にサーベイ 1.はさておき,2.ですが,僕は研究者のDBLPをチェックしています.気になる論文の著者のDBLPを眺めると,知らなかった要チェックや!論文を拾うことができます. なので,一線で活躍する研究者の論文は定期的にチェックする必要があります. 今回はIR研究者の中でも,戦闘力が高く,この人は常にウォッチせねばという研究者の一部を紹介したいと思います. 下記は若輩の独断と偏見に基づくものです.一線で活

    情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ
    hiromark
    hiromark 2009/02/08
    情報検索関連の研究者。
  • 情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ

    2011-01-18追記 教科書編その2 にて2011年版のIR教科書を紹介しています 情報検索(IR)の勉強を格的に始めて8ヶ月.大体どんな分野があって,どんなことを勉強すればいいのかわかってきた(と思う).この気持ちを忘れないうちにメモしておこう.以下,若輩があーだこーだ言ってるだけなので,間違いや他に情報があれば,ぜひコメントをお願いします. # ここで述べている情報検索とは,コンピュータサイエンスの一分野としての情報検索です.図書館情報学の側面は一切扱っていません,あしからず. というわけでまず教科書編. 腰を入れて勉強する場合,基礎づくりのためには教科書選びがいちばん重要だと思っている.自分の知っている限り,情報検索における教科書の選択肢はそれほど広くはない.以下に紹介するは,情報検索を学ぶ上で「買い」の.これらを読めば,最新の論文を読めるだけの土台はできるし,専門家と議

    情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ
    hiromark
    hiromark 2008/12/13
    情報検索関係の専門書類。すばらしいまとめ。
  • 転置インデックスで学ぶ検索エンジンの中身アプリ - シリコンの谷のゾンビ

    学生の頃から情報検索っぽい研究をやっていたくせに,転置インデックスてこんなものなんだ,ということを知るまで検索エンジンが正直怖かった.転置インデックスの概要を理解したら急に甘く見はじめるようになった(それはそれでいかんのだけど). 位置情報を持たせたり,転置インデックスの圧縮をした状態で説明されると急にアッーてなるけれど,一番単純な例を見るとすぐに理解できる. というわけで転置インデックスってこんな感じなんですよー.という一例を体験するプログラムをつくってみた.またJavaScript+TinySegmenter.工藤様毎度ありがとうございます. Text search indexing demo - 転置インデックスで学ぶ検索エンジンの中身アプリ これを見ると,転置インデックスって基的にこういう構造でデータを持つのかということが納得できると思います.Termをkey,Posting l

    転置インデックスで学ぶ検索エンジンの中身アプリ - シリコンの谷のゾンビ
    hiromark
    hiromark 2008/09/22
    わかりやすっ!
  • 1