タグ

ブックマーク / sleepy-yoshi.hatenablog.com (13)

  • ビッグデータ時代のサンタ狩り - ML Advent Calendar 2013 最終日 - シリコンの谷のゾンビ

    Machine Learning Advent Calendar 2013 の最終日を担当します @sleepy_yoshi です. ふだんはブログ記事をである調で書いていますが,なんとなく今日はですます調で書きます.あとクリスマスのノリで適当なことを書いているので,ネタをネタとしてとらえていただければと思います. 更新が遅くなり大変申し訳ありません.今年もサンタ狩りに参加していた結果,太平洋上空に逃げたサンタクロースを追いかけてサモアまで来てしまいました.残念ながらサンタを逃してしまったところです.というわけでこのブログ記事はサモアより更新しています.まだこちらはクリスマスです. ...というブログ記事をクリスマスに書いていたのですが,サモアでは通信環境を確保できず,日に帰国したらこんな時間になってしまいました. さてオオトリをおおせつかったわけですが,プレッシャーでお腹が痛いです.当

    ビッグデータ時代のサンタ狩り - ML Advent Calendar 2013 最終日 - シリコンの谷のゾンビ
  • 確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ

    GW中にやることリストのひとつである確率的情報検索ノートができたので公開. Notes on Probabilistic Information Retrieval ―Probability Ranking PrincipleからBM25まで― 確率的情報検索とは,Prbability Ranking Principle (説明はノート参照) をスタート地点にして適合確率をモデル化した情報検索のいち分野.Binary independence modelやBM25などが含まれる (BM25はいろんなヒューリスティクスが入っているのだけれど). BM25とは, [tex:\sum_{t \in q} q_t \cdot \frac{f_{t,d} (k_1 + 1)}{k_1*1 + f_{t,d}} \cdot w_t] という (説明はノート参照),ぱっと見ワケワカラン計算式だけれど当た

    確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ― - シリコンの谷のゾンビ
    overlast
    overlast 2012/05/04
    偉すぎる!!
  • https://sleepy-yoshi.hatenablog.com/entry/20111002/p1

    https://sleepy-yoshi.hatenablog.com/entry/20111002/p1
    overlast
    overlast 2011/10/10
  • DSIRNLP#1で「ランキング学習ことはじめ」を発表しました - シリコンの谷のゾンビ

    第1回データ構造と情報検索と言語処理勉強会に参加して発表をしてきました.幹事の@overlast さん,ボランティアのみなさま,会場を提供してくださったmixiさんに感謝申し上げます. ランキング学習に関するハードな発表を依頼されたので,気合いを入れて2晩夜更かしして資料をまとめてみた.発表資料(公開用)をslideshareにアップしました. DSIRNLP#1 ランキング学習ことはじめ View more presentations from sleepy_yoshi ランキング学習は検索ランキングを教師あり機械学習の枠組みで最適化する方法で,どのように目的関数を設定するかという観点で3つのアプローチ (pointwise, pairwise, listwise) に分かれる.これらのアプローチは,目的関数の設定方法が違うだけで,眺めてみると (基的な方法は) そんなに難しくないよ,

    DSIRNLP#1で「ランキング学習ことはじめ」を発表しました - シリコンの谷のゾンビ
  • 相加平均≧相乗平均≧調和平均の証明 with Jensenの不等式 - シリコンの谷のゾンビ

    先日のブログ記事 F値の前身はE値? - 睡眠不足?! でF値 (E値) の計算に調和平均を利用した.その際, 相加平均 ≧ 相乗平均 ≧ 調和平均 という関係があることを紹介した.この関係は,いろんな方法で証明することができるらしいけれど,みんな大好きJensenの不等式で証明してみる. なお,Jensenの読み方には, イェンゼン イェンセン ジェンセン など色々あり,僕はイェンセンと読んでいる.なお,Wikipediaではイェンゼンの模様. 相加平均,相乗平均,調和平均は,n個の要素が与えられた際には,以下のように記述できる. 相加平均: 相乗平均: 調和平均: さてみんな大好きJensenの不等式は,凸関数f(x)について以下の不等式が成り立つというもの. ただし, かつ なお,このようなによる線形結合を凸結合と呼ぶらしい. 図に描くと直感的にわかりやすい.二次関数y=x^2におけ

    相加平均≧相乗平均≧調和平均の証明 with Jensenの不等式 - シリコンの谷のゾンビ
  • F値の前身はE値? - シリコンの谷のゾンビ

    当はF値で使われている調和平均が相加平均,相乗平均よりも小さくなるという証明を書くつもりだったのだけれど,F値について調べているうちに知らなかった歴史が少しだけ紐解かれた. F値の初出について調べる余力がなかったので,F値の初出をご存じの方がいれば,教えて頂けると幸いです. さてF値という評価指標を知らない方のためにちょっとだけ説明.検索評価に限らず,機械学習などの評価でお馴染みのprecision (適合率),recall (再現率)というものがある. 検索された文書 検索されなかった文書 適合 A B 不適合 C D とすると,precision Pは検索された文書のうち,適合文書の割合 で計算し,recall Rは適合文書がどれだけ検索されたのかという割合 で計算する.さて,みんな大好きF値は, として計算されることが多いが,これは正確にはF1値と呼ばれ,precisionとrec

    F値の前身はE値? - シリコンの谷のゾンビ
    overlast
    overlast 2011/04/19
  • The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料 - シリコンの谷のゾンビ

    巷 (もしかしたら非常に一部?) を騒がせているWWW2010に採択されたソーシャル検索エンジンAardvark論文 "The Anatomy of Large-Scale Social Search Engine" を読んで,ここ3日間ほど夜なべをして作成した輪講用資料を公開します.普段読まない類の論文だったので色々大変でしたが,非常に勉強になりました. ちょうど論文を読んだ頃にGoogleによる買収が正式発表になったので非常にタイムリーなネタとなりました. The Anatomy of Large-Scale Social Search EngineView more presentations from sleepy_yoshi. 論文や資料を見ればわかるとおり,個々の技術はオーソドックスな技術の組み合わせになっています.それを組み合わせてひとつのサービスという形で提供し,更に実際の

    The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料 - シリコンの谷のゾンビ
  • 情報検索ことはじめ(3): 情報検索 (IR) 分野の国際会議と論文誌 - シリコンの谷のゾンビ

    どの会議や雑誌に投稿すべきかの情報を共有するのは素晴らしい - 発声練習を読んで,そういやIR系のカンファレンスまとめを見たことがないなぁ,と思ったのでIR系の研究を取り扱っているまとめてみることにしました.とはいうものの,自分が通ったことないので,偉そうに語っている部分は全て又聞き情報と妄想によるです. 長らく書いていなかったので,「情報検索ことはじめ」シリーズにしてみました.今回が第3弾です. 過去の情報検索ことはじめシリーズ 情報検索ことはじめ〜研究者編〜 - 睡眠不足?! 情報検索ことはじめ〜教科書編〜 - 睡眠不足?! 何が情報検索 (IR; information retrieval) なの? と言われると明確な定義を説明することができません.愛するIIRから引用します. Information retrieval (IR) is finding material (usual

    情報検索ことはじめ(3): 情報検索 (IR) 分野の国際会議と論文誌 - シリコンの谷のゾンビ
  • 第11回PRML読書会: 第8章グラフィカルモデル (後半) - シリコンの谷のゾンビ

    第11回PRML読書会に参加してきました.今回は下巻8章の後半,グラフィカルモデルにおける推論の前半部分を担当しました.8.4グラフィカルモデルにおける推論の最初の部分,すなわちノーテーション地獄の前座を担当しました. 今回も45分くらいで終わるだろうと思っていたのですが,90分近く喋っていました.参加者の皆様お疲れ様でした.質問,議論,わからない部分をフォローしてくださった皆様ありがとうございました. 発表資料を公開します.PPTはこちらにupしています. 8.4 グラフィカルモデルによる推論View more presentations from sleepy_yoshi. id:nokunoさんがustreamを撮影してくださっています (ありがとうございます!).7:00あたりからスタートします.残念ながらiPhone充電切れにより,他の発表者の発表内容はありません. http:/

    第11回PRML読書会: 第8章グラフィカルモデル (後半) - シリコンの谷のゾンビ
  • お手軽転置インデクスを用いた検索エンジン: (1) AND検索編 - シリコンの谷のゾンビ

    突然Cでコードを書きたくなったので,なんちゃって転置インデクスを用いた検索プログラムを書いてみた. 転置インデクスとは,索引語と呼ばれる単語が出現する文書情報 (場合によっては位置情報も) を保持したデータ構造のことで,索引語と,それに対応する転置リストによって構成される. # 索引語 -> 転置リスト hoge -> 5: 1,2,3,4,5 fuga -> 3: 1,4,5 piyo -> 2: 4,5これは,hogeという単語が文書1,2,3,4,5に出現し,fugaという単語が文書1,4,5に出現し,piyoという単語が文書4,5に出現する情報を保持している.最初の5,3,2という数字はそれぞれ索引語がいくつの文書に出現したかという文書頻度 (document frequency; DF) を表している. 検索クエリhogeが入力された場合には,文書1,2,3,4,5を検索結果とし

    お手軽転置インデクスを用いた検索エンジン: (1) AND検索編 - シリコンの谷のゾンビ
  • 文字列探索スターターキット - シリコンの谷のゾンビ

    最近重点的に勉強しているので,これまで集めた教科書情報,資料等へのリンクをまとめてみる.紹介している教科書はほとんど読んでいないので妄言注意. この他にお薦め教科書,勉強法があればぜひ教えてください. 文字列探索は検索対象テキストの中から転置インデクスのような外部データ構造を利用せずに目的の文字列を探索する課題です.文字列探索,文字列照合,パターンマッチなどとも呼ばれています(一番オーソドックスな呼び方はなんでしょう?) 教科書 和書で文字列探索だけを取り扱っているを見かけたことがない.アルゴリズムの探索の章にKMP法,BM法が紹介されているだけのケースが多い.注意してみるとAC法を扱っているが意外と少ないことに気がつく... (文字列探索でよい和書の情報募集中) 追記 (2009-04-02) Thanks to cubicdaiyaさん! 情報検索アルゴリズムにKMP法, BM法

    文字列探索スターターキット - シリコンの谷のゾンビ
  • 情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ

    2011-01-18追記 教科書編その2 にて2011年版のIR教科書を紹介しています 情報検索(IR)の勉強を格的に始めて8ヶ月.大体どんな分野があって,どんなことを勉強すればいいのかわかってきた(と思う).この気持ちを忘れないうちにメモしておこう.以下,若輩があーだこーだ言ってるだけなので,間違いや他に情報があれば,ぜひコメントをお願いします. # ここで述べている情報検索とは,コンピュータサイエンスの一分野としての情報検索です.図書館情報学の側面は一切扱っていません,あしからず. というわけでまず教科書編. 腰を入れて勉強する場合,基礎づくりのためには教科書選びがいちばん重要だと思っている.自分の知っている限り,情報検索における教科書の選択肢はそれほど広くはない.以下に紹介するは,情報検索を学ぶ上で「買い」の.これらを読めば,最新の論文を読めるだけの土台はできるし,専門家と議

    情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ
  • 情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ

    昨年書いた教科書編が(僕にとっては)嬉しくて跳ね上がるほどブックマークされたので,調子に乗って第二弾を書いてみました.皆様ありがとうございます(ブックマークにがんばってくださいというコメントがあったのがめちゃくちゃ嬉しかったです).今回は研究寄りですが,少しでも誰かの役に立てば幸いです. 僕は網羅的にサーベイを,キーワード検索以外に主に二つの方法で行っています. 会議毎にサーベイ 研究者毎にサーベイ 1.はさておき,2.ですが,僕は研究者のDBLPをチェックしています.気になる論文の著者のDBLPを眺めると,知らなかった要チェックや!論文を拾うことができます. なので,一線で活躍する研究者の論文は定期的にチェックする必要があります. 今回はIR研究者の中でも,戦闘力が高く,この人は常にウォッチせねばという研究者の一部を紹介したいと思います. 下記は若輩の独断と偏見に基づくものです.一線で活

    情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ
  • 1