タグ

2011年6月16日のブックマーク (6件)

  • 階層ディリクレ過程を実装してみる (2) HDP-LDA の更新式を導出・前編 - 木曜不足

    階層ディリクレ過程を実装してみる (1) HDP-LDA と LDA のモデルを比較 - Mi manca qualche giovedi`? の続き。 今回も [Teh+ 2006] に基づいて、Chinese Restaurant Franchise(中華料理店フランチャイズ, CRF) の枠組みで Hierarchical Dirichlet Process(階層ディリクレ過程, HDP) の Collapsed Gibbs sampling 推論を行う場合の更新式を導出していく。 まず今回は一般の HDP を CRF に落とすところ。次回はそこから full conditional を導出([Teh+ 2006] にある および t や k の事後分布を導出)、そして次々回あたりで、それらの更新式を HDP-LDA に当てはめた場合(つまり前回記事の base measure H

    階層ディリクレ過程を実装してみる (2) HDP-LDA の更新式を導出・前編 - 木曜不足
  • ACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei

    ACL2011の論文で「Faster and Smaller N-Gram Language Models」というのが気になったので読んでみた。 ACL Anthology » P11 Faster and Smaller N-Gram Language Models Adam Pauls, Dan Klein; 2011 論文はこれまで提案されている言語モデルの圧縮・高速化の手法を実装して比較したよ、というもの。各種法が丁寧に解説されており、性能比較もよく知られているツールであるSRILMをベースラインとして行っているので参考になる。サーベイ論文として優れていると感じた。 論文で紹介されている手法はモデルのサイズ圧縮と高速化の2点に関するもの。 まずはサイズ圧縮について。これはTRIEを使うことで各Nグラムの共通したプレフィクスを圧縮するのが基らしい。でTRIEについてはノードの持

    ACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei
  • SVMの定番入門書「サポートベクターマシン入門(赤本)」の読み方 - EchizenBlog-Zwei

    SVMを学びたい人にとっては「サポートベクターマシン入門」通称「赤」は最適な入門書であるといえる。理論から実践までバランスよく解説されており、書を読むだけでSVMの実装が可能になる。 しかし書はSF小説を彷彿とさせる独特な翻訳の文体のため機械学習に不慣れな読者にとっては読みこなすのは苦しい戦いとなる。来なら原書をオススメしたいところだが、そうはいっても英語はちょっとという人も多いはず。 そこで記事では赤のオススメな読み方を紹介してみる。 1.「わかパタ」で準備運動をしよう 泳ぎのうまい人でもいきなり水に飛び込むのは危険。まずは準備運動をして体を温める。これには「わかりやすいパターン認識」がオススメ。とりあえず2章まで、余裕があれば3章まで読んでおけば充分。 2.赤を枕元において一晩寝よう さて準備運動が済んだら早速赤にトライ!したいところだが赤の放つ瘴気で心を蝕まれないよ

    SVMの定番入門書「サポートベクターマシン入門(赤本)」の読み方 - EchizenBlog-Zwei
  • 機械学習超入門III 〜機械学習の基礎、パーセプトロンを30分で作って学ぶ〜 - EchizenBlog-Zwei

    機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類がある。このなかで識別関数は確率を使わないので初心者が入門するのに最適。 識別関数で有名なのはSVM(Support Vector Machine、サポートベクターマシン)。名前を聞いたことがある人も多いと思う。そこで早速SVMを学ぼうとすると敷居が高くて挫折しがち。 実はSVMは(大雑把に言うと)パーセプトロンという基礎的な識別関数に「マージン最大化」と「カーネル関数」という考え方を導入したもの。なので機械学習入門者は最初にパーセプトロンを学ぶのが良いと思われる。 そこで早速パーセプトロンを作ってみよう!というのが記事の意図するところ。自分で実装できるとモチベーションが維持しやすいので、詳しく理論を学ぶ前にまずは作ってみようという考え。ちなみに実装にはperlを用いた。 参考: これからはじめる人のための機械学

    機械学習超入門III 〜機械学習の基礎、パーセプトロンを30分で作って学ぶ〜 - EchizenBlog-Zwei
  • Twitter検索がパーソナライズ検索に対応 - nokunoの日記

    Twitter検索がパーソナライズ検索に対応しました。このエントリは、その背後にあるエンジニアリングについての記事を翻訳したものです。Twitter Engineering: The Engineering Behind Twitter’s New Search Experience以前のBlenderの記事も合わせて読むと良いかもしれません。 【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記 Twitterの新しい検索体験を支える技術日(2011年5月31日)、Twitterはパーソナライズ検索をローンチし、ユーザは自分自身に関連のあるツイート、画像、動画を見つけることができるようになった。このプロダクトを開発するために、我々のインフラは2つの主な特徴をサポートする必要があった:検索結果の関連性フィルタと関連画像・動画の認識機能である。どちらの特徴も

  • クリックモデルにデモグラ情報を入れる話 - nokunoの日記

    TokyoWebminingのustを見ていて、id:tsubosaka さんが紹介していた論文が面白かった(というか前にTwitterで見かけた気もするけど)A Novel Click Model and Its Applications to Online Advertisingこの手の論文を読むときは、それぞれの変数が確率変数か(決定的な)パラメータかを注意して区別する必要があって、 A_i, B_i, R_iは確率変数で、中心がθによって決まる正規分布に従う 実際に使うときはI(A_i>0)かどうかだけを見ている θは全て決定的なパラメータ errは標準正規分布N(0,1)に従う確率変数という点に気をつけて読むとよいと思いました。TokyowebminingInferNet View more presentations from tsubosakaよく見たら全然Infer.NET