タグ

ブックマーク / shuyo.hatenablog.com (5)

  • 「機械学習とパターン認識」(PRML)のアンチョコ by herumi - 木曜不足

    社内で「機械学習とパターン認識」(PRML) の読書会をやっているのだけど、計算がやっぱり難しいようでみんな苦戦中。 そんなこんなで、光成さん(@herumi さん)が PRML の数式を手抜き無しで解説するアンチョコ(虎の巻 / PRML教科書ガイド)をマメに作ってくれている。*1 PRML のための数学(PDF) 内容は PRML の2章から4章と、9章、PRMLでもっとも計算が難しいと評判の10章を対象としている。 たとえば2章のアンチョコでは、2章の中で必要とされる解析や線形代数の道具(積分の変数変換、行列の各種操作)を一通り取り上げた後、ガウス分布の最尤推定における平均や分散による偏微分という、おそらく多くの人がつまづくのだろう計算がきちんと説明されている。 また3章のアンチョコでは、Woodbury の公式やヘッセ行列を解説しつつ、エビデンス関数などを導出しているし、4章になる

    「機械学習とパターン認識」(PRML)のアンチョコ by herumi - 木曜不足
  • 言語判定プラグイン for Apache Nutch - 木曜不足

    オープンソース Web 検索エンジン Apache Nutch の概要 Apache Nutch のプラグインと言語判別 Apache Nutch のプラグインの作り方 Apache Nutch についてちらほら調べてきたけど、いよいよ 言語判定ライブラリを使って Nutch 用の言語判定プラグインを作ってみた。 言語判定プラグイン for Apache Nutch - Language Detection Library for Java プラグイン体はとても小さいので、言語判定ライブラリに同梱されている。 上のドキュメントの通りに設置すれば、以下のように様々な言語での判定が出来るようになる。 利用方法は上のドキュメントを読んでもらうとして、ここでは言語判定プラグインはどのように作られているか、という話をしよう。 plugin.xml Apache Nutch のプラグインと言語判別

    言語判定プラグイン for Apache Nutch - 木曜不足
  • 自然言語処理勉強会@東京 第1回 の資料 - 木曜不足

    日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの文抽出 using CRF」の資料(自己紹介は除く)です。 以前、Ruby で作った文抽出モジュール を機械学習技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】

    自然言語処理勉強会@東京 第1回 の資料 - 木曜不足
  • 「Web本文抽出 using CRF」の学習用データの作り方 - 木曜不足

    第2回自然言語処理勉強会@東京が 9/25 に行われます。 前回よりキャパの大きい会場&週末に参加募集が始まったばかりですが、早くもほぼ定員。 自然言語処理に興味のある人はぜひ。でも、計画的なドタキャンは運営の方にご迷惑がかかるのでやめてね。 今度の第2回でも出しゃばって発表させてもらう予定だが、第1回も「Web文抽出 using CRF」という話をさせてもらった。 CRF(Conditional Randam Fields) を Web ページからの文抽出に用いるという手法の提案という内容で、実際に動作する Python スクリプトもあわせて公開している。 資料: http://www.slideshare.net/shuyo/web-using-crf 実装: http://github.com/shuyo/iir/blob/master/sequence/crf.py http:

    「Web本文抽出 using CRF」の学習用データの作り方 - 木曜不足
  • 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足

    第2回自然言語処理勉強会@東京 にのこのこ行ってきました。 ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 ナイーブベイズによる言語判定 from Shuyo Nakatani 内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。 前回の「文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開&最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。 精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。 というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗 楽しんでいただけた

    自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足
  • 1