タグ

ブックマーク / shuyo.hatenablog.com (2)

  • CRF を使った Web 本文抽出 - 木曜不足

    とある確率でカオスでタイムマシンな勉強会を 7/30 にサイボウズにて開催。 お疲れ様でした&ありがとうございました>各位 会のテーマに合うかなあと心配しつつ、以前 TokyoNLP #1 にて発表させていただいた、CRF(Conditional Random Fields) を使った Web 文抽出ネタを焼き直し&プチバージョンアップして発表した。 その資料がこちら。 CRF を使った Web 文抽出 View more presentations from Shuyo Nakatani 最初は、元の資料そのまま持って行こうかな、と思っていたのだけど、結局結構それなりに改訂版に。 実装の方も少し更新してあって、最急降下法+FOBOS L1 に対応していたり、素性も約3倍に増えていたり。 データは……相変わらず少ないけど(苦笑)、訓練データとテストデータを分けて、定量的な結果を資料にま

    CRF を使った Web 本文抽出 - 木曜不足
    Yuichirou
    Yuichirou 2011/07/31
  • 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足

    第2回自然言語処理勉強会@東京 にのこのこ行ってきました。 ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 ナイーブベイズによる言語判定 from Shuyo Nakatani 内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。 前回の「文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開&最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。 精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。 というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗 楽しんでいただけた

    自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足
    Yuichirou
    Yuichirou 2010/09/26
    とんでもないものができようとしている……!!
  • 1