Yuichirouのブックマーク - はてなブックマーク

CRF を使った Web 本文抽出 - 木曜不足
とある確率でカオスでタイムマシンな勉強会を 7/30 にサイボウズにて開催。お疲れ様でした＆ありがとうございました＞各位会のテーマに合うかなあと心配しつつ、以前 TokyoNLP #1 にて発表させていただいた、CRF(Conditional Random Fields) を使った Web 本文抽出ネタを焼き直し＆プチバージョンアップして発表した。その資料がこちら。 CRF を使った Web 本文抽出 View more presentations from Shuyo Nakatani 最初は、元の資料そのまま持って行こうかな、と思っていたのだけど、結局結構それなりに改訂版に。実装の方も少し更新してあって、最急降下法＋FOBOS L1 に対応していたり、素性も約３倍に増えていたり。データは……相変わらず少ないけど(苦笑)、訓練データとテストデータを分けて、定量的な結果を資料にま
Yuichirou 2011/07/31
リンク
自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足
第2回自然言語処理勉強会＠東京にのこのこ行ってきました。ありがとうございました＆お疲れ様でした＞各位。今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。ナイーブベイズによる言語判定 from Shuyo Nakatani 内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。前回の「本文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開＆最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗楽しんでいただけた
Yuichirou 2010/09/26
とんでもないものができようとしている……!!
リンク
1

はてなブックマーク

タグ

ブックマーク / shuyo.hatenablog.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / shuyo.hatenablog.com (2)

CRF を使った Web 本文抽出 - 木曜不足

自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス