id:nokuno さん主催の自然言語処理勉強会@東京にのこのこ行ってきた。 主催者、発表者、参加者、そして会場を提供してくださった mixi さん、みなさんありがとうございました。 こんな機会を自分で作ることは出来ないので、次回も是非何か作って参加したい。 今回は、Conditional Random Fields(条件付き確率場)という機械学習の系列ラベリングの手法を使って、Project Gutenberg や html の本文を抽出する、という試みについて話をさせてもらった。 【追記】おっと、そういえば Project Gutenberg はあまり知られていないんだった。著作権フリーのテキストを集めたデータベース。主に英語だが、ドイツ語やフランス語、スペイン語、中国語なども徐々に。海外版の青空文庫といえば多少通りがいい?【/追記】 Web本文抽出 using crf from Sh