cubickのブックマーク - はてなブックマーク

30分で理解する自然言語処理　まとめ - プログラマでありたい
今まで何本か日本語処理のエントリーを書いてきました。後で振り返り易いように、ここらで一覧にまとめておきます。 wikipediaのダウンロード&データベースにインポートコーパスとして、wikipediaの存在はありがたいです。まずはここから始めるのが良いですね。併せて紹介しているxml2sqlも秀逸です。特徴語抽出のあれこれあれこれと言いつつ形態素解析とYahoo APIを使った特徴語抽出のみを紹介しています。手軽に出来るのが魅力です。ベイジアンフィルター　Perlで作りたい人に教えてあげたいちょっとしたこと Algorithm::NaiveBayesの使い方を簡単なサンプルで紹介いたしました。割と好評です。ベイジアンフィルターの人気の高さを垣間みれますね。 TermExtract Perlで出来る特徴語抽出 TermExtractという専門語抽出モジュールの紹介です。TermEx
cubick 2010/01/08
リンク
ベイジアンフィルター　Perlで作りたい人に教えてあげたいちょっとしたこと - プログラマでありたい
昨日のはてなのホットエントリーに『入門ベイズ統計』の読みどころという記事が載っていました。ベイズ理論の人気は根強いですね。ベースとしての数式は割とシンプルなので、自分で実装してもそれ程手間は掛からないかもしれません。しかし、CPANのモジュールとして提供されているので、そちらを使用するのも良いかと思います。私が知っている所では、Algorithm::NaiveBayesが簡単で使いやすかったです。昔書いたコードですが、下のサンプルでは簡単なスパムフィルターを作っています。spam.txtとham.txtは、それぞれのコーパスを形態素解析して作った単語のみのリストです。test.txtは、判定したい文章から抽出した単語のリストです。スパムとハムの量を増やせば、これだけでも割と使い物になります。応用例としては、スパムとハムの2種類のカテゴリだけではなく、複数種類のカテゴリを作ればブログの
cubick 2010/01/08
Perl

形態素解析
リンク
1

はてなブックマーク

タグ

ブックマーク / blog.takuros.net (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / blog.takuros.net (2)

30分で理解する自然言語処理 まとめ - プログラマでありたい

ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと - プログラマでありたい

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

30分で理解する自然言語処理　まとめ - プログラマでありたい

ベイジアンフィルター　Perlで作りたい人に教えてあげたいちょっとしたこと - プログラマでありたい