タグ

ブックマーク / blog.takuros.net (2)

  • 30分で理解する自然言語処理 まとめ - プログラマでありたい

    今まで何か日語処理のエントリーを書いてきました。後で振り返り易いように、ここらで一覧にまとめておきます。 wikipediaのダウンロード&データベースにインポート コーパスとして、wikipediaの存在はありがたいです。まずはここから始めるのが良いですね。併せて紹介しているxml2sqlも秀逸です。 特徴語抽出のあれこれ あれこれと言いつつ形態素解析Yahoo APIを使った特徴語抽出のみを紹介しています。手軽に出来るのが魅力です。 ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと Algorithm::NaiveBayesの使い方を簡単なサンプルで紹介いたしました。割と好評です。ベイジアンフィルターの人気の高さを垣間みれますね。 TermExtract Perlで出来る特徴語抽出 TermExtractという専門語抽出モジュールの紹介です。TermEx

    30分で理解する自然言語処理 まとめ - プログラマでありたい
    cubick
    cubick 2010/01/08
  • ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと - プログラマでありたい

    昨日のはてなのホットエントリーに『入門ベイズ統計』の読みどころという記事が載っていました。ベイズ理論の人気は根強いですね。 ベースとしての数式は割とシンプルなので、自分で実装してもそれ程手間は掛からないかもしれません。しかし、CPANのモジュールとして提供されているので、そちらを使用するのも良いかと思います。私が知っている所では、Algorithm::NaiveBayesが簡単で使いやすかったです。 昔書いたコードですが、下のサンプルでは簡単なスパムフィルターを作っています。spam.txtとham.txtは、それぞれのコーパスを形態素解析して作った単語のみのリストです。test.txtは、判定したい文章から抽出した単語のリストです。スパムとハムの量を増やせば、これだけでも割と使い物になります。 応用例としては、スパムとハムの2種類のカテゴリだけではなく、複数種類のカテゴリを作ればブログの

    ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと - プログラマでありたい
  • 1