タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

機械学習とプログラミングに関するhayato34のブックマーク (4)

  • ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録

    今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類(Text Classification, Text Categorization)の技法たちを試していきたいと思います。テキスト分類は文書分類(Document Classification)という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。 テキスト分類とは テキスト分類とは、与えられた文書(Webページとか)をあらかじめ与えられたいくつかのカテゴリ(クラス)に自動分類するタス

    ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録
    hayato34
    hayato34 2010/10/13
    ボキャブラリ数が多い場合は多項モデルの方が精度が高いことが示されています。ベルヌーイモデルは出現しない単語の確率も考慮するので計算量も大きいです。
  • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

    新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

    新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
  • Transformed Weight-normalized Complement Naive Bayes(TWCNB)についての実験と結果 - rubyu's blog

    自作ソフトにテキストの多クラス分類機能を組み込みたくて、調べてみたら Complement Naive Bayes(CNB、補集合ナイーブベイズ)というアルゴリズムが最近の流行のようで、これを検証してみることにしました。 元論文 を一通り読んでから検証を進めていきました。実装される際は目を通すことをオススメします。 使用したコーパスは以下のようなもの 想定する用途に合わせて、それなりにクラス間でデータの量にばらつきがあります。 クラス ファイル数 サイズ A 832 121MB B 491 182MB C 449 59MB D 312 111MB E 298 26MB F 245 67MB G 234 73MB H 210 33MB I 123 33MB J 63 3MB K 62 14MB L 47 6MB M 47 5MB ひとまず、シンプルなナイーブベイズを 集合知プログラミング を

    Transformed Weight-normalized Complement Naive Bayes(TWCNB)についての実験と結果 - rubyu's blog
  • Graphviz

    Please join the Graphviz forum to ask questions and discuss Graphviz. What is Graphviz? Graphviz is open source graph visualization software. Graph visualization is a way of representing structural information as diagrams of abstract graphs and networks. It has important applications in networking, bioinformatics, software engineering, database and web design, machine learning, and in visual inter

  • 1