自然言語処理は専門外なんですが、職種的(?にこの分野に精通している人がたくさん社内にいるので僕も少し影響を受け始めています。。 今回は単純ベイズ分類器(Naive Bayes:ナイーブベイズ)による文書分類を基礎の部分だけやってみます。単純(Naive)と呼ばれているのは、文書の出現確率を単語の出現確率の”積”で近似し、語順や単語間の相関関係を考慮しないためにそう呼ばれています。ベイズ理論については書籍がたくさん出ているのでそちらを参考にしてください。ここで説明するにはとても大変なので(というより正しく説明できる自信がない)。この理論の実社会における適用分野としてはスパムフィルタなどが有名です。 ナイーブベイズは他の分類器と比べるとマシンリソースをあまり必要としないので、Flash(ActionScript)でもある程度の文書量までならPlayerがタイムアウトせずに学習/分類が可能です。