モ(以下略JUST DO NEET!classifier4Jを使用した日本語文章の要約 ベイジアンフィルターのJava実装として有名なClassifier4Jですが、 >>Classifier4J(Sourceforge) 簡易な文章要約機能もついています。 ただし、こちらは日本語に対応していない(というか英語しか対応してない)ので、 日本語対応を行うには、独自のTokenizerを作成してあげる必要があります。 逆に言うと、ローカライズされたTokenizerを作成すれば、どの言語にも対応できる模様。 Classfier4Jの要約生成はシンプルなロジックで、 文章の中での単語の頻度をカウントして、最頻出の単語を含む文章を抽出する というようなロジックになっています。 なので、日本語についても、単語を抽出するロジックをTokenizerに埋め込めば、