タグ

Javaと自然言語処理に関するa23m384のブックマーク (1)

  • classifier4Jを使用した日本語文章の要約|モ(以下略

    モ(以下略JUST DO NEET!classifier4Jを使用した日語文章の要約 ベイジアンフィルターのJava実装として有名なClassifier4Jですが、 >>Classifier4J(Sourceforge) 簡易な文章要約機能もついています。 ただし、こちらは日語に対応していない(というか英語しか対応してない)ので、 日語対応を行うには、独自のTokenizerを作成してあげる必要があります。 逆に言うと、ローカライズされたTokenizerを作成すれば、どの言語にも対応できる模様。 Classfier4Jの要約生成はシンプルなロジックで、 文章の中での単語の頻度をカウントして、最頻出の単語を含む文章を抽出する というようなロジックになっています。 なので、日語についても、単語を抽出するロジックをTokenizerに埋め込めば、

  • 1