タグ

ブックマーク / mecab.sourceforge.net (1)

  • MeCab: 未知語処理

    未知語処理の定義 $Id: unk.html 167 2009-03-08 10:16:26Z taku-ku $; 概要 未知語処理(辞書に載っていない単語の形態素解析の処理)についてユーザが再定義できます。 設定ファイル 配布辞書のディレクトリにある char.def と unk.def という2つのファイル を変更します. char.def 未知語処理のルールです. こちらを御覧ください. unk.def 未知語に対する品詞列のテーブルです. こちらを 御覧ください. ケーススタディ 数字の連続を1つの形態素とする 辞書 (*.csv ファイル)から数字のエントリを削除します。 ipadic の場合は、Noun.number.csv の中から、アラビア数字のエントリを消去します。 char.def を修正し、数字の連続が未知語になるようにします。 .. NUMERIC 1 1 0

    denken
    denken 2009/04/16
    unk=unknown
  • 1