未知語の抽出 UniDicの場合 手持ちの文書のうち、システム辞書で未知語として判定されるものを抽出する。 未知語が抽出されやすいようにdicrcに未知語の出力のみが出力されるwakatimitiの出力形式を追加する。 % vi dicrc output-format-type = wakatimiti node-format-wakatimiti = \0 unk-format-wakatimiti = %m\n eos-format-wakatimiti = Note: UniDicでは、なぜか-F,-U,-Eのオプションがきかないため、dicrcで設定する。 未知語がまとまって分割されて抽出されるようにchar.defを一時的に修正する。 % cp char.def char.def_bk % vi char.def DEFAULT 0 1 0 # DEFAULT is a mand