黒橋研究室で開発している日本語形態素解析器 JUMAN についてのメモ。 何をしているのか。他の解析器 (ChaSen と Mecab) との比較など。 最近だと Yahoo! JAPAN の形態素解析 API なんてものがあるけど、仕様がよくわからない。 タスク: 日本語の形態素解析 文を形態素に区切る 各形態素に品詞を割り当てる 「名詞」や「動詞」など 内容物 プログラム デフォルトの文法辞書 デフォルトの形態素辞書 プログラムは放置で、実質的に辞書のみの更新。誰かどうにかしてほしいレガシーコード。 文法辞書と形態素辞書は利用者が自由に定義できるとマニュアルではうたっているが、デフォルト以外の辞書が配布されている例を知らない。 ChaSen と MeCab は配布のレベルで、プログラムと辞書を分離している。 IPAdic, NAIST jdic, UniDicなど エンコーディング デ