分かち書きの勉強のため、TinySegmenterを再実装、再学習した。 ソースコード一式はこちら。 分かち書き 文を単語に分けるアレ。日本語の自然言語処理では大前提となる処理。だいたいMeCabにお願いする。 MeCabが超優秀なので何の苦労をすることもないが、NLPerとしては動作原理をさっと説明できるようにしておきたい。 「そういえば分かち書きってどうやってるの??????」 などと聞かれて、さらっと答えられないと気まずい。 「よく理解してないで使ってるの??????」 とか 「ブラックボックス化してるんじゃないの??????」 とか言われるでしょう(想像)。 MeCabは条件付き確率場(CRF)を使用していて、いきなり入るには難しいので、簡単なTSからはじめます。 TSが簡単な理由は2点 X 形態素解析/O 分かち書き X CRF/O 点推定 ようは簡単なタスクを簡単なモデルで解い

