Kuromojiを使用するにあたっての雑記。ただのメモ。 はじめに Kuromojiは日本語形態素解析エンジンであるが、そもそも形態素解析とは何?ってとこから。 形態素解析とは 文を単語に区切り品詞を定める処理 以下の3つの処理を行っている 単語の分割 活用語処理(読みやすい形、意味のある形に変換すること) 品詞を定める といった順番で行っている。 形態素解析の技術 基本的な仕組み 単語辞書 形態素ラティス 最小コスト法 単語辞書 形態素解析を行うにあたって、単語を分割する必要があるがどこで切ればいいかというのが課題。 ここで単語辞書というものを使用している。 単語辞書というのは10万以上の単語帳のようなもので、入力された文章に対して想定されるすべての分け方パターンを抽出されるのに使用される。 ただ、毎回検索していては計算時間が膨大にかかってしまうためツリー状に辞書の持ち方をして管理をして