決定木を使って辞書なしで単語を抽出する手法に関する論文を読みました。Automatic Corpus-Based Thai Word Extraction with the C4.5 Learning Algorithm はじめに日本語と同じく、単語の分かち書きがされない言語にタイ語があります。従来は人手による辞書の整備が行われていましたが、網羅性に限界があるのとコストがかかるので自動化したいというニーズがあります。 アプローチ日本語の形態素解析では系列ラベリングとして定式化されることが多いですが、この論文ではコーパス中の全部分文字列を考え、ある部分文字列が単語か非単語かを二値分類するというアプローチをとっています。このことは、前後の文脈によって単語区切りが異なることがないという前提が置かれていることになります。実際に使うときは抽出した単語を辞書として最長一致するのかな。 決定木単語と非単