自然言語処理において、 辞書は単語の文法的意味の情報源として必要不可欠であり、辞書に登録されていない単語を減少させるため、 辞書の語彙を増強する努力がなされている。 新語や専門用語は絶えず増え続けているため、 辞書作成の作業は多大な労力を要するのみならず、 各解析段階での未知語との遭遇は避けられず、大きな問題の一つとなっている。 ※当然ですが 形態素解析が必要な言語のみの研究です。 これができていないと 妙な箇所で形態素分割することになります。 ヒューリスティックな検出は色々ありますが、ヒューリスティックではない統計的方法です。 概して、単語(と見なせるかもしれない記号列)の前後情報から最も尤もらしいモデルを推定します。 出現頻度と連接頻度に基づく専門用語抽出 湯本紘彰 森辰則 横浜国立大学 中川裕志 東京大学 情報処理学会研究報告. 自然言語処理研究会報告 2001(86) ターム性
![新語 造語 未知語 の検出手法 : 研究開発](https://cdn-ak-scissors.b.st-hatena.com/image/square/c8e0b8b952d49e4456b083afb710695e87ee109b/height=288;version=1;width=512/https%3A%2F%2Flivedoor.blogimg.jp%2Ftak_tak0%2Fimgs%2F0%2F4%2F04818efd.jpg)