自然言語処理において、 辞書は単語の文法的意味の情報源として必要不可欠であり、辞書に登録されていない単語を減少させるため、 辞書の語彙を増強する努力がなされている。 新語や専門用語は絶えず増え続けているため、 辞書作成の作業は多大な労力を要するのみならず、 各解析段階での未知語との遭遇は避けられず、大きな問題の一つとなっている。 ※当然ですが 形態素解析が必要な言語のみの研究です。 これができていないと 妙な箇所で形態素分割することになります。 ヒューリスティックな検出は色々ありますが、ヒューリスティックではない統計的方法です。 概して、単語(と見なせるかもしれない記号列)の前後情報から最も尤もらしいモデルを推定します。 出現頻度と連接頻度に基づく専門用語抽出 湯本紘彰 森辰則 横浜国立大学 中川裕志 東京大学 情報処理学会研究報告. 自然言語処理研究会報告 2001(86) ターム性