タグ

形態素解析に関するkitune3uのブックマーク (1)

  • wikipedia dump を使って複合名詞を判定してみる - 開発めも2

    例えば「ウォークマン」を形態素解析器にかけると、mecabやChasenの場合だと、 「ウォーク|マン」と分けてしまう。 多くの場合、連接する名詞をくっつけて複合名詞とすればうまくいくけど、例外もたくさんある。 単純に連接名詞をとるだけだと、「世界最高新記録並の早さ」を「世界最高新記録並|の|早さ」と分けてしまう。 「世界最高新記録並」は確かにひとつの名詞と呼べそうではあるけど、なんか気持ち悪いです。 つまりどこで区切るのが適切かをコンピュータに自動的に判定させるのは難しいわけなんですが、 そこでwikipediaを使います。 wikipediaの各ページは人手で作られているため、その単語(複合名詞)のページが存在すること自体が、ひとつの単語として認めるかどうかを判断する大きな材料になります。 おまけにwikipediaで複合名詞判定(名詞判定でもある)を行っていれば、その後の処理で例えば

    wikipedia dump を使って複合名詞を判定してみる - 開発めも2
  • 1