タグ

ブックマーク / inoue.typepad.com (1)

  • 日本語形態素解析について

    GooがGoogleと契約したときに、NTT独自の日語処理技術を利用してGoogleとは違う結果表示を行うという方針を出した。(参照:Googleに変わったGoo) しかしこれは形態素解析を変更したという意味ではなく、Googleへクエリーを投げる前処理に独自に日語処理を加えたということになる。 形態素解析とは日語(アジア言語)特有の処理である。英語やその他のヨーロッパ言語であれば単語の区切り文字はスペースである。ところが日語では句読点はあるものの、単語間にスペースなど存在しない。どこからどこまでが単語になるのかは文章によって変わってくるのである。 文章を単語に分けないとインデクスの作成が出来ないのだ。 そのためのアルゴリズムが形態素解析というわけで、当然各社色々な工夫をして少しでも精度を上げるようにしている。日だといわゆるメーカーの研究所には各社の形態素解析がある。NTT、 N

  • 1