タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

stemmingに関するmakoto0631のブックマーク (1)

  • term and stemming

    ターム抽出 全文を処理してタームを抽出する作業は情報検索シス テム構築の中心的部分である。英語と日語では方法論が非常に異なる。言語 の構造的特徴を比較してみよう。 英語 単語間に空白があるので、個々の単語を容易に取り出せる。 名詞は単数、複数で語尾変化。動詞も時制、数で語尾変化。 prefix,suffix が単語につく。 日語 膠着言語であり、単語の切れ目が形だけでは分からない。 名詞は語尾変化しない。 多数の名詞が繋がって複合名詞を形成することが多い。 漢字は1文字でそれなりの意味を持つ。 英語のターム抽出 Stemming 異形態から語幹を抽出する。例えば、engineering, engineered, engineeres などから共通の語幹 engineer を抽出する。最もナイーブな方法は、全ての異 形態に語幹を対応させる対応辞書を作っておき、入力された異形態から辞書引

  • 1