タグ

NLPと類似度に関するni66lingのブックマーク (2)

  • ベクトル空間法を利用した類似度計算

    ベクトル空間法を利用した類似度計算 澁谷 翔吾 ,廣安 知之,三木 光範 ISDL Report  No. 20081110002 2008年 5月 22日 Abstract 1 はじめに 近年, 異なる文書間の類似度を定量的に計る手法が盛んに研究されている. レポートでは, ベクトル空間モデルを用いることにより, それぞれの文書のベクトルを比較することにより類似度を定量的に計る手法について調査した. 報告では, それらの手順について解説する. 2 形態素解析 形態素解析(Morphological Analysis)とは, コンピュータ等の計算機を用いた自然言語処理の基礎技術の1つであり, かな漢字変換等にも応用されている. 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い, 自然言語で書かれた文を形態素(Morpheme)の列に分

  • 文書間関連度の基礎

    Abstract 近年,異なる文書間の関連度(類似度)を定量的に計る手法が盛んに研究されている.レポートではそれらの基礎的な手法について調査し,得られた知見について述べる. Word PressやMovable TypeといったCMS(コンテンツマネージメントシステム)や,アメーバブログやはてなダイアリーなどのブログサービスの普及により,簡単にWeb上に文書を作成・公開することが可能となってきており,膨大な量のデータがテキスト(文書)として公開されている.それらはGoogleYahooといった大規模な検索エンジンサービスなどによってクロール*1されることで検索対象となる.これらの膨大な量のデータを有効活用する方法の一つとして,文書を類似するグループにクラスタリングすることで,ユーザが得たい情報を効率良く収集することができる.また,AmazonのレコメンデーションシステムのようにWebサ

  • 1