タグ

類似度に関するtomy3479のブックマーク (6)

  • コサイン類似度を求める

    研究でコサイン類似度を求めなくてはならなくなりました。コサイン類似度ってなんだ??どうやるんだ??まったく検討つかない!というレベルから、計算式はわかった!とりあえず値を出す関数まで作ろう!というレベルに達したのでメモしておきます。あんまりコサイン類似度自体の質はわかってないかもしれませんが、遅延評価勉強法というかんじです。 コサイン類似度とは 2つのデータが似ているかどうかを、文字列が似てるのを調べる分野では距離などで換算します。ちょっとよくわからないかもしれませんが、ぴいことぴいたろう君の類似度は、なんらかの測定器を使うと60mくらいの距離です。ぴいこと弟の類似度は、その測定器では30mくらいの距離でした。弟とぴいこは近いので、ぴいたろう君より似ています。 みたいなかんじ。 コサイン類似度ではベクトルというものを使います。ベクトルってなんだ!!わけわかんねーこと言うな!!!と思ってい

  • 類似度と距離 - CatTail Wiki*

    2つのデータが似ている度合いを,類似度の大きさや距離の近さといった数値にしてあらわすことで,クラスタ分析や,k-近傍法,多次元尺度構成法(MDS)をはじめとするいろいろな分析を行うことが可能となる. ここでは,よく知られている類似度や距離について述べる. 類似度という概念は,2つの集合の要素がまさにどれだけ似ているかを数量化したものであり,距離とは,要素同士の離れ具合,従って非類似度とちかい概念と考えてもよい. 参考までに数学における距離の概念の定義を示すと, 距離空間の定義 Sを1つの空でない集合とし,dをSで定義された2変数の実数値関数 d(SxS) → R が,以下の4条件(距離の公理) D1 : (非負性) 任意のx,y∈Sに対して d(x,y)≧0. D2 : (非退化性) x,y∈Sに対し d(x,y)=0  ⇔ x=y. D3 : (対称性) 任意のx,y∈Sに対して d(x

    類似度と距離 - CatTail Wiki*
  • コサイン尺度(コサイン類似度)の計算 - Ceekz Logs (Move to y.ceek.jp)

    文書間の類似度を求める方法の一つとして、コサイン尺度が挙げられます。コサイン尺度とは、2つのベクトルのなす角度であり、文書をベクトル化することにより、文書間の類似度を求めることが出来ます。 sub cosine_similarity { my ($vector_1, $vector_2) = @_; my $inner_product = 0.0; map { if ($vector_2->{$_}) { $inner_product += $vector_1->{$_} * $vector_2->{$_}; } } keys %{$vector_1}; my $norm_1 = 0.0; map { $norm_1 += $_ ** 2 } values %{$vector_1}; $norm_1 = sqrt($norm_1); my $norm_2 = 0.0; map { $nor

  • PHPで2つの文章の類似度を計算する(Yahoo!版)

    サンプル・プログラムの流れは、「PHP形態素解析を行う」と「PHPで2つの文章の類似度を計算する(KAKASI版)」を組み合わせただけなので、ここでは省略する。 なお、「日形態素解析Webサービス」を利用するためには、アプリケーションIDを取得する必要がある。入手方法は「Yahoo!JAPAN デベロッパーネットワーク - 各種WebAPIの登録方法」を参照されたい。 取得したIDは定数 YAHOO_APPLICATION_ID に格納すること。 「PHPで2つの文章の類似度を計算する(KAKASI版)」と同じテキストを使って実行してみよう。 まず、「元のテキスト」として、以下のWikipediaの引用文を入れる。これは「PHP: Hypertext Preprocessor」からの抜粋である。 PHP: Hypertext Preprocessor(ピー・エイチ・ピー ハイパーテキ

  • 岩堀研究室 レポート類似度判定システム

    情報処理などコンピュータを利用する講義の増加に伴い、レポートをコンピュータで作成して提出することが多くなっています。そのため、コンピュータに関する知識が少しあれば簡単に他人のレポートを複製できてしまい、講義内容の習得率が低下しやすくなっています。 この問題を解決するために、各々のレポートが他の学生のレポートとどのくらい類似しているかを判定するシステムを構築しました。このシステムを利用することで、また、このシステムの存在を知らせるだけでも、レポートの複製という行為の無意味さを学生に気づかせ、学生のやる気を促すことができます。 当システムは文書検索の概念を用いて、以下のような流れで類似度判定を行います。(単純な類似度判定の例) レポートを一つの文書とみなし、形態素に分解します。 形態素の中から、実際に類似度判定に用いる形態素を抽出します。 形態素ごとにtfおよびidfを取得します。 tf・id

  • 発見!へぇ~、そうなってんの。 コサイン尺度 ※追記あり(2010.09.02)

  • 1