タグ

textminingに関するrhosoiのブックマーク (3)

  • 語彙抽出器

    なにこれ 調査対象の Twitter ユーザーがよく使う語彙を抽出します。 どうやって使うの Twitter の ID (英数で表記されるほう) を Screen Name 欄に入力して「送信する」ボタンをクリックしてください。対象のユーザーアカウントの語彙が表示されます。内部 ID 番号 (UID) で検索することもできます。 見つかりませんって表示されたんだけど? 調査対象外です。 対象は? 2011 年から 2013 年 9 月までが観測対象期間です。期間中にインターネット全体に公開された発言から任意収集したデータが対象となっています。現在は非公開または削除されたユーザーでも期間中に対象となっていれば表示されます。なお観測者が対象とした期間に観測された語彙から件数を抽出しています。したがって実際に発言した件数とは差異があります。 調査対象外にしてほしい お手数ですが個別に連絡をお願い

    rhosoi
    rhosoi 2013/09/25
    これは・・・面白いなー(´∀`)
  • コサイン尺度(コサイン類似度)の計算 - Ceekz Logs (Move to y.ceek.jp)

    文書間の類似度を求める方法の一つとして、コサイン尺度が挙げられます。コサイン尺度とは、2つのベクトルのなす角度であり、文書をベクトル化することにより、文書間の類似度を求めることが出来ます。 sub cosine_similarity { my ($vector_1, $vector_2) = @_; my $inner_product = 0.0; map { if ($vector_2->{$_}) { $inner_product += $vector_1->{$_} * $vector_2->{$_}; } } keys %{$vector_1}; my $norm_1 = 0.0; map { $norm_1 += $_ ** 2 } values %{$vector_1}; $norm_1 = sqrt($norm_1); my $norm_2 = 0.0; map { $nor

    rhosoi
    rhosoi 2008/11/10
    「文書間の類似度を求める方法の一つとして、コサイン尺度が挙げられます。」
  • 編集距離(レーベンシュタイン距離)の計算 - Ceekz Logs (Move to y.ceek.jp)

    文字列間の類似度を求める方法の一つとして、編集距離が挙げられます。編集距離は、考案者にちなみレーベンシュタイン距離とも呼ばれますが、具体的には、挿入や削除、置換によって、一方の文字列から他方の文字列に変換するために必要な作業の最小回数です。 use List::Util; sub levenshtein_distance { my ($list_1, $list_2) = @_; my $len_1 = scalar(@{$list_1}); my $len_2 = scalar(@{$list_2}); my @d; foreach my $i (0 .. $len_1) { $d[$i][0] = $i; } foreach my $j (0 .. $len_2) { $d[0][$j] = $j; } foreach my $i (1 .. $len_1) { foreach my

    rhosoi
    rhosoi 2008/11/10
    「文字列間の類似度を求める方法の一つとして、編集距離が挙げられます」
  • 1