タグ

algorithmとtextminingに関するjjzakのブックマーク (3)

  • 『MPJoin を使った類似データ抽出 ―アルゴリズムシリーズ 1―』

    Hattori です。以前書いた記事の冒頭 で、”今度はシリーズで何かエントリを書きたい ! ”と軽いノリで一文を表記しておいたら、ホントにやることになりました。 弊社のエンジニア組織の特徴のひとつに、手を上げる・声を上げると、『じゃ、やってよ。』というノリで返ってくるという事が挙げられるのですが、今回もその例に漏れなったわけですね・・・。シクシク・・・。 というわけで、何を書こうかなぁって話しなんですが・・・。私の場合アルゴリズム系の話しかできそうにないので、毎回ポツポツとマイナーで極一部の人にしかウケないテーマを紹介して行こうと思います。 で、初回の今回は SimilarityJoin 関連のアルゴリズムで "MPJoin" というやつを紹介したいと思います。 ■ Similarity Join とは何ぞや? まず最初に SimilarityJoin [1] の定義なんですが、ざっくり

    『MPJoin を使った類似データ抽出 ―アルゴリズムシリーズ 1―』
  • PPJoinとPPJoin+の検証|社内NEET宣言

    社内NEET宣言 文学部出身なのにIT企業で研究開発をすることになった社員のブログです。 PR Profile [ルームを見る|なうを見る] ニックネーム:just do neet 性別:男性 誕生日:さだまさしがソロデビューしたあたり 出身地:神奈川県 自己紹介: NEETは豊かさの象徴だから進んでNEETになるべきです。 ブログジャンル:エンジニア/ニート メッセージを送る アメンバーになる プレゼントを贈る [Publish] Calendar <<August>> S M T W T F S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Theme ブログ ( 25 ) Java ( 29 ) 職場の風景 ( 30 ) インターネット ( 17 ) Unix系O

  • Similarity Joinの話 - |ω・)ノ <黒猫の気まぐれ日記

    何か論文読んで,それについて発表するという授業があるのですが,そこでSimilarity Joinについて調べたのでここにメモします.●Similarity Joinって何?すごく大雑把に言うと,類似しているものを結合すること.そのまんまですね.例えば,上図のように4つのタプルがあったら,それぞれ類似しているもの同士でJoinします.普通は閾値を与えて,類似度が閾値以上であれば類似していると判断し,Joinします.#出力の部分は出力例であり,実際には他の組み合わせも出力されうると思います●類似しているってどうやって判断するの?Similarity Joinを行うためには,類似度の高い組み合わせを見つける必要があります.類似度を算出する方法はよく使われる手法がいくつかあります.(Jaccard, cosine, overlapなどなど)他にも,距離という概念でみると,Hamming dist

  • 1