タグ

dataminingに関するjjzakのブックマーク (5)

  • MinHashによる高速な類似検索 - Preferred Networks Research & Development

    年が明けてもう一ヶ月経ちましたね.岡野原です. 今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている). 今や世の中のあらゆる種類のデータが,高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました.例えば文書データであれば文書中に出現する単語やキーワードの出現情報を並べた単語空間ベクトル(Bag of Words)で表し,画像データも,SIFTをはじめとした局所特徴量を並べた特徴ベクトル(とそれをSkecth化したもの)として表せます.行動情報や時系列データも特徴量をうまく抽出する.グラフデータもFast subtree kernels[1]と呼ばれる方法で非常に効率的に特徴ベクトルに変換することができ,グラフの特徴をよく捉えることができるのが最近わかっ

    MinHashによる高速な類似検索 - Preferred Networks Research & Development
  • Data Sorcery with Clojure

    Although there were not many updates to the blog in the last years, Incanter’s development still happens with contribution of many people. As result of this, I just pushed 1.9.3 release to Clojars.  This release includes several fixes in the charts library, makes Incanter completely compatible with 1.9.0 (Incanter itself still lists 1.8.0 as dependency), plus some other fixes, listed at changelog.

    Data Sorcery with Clojure
  • Scalaで集合知プログラミング まとめ - Reinvention of the Wheel

    Scalaで集合知プログラミングのまとめです PythonScalaのお勉強を兼ねつつもゆる〜い感じで進めていきますデス 目次 1章 集合知への招待 Scalaで集合知プログラミング その1 2章 推薦を行う 嗜好データの定義 Scalaで集合知プログラミング その2 ユークリッド距離を使った類似度 Scalaで集合知プログラミング その3 ピアソン相関係数を使った類似度と類似度ランキング Scalaで集合知プログラミング その4 アイテムを推薦する Scalaで集合知プログラミング その5 アイテム間の類似を計算する - 嗜好値データの変換 - Scalaで集合知プログラミング その6 deli.cio.us APIの利用準備 Scalaで集合知プログラミング その7 deli.cio.us APIを利用した推薦 Scalaで集合知プログラミング その8 アイテムベースのフィルタリング

    Scalaで集合知プログラミング まとめ - Reinvention of the Wheel
  • PPJoinとPPJoin+の検証|社内NEET宣言

    社内NEET宣言 文学部出身なのにIT企業で研究開発をすることになった社員のブログです。 PR Profile [ルームを見る|なうを見る] ニックネーム:just do neet 性別:男性 誕生日:さだまさしがソロデビューしたあたり 出身地:神奈川県 自己紹介: NEETは豊かさの象徴だから進んでNEETになるべきです。 ブログジャンル:エンジニア/ニート メッセージを送る アメンバーになる プレゼントを贈る [Publish] Calendar <<August>> S M T W T F S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Theme ブログ ( 25 ) Java ( 29 ) 職場の風景 ( 30 ) インターネット ( 17 ) Unix系O

  • Similarity Joinの話 - |ω・)ノ <黒猫の気まぐれ日記

    何か論文読んで,それについて発表するという授業があるのですが,そこでSimilarity Joinについて調べたのでここにメモします.●Similarity Joinって何?すごく大雑把に言うと,類似しているものを結合すること.そのまんまですね.例えば,上図のように4つのタプルがあったら,それぞれ類似しているもの同士でJoinします.普通は閾値を与えて,類似度が閾値以上であれば類似していると判断し,Joinします.#出力の部分は出力例であり,実際には他の組み合わせも出力されうると思います●類似しているってどうやって判断するの?Similarity Joinを行うためには,類似度の高い組み合わせを見つける必要があります.類似度を算出する方法はよく使われる手法がいくつかあります.(Jaccard, cosine, overlapなどなど)他にも,距離という概念でみると,Hamming dist

  • 1