タグ

dataminingに関するtettsyunのブックマーク (6)

  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
    tettsyun
    tettsyun 2009/11/29
    SVDなど
  • Efficient Algorithms for K-Means Clustering

    Tapas Kanungo, David M. Mount, Nathan S. Netanyahu, Christine D. Piatko, Ruth Silverman, and Angela Y. Wu This is a collection of C++ procedures for performing k-means clustering based on a combination of local search and Lloyd's algorithm (also known as the k-means algorithm). Given any set of k centers Z, for each center z in Z, let V(z) denote its neighborhood, that is, the set of data points f

  • クラスタリング (クラスター分析) - Toshihiro Kamishima

    クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.

    クラスタリング (クラスター分析) - Toshihiro Kamishima
  • http://www.pavis.org/essay/multidimensional_scaling.html

  • 本棚演算

    「増井の棚」と「svslabの棚」は似ているにもかかわらず 「アカギ」「掌の中の小鳥」は「svslabの棚」に含まれていないため、 これらのは「svslab」への推薦候補と考えることができる。 このような計算を棚行列の行や列に対して行なうことにより、 様々な有用な情報を取得することができる。 棚演算のプログラミング 棚データを扱うRubyライブラリを使って様々な棚演算を実行できる。 増井への推薦を計算 「増井の棚」に含まれるの傾向を判断して推薦を行なう演算を考える。 「増井の棚」に内容が近い棚の中には、 私が興味を持ちそうなが含まれている可能性が高いと思われるので、 まず「増井の棚」に近い棚のリストを計算してみる。 require 'enzan' # 「増井の棚」に近いを持つ棚のリストを取得 BookList.new('増井').similar.dum

    tettsyun
    tettsyun 2009/10/05
    collaborative filtering
  • Apriori - 機械学習の「朱鷺の杜Wiki」

    Apriori† 与えられたバスケットデータから,支持度がminsup以上,かつ確信度がminconf以上の相関ルールを列挙する最も著名なアルゴリズム. 支持度がminsup以上のアイテム集合を列挙する場合に,アイテム集合 {1,2,3}の支持度がminsup以上であるには,アイテム集合 {1,2}, {1,3}, {2,3}の支持度が全てminsup以上でなければならないことを利用する.要素数が1個だけのアイテム集合を最初に生成し,この条件を満たす候補だけを調べることで,要素数が一つ多いアイテム集合を効率よく列挙できる. -- しましま ↑

  • 1