タグ

LSHとbookに関するyassのブックマーク (2)

  • 大規模データのマイニング - 共立出版

    ウェブやインターネットコマースの隆盛によって、とてつもなく巨大なデータセットが出現し、そして、データマイニングによってそれらから情報が抽出されている。 巨大なデータに対するマイニングにおいては、従来から知られているアルゴリズムがそのままでは機能しないことが多い。巨大なデータを扱う上でこれまでとは違った処理戦略や技法が必要となる。 書はデータマイニングにおいて重要な問題の解決に使われてきており、さらに巨大なデータセットに対しても使用できる実用的なアルゴリズムを、データベースやウェブ技術の分野で著名な原著者が解説する。 まず、データマイニングの質や、データマイニングがどのように扱われているかを概観する。次に、今後非常に大量のデータの解析を行う際に、クラウドコンピューティングとともに重要視されると考えられ、この後の章の議論に必須のものとなるマップレデュースを解説する。その後、類似するアイテム

    大規模データのマイニング - 共立出版
  • レコメンド, LSH, Spectral Hashing - DO++

    WEB+DB press vol.49にレコメンド特集の記事をtkngさんと書きました。 内容は最初は、協調フィルタリングやコンテンツマッチの簡単な話から、特徴量をどのように表すか、大規模データをどのように処理するかにいき、特異値分解などの低ランク行列分解によるレコメンドやRestricted Boltzmann Machineといった最近のnetflix prizeの上位の手法など、かなり突っ込んだ議論もしてます。 個人的には三章でLocality Sensitive Hash(LSH)について扱っているあたりがお勧めです。 レコメンドの内部の問題を極言すると、データというのは疎な高次元の数値ベクトル(数百万次元とか)で表され、クエリでベクトルが与えられた時、これと似たようなベクトルを探してこいという問題になります。”似たような”を数学的にいえば、クエリのベクトルとの内積(各ベクトルは長

    レコメンド, LSH, Spectral Hashing - DO++
  • 1