タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

PythonとHadoopに関するlaniusのブックマーク (4)

  • R3 by heynemann

    r³ is a map-reduce engine written in python using redis as a backend View project onGitHub r³ r³ is a map reduce engine written in python using a redis backend. It's purpose is to be simple. r³ has only three concepts to grasp: input streams, mappers and reducers. The diagram below relates how they interact: If the diagram above is a little too much to grasp right now, don't worry. Keep reading an

    R3 by heynemann
    lanius
    lanius 2012/07/27
    "a map-reduce engine written in python using redis as a backend".
  • GitHub - douban/dpark: Python clone of Spark, a MapReduce alike framework in Python

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - douban/dpark: Python clone of Spark, a MapReduce alike framework in Python
    lanius
    lanius 2012/04/12
    "Python clone of Spark, a MapReduce alike framework in Python".
  • Hadoop Streaming で Locality-Sensitive Hashing を実装してみる | Atsushi TATSUMA Web Page

    はじめに 研究室では、大規模データベースを対象とした検索インデックスについて研究しています。 分散処理によるインデックス作成を考えていて、今回 Hadoop Streaming でどこまでできるかを試すべく、 Locality-Sensitive Hashing (LSH) を実装してみました。 実装したアルゴリズムについて LSH にはいくつかのアルゴリズムのバリエーションがあります。 LSH の詳細は、ブログなり論文なりなりありますので、ここでは省略しますが、 類似したデータに同じハッシュ値を与えることで、検索を高速化しようというアイディアです。 このハッシュ値には、0101 とかの短いバイナリ符号が好まれます。 今回は、いくつかある LSH のアルゴリズムのうち、 Charikar,M., Similarity estimation techniques from ro

  • hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

    gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

    hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
    lanius
    lanius 2010/10/08
    Amazon Elastic MapReduceの解説が少し載っている。機械学習など、Pythonのデータマイニング用ライブラリの紹介もある。
  • 1