タグ

MapReduceに関するtettsyunのブックマーク (2)

  • Efficient Large-Scale Distributed Training of Conditional Maximum Entropy Models - tsubosakaの日記

    新年明けましておめでとうございます。今年初の論文紹介。 大規模なデータセットに対する条件付き最大エントロピーモデルの学習を並列で行う話[1]。 論文概要 条件付き最大エントロピーモデルの学習を並列でおこなうというタスクに関して、標準的な3通りの方法について比較を行った。 そのうちmixture weight methodに関しては収束レートの理論的解析を行っている また100万件から10億件までのデータセットに対して実験を行った。 条件付き最大エントロピーモデル 条件付き最大エントロピーモデルの詳細に関しては文献[2]などを参考にされたい。 訓練データS={(x_1,y_1) , \dots , (x_m ,y_m)}が与えられたとする。ここでxは入力データ、yはクラスラベルだと思ってもらえればよい。素性ベクトルをとして、としたとき、解かなければならない問題は を最小化するwを求めることで

    Efficient Large-Scale Distributed Training of Conditional Maximum Entropy Models - tsubosakaの日記
  • Disco MapReduce

    Disco is a lightweight, open-source framework for distributed computing based on the MapReduce paradigm. Disco is powerful and easy to use, thanks to Python. Disco distributes and replicates your data, and schedules your jobs efficiently. Disco even includes the tools you need to index billions of data points and query them in real-time. Disco was born in Nokia Research Center in 2008 to solve rea

  • 1