[B! Hadoop] Y_sekkyのブックマーク

Y_sekky id:Y_sekky

Hadoopに関するY_sekkyのブックマーク (4)

hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
gumiの粟飯原です。データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。アプリの基本的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。大規模データの解析日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています
Y_sekky 2012/06/25
データマイニング

Hadoop

python
リンク
大規模グラフ処理フレームワーク Pregel のオープンソース実装 Bagel とか - Standard ML of Yukkuri
ref: http://portal.acm.org/citation.cfm?id=1582723大規模グラフ処理フレームワーク Pregel の論文を読み, BSP (Bulk Synchronous Parallel) モデルで実装したいグラフのアルゴリズムがいくつかあったのでオープンソース実装を探してみた. GoldenOrb, Phoebus, HAMA (汎用的なBSP model), そして Bagel などいくつかの実装があるようで, GoldenOrb は Java, Phoebus は Erlang で実装されており, Bagel は Scala で書かれている. Bagel は Spark 上で動くシンプルな実装 (たったの 150 行程度) で, 大規模なタスクに対してもスケールする運用が可能に思えたので Bagel を使ってみることにした. (Phoebus は
Y_sekky 2012/06/25
graph

Hadoop
リンク
■ - PolyPeaceLight
感想や聞いてきた内容のシェアはhadoopコードリーディング第10回で行いますが、自分用のメモというか探せた資料を掲載しておきますオープニングビデオ Day1 Keynotes 時間 Hall 1 A1 B1 A2 A3 C1 C3 10:30-11:10 Apache Hadoop MapReduce - What Next? Hadoop Summit 2012 Hadoop Distributed File System Reliability and Durability at Facebook Searching conversations with hadoop 11:25-12:05 Hdfs high availability Improving h base availability and repair Large-Scale Machine Learning at
Y_sekky 2012/06/17
Hadoop
リンク
お題目うぉっち:Hadoop Streaming メモ
2010年01月24日 Hadoop Streaming メモ ClouderaのVMで Hadoop-Streaming をいじったときの調べ物＆備忘メモ。 ■処理対象の指定処理対象ファイルが特定のフォルダの下にある場合は、-input で親フォルダ名を指定するだけで中身のファイルを全て拾ってくれる。 input が2個以上ある場合は -input (対象) -input (対象) というようにして複数回指定すればよい。 inputとして渡されたファイルの拡張子が .gz か .deflate だと、mapperに読み込む前にHadoopが自動的に解凍してくれる（ZIP、JARも可能）・output も圧縮することも可能（ mapred.output.compress=true）・ファイルのパスを指定する際に使えるワイルドカードは、「?」」と「*」と {a,b} (←コンマで区切ら
Y_sekky 2011/10/11
Hadoop
リンク
1