タグ

Hadoopに関するY_sekkyのブックマーク (4)

  • hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

    gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

    hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
  • 大規模グラフ処理フレームワーク Pregel のオープンソース実装 Bagel とか - Standard ML of Yukkuri

    ref: http://portal.acm.org/citation.cfm?id=1582723大規模グラフ処理フレームワーク Pregel の論文を読み, BSP (Bulk Synchronous Parallel) モデルで実装したいグラフのアルゴリズムがいくつかあったのでオープンソース実装を探してみた. GoldenOrb, Phoebus, HAMA (汎用的なBSP model), そして Bagel などいくつかの実装があるようで, GoldenOrb は Java, Phoebus は Erlang で実装されており, Bagel は Scala で書かれている. Bagel は Spark 上で動くシンプルな実装 (たったの 150 行程度) で, 大規模なタスクに対してもスケールする運用が可能に思えたので Bagel を使ってみることにした. (Phoebus は

  • ■ - PolyPeaceLight

    感想や聞いてきた内容のシェアはhadoopコードリーディング第10回で行いますが、自分用のメモというか探せた資料を掲載しておきます オープニングビデオ Day1 Keynotes 時間 Hall 1 A1 B1 A2 A3 C1 C3 10:30-11:10 Apache Hadoop MapReduce - What Next? Hadoop Summit 2012 Hadoop Distributed File System Reliability and Durability at Facebook Searching conversations with hadoop 11:25-12:05 Hdfs high availability Improving h base availability and repair Large-Scale Machine Learning at

    ■ - PolyPeaceLight
  • お題目うぉっち:Hadoop Streaming メモ

    2010年01月24日 Hadoop Streaming メモ ClouderaのVMで Hadoop-Streaming をいじったときの調べ物&備忘メモ。 ■処理対象の指定 処理対象ファイルが特定のフォルダの下にある場合は、-input で親フォルダ名を指定するだけで中身のファイルを全て拾ってくれる。 input が2個以上ある場合は -input (対象) -input (対象) というようにして複数回指定すればよい。 inputとして渡されたファイルの拡張子が .gz か .deflate だと、mapperに読み込む前にHadoopが自動的に解凍してくれる(ZIP、JARも可能) ・output も圧縮することも可能( mapred.output.compress=true) ・ファイルのパスを指定する際に使えるワイルドカードは、「?」」と「*」と {a,b} (←コンマで区切ら

  • 1