タグ

Flumeに関するwalk77のブックマーク (4)

  • MySQL to HBase Heterogeneous Replication【実装編】 | 株式会社サイバーエージェント

    概要 Hadoopを用いたログ集計基盤は次第に整備されつつあるが,集計にはユーザなどのいわゆるマスタデータ(会員登録情報,プロフィール情報など)とのJOINが必要とされることが多い. しかしながら,(特にAmebaサービスでは)マスタデータはMySQLに保存されていることが多く,さらにHDFSには追記処理しかできない(特定行の削除などができない)ためマスタデータをMySQLからダンプコマンドにより全データ取得し,HDFS上のファイルを置き換えるという非効率な処理に陥りがちである. そこで,MySQLからHadoop(HDFS)をベースとしながら,ランダムリード/ライトが可能なHBaseにデータレプリケーションが可能となれば非常に便利である. 稿では「MySQL to HBase Heterogeneous Replication【第一報】」に続き,実際にMySQLからHBaseへのヘ

  • Apache Spark Streaming=大規模準リアルタイムストリーム処理? - 夢とガラクタの集積場

    こんにちは。 Sparkについて調べてみよう企画第2段(?)です。 1回目はまずSparkとは何かの概要資料を確認してみました。 その先はRDDの構造を説明している論文と、後Spark Streamingというストリーム処理基盤の資料がありました。 とりあえず、そんなわけで(?)お手軽に概要がわかりそうなSpark Streamingの方を調べてみました。 まず見てみた資料は「Overview of Spark Streaming」(http://spark.incubator.apache.org/talks/strata_spark_streaming.pdf)です。 というわけで、読んだ結果をまとめてみます。 Spark Streamingとは何か? 大規模ストリーム処理フレームワーク ・100オーダーのノードにスケールする ・秒単位のレイテンシで処理を実行可能 ・Sparkのバッチ

    Apache Spark Streaming=大規模準リアルタイムストリーム処理? - 夢とガラクタの集積場
  • Apache Kafkaってそもそも何か確認してみます(その1 - 夢とガラクタの集積場

    こんばんは。 最近Stormを調べていると、 データ取得の手段としてApache Kafkaとの連携が記述されています。 そのため、とりあえず何ができるか、の概要を調べてみました。 最初はFlumeを使おうかとも思ったんですが、 下記のようなモデルの祖語もあり、とりあえずApache Kafkaについて調べてみようという。 FlumeはCollectorSinkからデータソースに投入するPush型 StormはSpoutに対して自分からデータを取得しに行くPull型 → 上記の関係上、Flumeが取得したデータを一時的に蓄えるものが必要になります。 ・・・Listener仕掛けてキューに入れるとかですね。 それをKafkaを使えば不要かなぁ、と思って確認しています。 1.何故Kafkaは作られたのか? 元々はLinkedInのActivity StreamとData Processingを

    Apache Kafkaってそもそも何か確認してみます(その1 - 夢とガラクタの集積場
  • flume NGを動かしてみた。 - 無能日記

    ■ flume NGを動かしてみた fluent(ruby)が盛り上がってそうなので、ここはあえてflume(java)を使ってみた flume 家サイト ■ fluentとの比較 ログを収集するこの手のツールは、scribe, flume, fluentなどいくつかある それらの比較表を拾ってたのが下の図 参考: http://blog.treasure-data.com/post/13047440992/fluentd-the-m... この図を見ると、flumeの行数がすごい事になっている ただここに書かれているのは、古いflumeなのでflume NGではない (現在は0.9.Xまでの古いflumeはflume OGと呼び、あたらしい、1.0.0以降のflume NGをflumeと呼ぶらしい) じゃぁ、flume NGではどうなのか? ざっくり行数を調べてみる # wget ht

    walk77
    walk77 2013/09/05
  • 1