タグ

HadoopとKafkaに関するkimutanskのブックマーク (4)

  • Strata + Hadoop World参加記録 その5 - 元データ分析の会社で働いていた人の四方山話

    Strata + Hadoop World参加記録 その1 Strata + Hadoop World参加記録 その2 Strata + Hadoop World参加記録 その3 Strata + Hadoop World参加記録 その4 という感じで念願のStrataに参加でき、無事日に帰国して落ち着いたので色々振り返ってみています。 今回の個人的な感想 Starata + Hadoop Conferenceと言いつつ、ほぼ誰もHadoopの事は言わず、ほとんどがSparkネタという。いよいよ、という感じですよね。— norihiro shimoda (@rindai87) 2015, 2月 19 という感じです。これは、Hadoopがオワコンとかそういう訳ではなく、もうすでにHadoopが浸透しきって、MapReduceによるバッチ処理はひと通りやり尽くしたので、次になにを?、という

    Strata + Hadoop World参加記録 その5 - 元データ分析の会社で働いていた人の四方山話
    kimutansk
    kimutansk 2015/02/27
    Kafkaは海外だとかなり鉄板な位置づけですか。その他のレイヤはSparkがブームですが、最終的にどこまで広まるか・・日本のSparkコミュはあるといいですね。
  • Data Stream Processing: A Scalable Bridge from Kafka to Hadoop

    You may use stream-oriented systems to parallel process real-time, time-sensitive data. You might also use data stream processing for bulk operations with time-insensitive operations, like data analysis and persistence operations. At Conductor, we use Kangaroo for bulk data stream processing, and we’re open sourcing it for you to use. Why Data Stream Processing with Kafka Wasn’t WorkingLast year,

    Data Stream Processing: A Scalable Bridge from Kafka to Hadoop
    kimutansk
    kimutansk 2014/11/11
    KafkaからHadoopにデータを投入するOSS Kangarooと。パーティション毎に分割すると効率が悪いので、パーティション中のオフセット値にあわせてMapperを生成する方式を取っていると
  • 「Hadoopはビッグデータの“OSカーネル”」、Hadoop Conference Japan開催

    オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」のユーザー会「Hadoop Conference Japan 2014」が2014年7月8日、東京・汐留で開催された。基調講演には、Hadoopのオリジナル開発者であるダグ・カッティング氏(写真1)などが登壇。カッティング氏は「バッチ処理用の『MapReduce』以外の処理方式に対応した現在のHadoopは、ビッグデータを処理する分散OSのカーネルとも言うべき存在になった」と語った。 基調講演にはカッティング氏のほか、日Hadoopユーザー会の世話役であるリクルートテクノロジーズの米谷修氏やNTTデータの濱野賢一朗氏、「Spark」の開発元である米データブリックス(Databricks)のパトリック・ウェンデル氏、米トレジャーデータの太田一樹氏が登壇した。 NTTデータの濱野氏(写真2)は基調講演の冒頭、2009年

    「Hadoopはビッグデータの“OSカーネル”」、Hadoop Conference Japan開催
    kimutansk
    kimutansk 2014/07/08
    Sparkだけでなく、Kafkaまで触れられているあたりにちょっと感動。Hadoopが処理基盤になるとすれば、カーネルという表現はぴったりですね。
  • Samza

    Samza allows you to build stateful applications that process data in real-time from multiple sources including Apache Kafka. Battle-tested at scale, it supports flexible deployment options to run on YARN or as a standalone library.

    kimutansk
    kimutansk 2013/08/25
    後はYARNで耐障害性を確保してKafkaからメッセージを取得する分散ストリーム処理基盤Samzaと。今度Stormと比較してみますかね。
  • 1