タグ

ブックマーク / x1.inkenkun.com (2)

  • Apache Flink + Kafka + Zeppelin 連携でアドホックなストリーミング分析

    前回、Apache FlinkとはでFlinkの概要に触れたのですが、今回は実践的にkafkaと連携させ、Apache Zeppelinでアドホックに分析してみます。 Zeppelinを使うのは、単純に、jar作って実行するのが面倒だからです(^_-)-☆ 概要 fluentdでデータを収集し、Kafkaにデータを送ります。 Zeppelin上のnotebookからflinkの集計ジョブを実行します。 flinkジョブはKafkaに集約されたストリーミング・データを集計します。 というわけでfluentd, Kafkaをインストールしていきます。 ※ この記事ではCentOS 6.7 Finalを使います。またサーバ上ではrootで作業しています。 ※ また、jdkはopenJDKの1.8を使用しています。 fluentd, Kafkaインストール この記事ではfluentdとKafkaを

  • Apache SparkのWebUI、いろいろ比較してみた

    Sparkを実行できるWebUIをいくつか比較してみました。 対象としたのは下記の3つです。 Apache Zeppelin pyspark + Jupyter(iPython Notebook) spark-notebook Spark付属のSpark Web Interfaceは実行状況のモニタリングやRDDの状態が可視化されていて非常に便利なものなのですが、上記とは毛色が異なるため今回比較対象に入れていません。 Hueのnotebookやdatabricks cloudに関してはまた今度。。。 まずはそれぞれの概要を少しご紹介します。 Apache Zeppelin Apacheが作っているnotebook形式のWeb UIで、対話型実行ができます。 この記事を書いている時点での最新バージョンは0.6.0です。 Scala, Python, SQL(Spark), SQL(Hive)

  • 1