タグ

ElasticsearchとSparkに関するskypenguinsのブックマーク (2)

  • Spark Streaming最初の一歩 - pochi's weblog

    はじめに Spark, SQL on Hadoop etc. Advent Calendar 2014 15日目です。 3日目の記事でもSpark Streamingは紹介されていましたが、私のほうではより初心者向けの基的な内容を記述しておきたいと思います。 Spark Streamingとは リアルタイムログ検索エンジンを考えてみる 実装してみる Spark Streamingとは Apache Sparkはインメモリで動作する柔軟なバッチエンジンです。 Spark Streamingはストリームで流れてくるデータに対してApache Sparkで書いたバッチが動作するものです。 誤解を恐れずにいうとSpark Streamingは主に以下の3つの機能を提供しています。 各種ストリームデータを取得するためのコネクタ(Receiver)を提供する ストリームデータをSparkのRDDのよ

    Spark Streaming最初の一歩 - pochi's weblog
  • 楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社

    0. ログやデータを取得した後は? ログやデータの分析には、様々なアプローチが考えられるが、Apache Solrやelasticsearchといった全文検索エンジン製品にデータを蓄積し、その機能を用いて検索・集計・分析を行う方法がある。その際、データをそのまま蓄積するのではなく、各ツイート・各行に属性を付与(エンリッチメント)することにより、分析の幅は大きく広がる。 全文検索エンジンへのデータの投入では、Flume-ngやfluentdといったデータ収集製品を利用する実例が多い。しかし、リアルタイムにデータに対してエンリッチメントの前処理を行おうとした場合、処理が複雑になるにつれ、単体サーバーで動作するFlume-ngやfluentdでは処理能力が頭打ちになってくる。そこで、登場するのが、リアルタイムに大量のデータを処理することができるストリーミング処理系のビッグデータ関連技術である。

    楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社
  • 1