タグ

Sparkに関するchess-newsのブックマーク (3)

  • 楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社

    0. ログやデータを取得した後は? ログやデータの分析には、様々なアプローチが考えられるが、Apache Solrやelasticsearchといった全文検索エンジン製品にデータを蓄積し、その機能を用いて検索・集計・分析を行う方法がある。その際、データをそのまま蓄積するのではなく、各ツイート・各行に属性を付与(エンリッチメント)することにより、分析の幅は大きく広がる。 全文検索エンジンへのデータの投入では、Flume-ngやfluentdといったデータ収集製品を利用する実例が多い。しかし、リアルタイムにデータに対してエンリッチメントの前処理を行おうとした場合、処理が複雑になるにつれ、単体サーバーで動作するFlume-ngやfluentdでは処理能力が頭打ちになってくる。そこで、登場するのが、リアルタイムに大量のデータを処理することができるストリーミング処理系のビッグデータ関連技術である。

    楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社
  • ElasticsearchのApache Sparkサポート機能で遊ぶ - CLOVER🍀

    Elasticsearchに、Apache Spark向けのライブラリがあることは知っていたのですが、長らく手をつけていないままだったので、1度試してみることにしました。 Apache Spark support | Elasticsearch for Apache Hadoop [2.3] | Elastic こちらを使うことで、Apache Sparkが提供するAPIをElasticsearchで使うことができるようになるみたいですね。内部的には、elasticsearch-hadoopに依存している模様。 日語記事もあるようです。 楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社 で、何をするかですが、まあ…Spark StreamingとTwitterですかね。今回は、以下のテーマでやってみることにしました。

    ElasticsearchのApache Sparkサポート機能で遊ぶ - CLOVER🍀
  • SpringXD=リアルタイム解析やバッチ処理同士をつなぐ汎用、分散、拡張可能なデータ統合基盤? - 夢とガラクタの集積場

    こんにちは。 最近色々手を出し過ぎな気もしますが、気になったものがあったのでちとまとめてみます。 それは、Spring XDです。 http://www.springsource.org/spring-xd ぱっとトップページを見てみるとやたらと使えそうに見えたので、 実際にチュートリアルを動かし、アーキテクチャ資料を確認してみます。 1.Spring XDって? トップページを確認してみると、以下とありました。 Spring XDは汎用、分散で拡張可能なサービスで、 データインテグレーション、リアルタイム解析、バッチ処理、データ出力に用いることができる。 Spring XDのゴールはビッグデータの複雑さに対応することである。 実世界のビッグデータアプリケーション構築における複雑さは 主に複数の異なるシステムを様々なユースケースをまたいで一つのシステムに結合しようとするところから生じている

    SpringXD=リアルタイム解析やバッチ処理同士をつなぐ汎用、分散、拡張可能なデータ統合基盤? - 夢とガラクタの集積場
  • 1