0. ログやデータを取得した後は? ログやデータの分析には、様々なアプローチが考えられるが、Apache Solrやelasticsearchといった全文検索エンジン製品にデータを蓄積し、その機能を用いて検索・集計・分析を行う方法がある。その際、データをそのまま蓄積するのではなく、各ツイート・各行に属性を付与(エンリッチメント)することにより、分析の幅は大きく広がる。 全文検索エンジンへのデータの投入では、Flume-ngやfluentdといったデータ収集製品を利用する実例が多い。しかし、リアルタイムにデータに対してエンリッチメントの前処理を行おうとした場合、処理が複雑になるにつれ、単体サーバーで動作するFlume-ngやfluentdでは処理能力が頭打ちになってくる。そこで、登場するのが、リアルタイムに大量のデータを処理することができるストリーミング処理系のビッグデータ関連技術である。
![楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社](https://cdn-ak-scissors.b.st-hatena.com/image/square/9f31754cde2c197368c0f7bdcaba1958936fc918/height=288;version=1;width=512/https%3A%2F%2Fwww.intellilink.co.jp%2F-%2Fmedia%2Fndil%2Fndil-jp%2Fhome%2Fcarousel%2Ftop_03.jpg%3Fh%3D1050%26w%3D2804%26hash%3D31F1B1A040A0FA7B497BDCE045E9AF2F)