タグ

elasticsearchに関するkuppi0216のブックマーク (7)

  • Kafka+Spark Streaming+Elasticserachによるシステム構築と検証の進め方

    はじめに 前回はSpark Streamingの概要と検証シナリオ、および構築するシステムの概要を解説しました。今回はシステムの詳細構成と検証の進め方、および初期設定における性能測定結果について解説します。 この検証ではメッセージキューのKafka、ストリームデータ処理のSpark Streaming、検索エンジンのElasticsearchを組み合わせたリアルタイムのセンサデータ処理システムを構築しています。今回はKafkaとElasticsearchの詳細なアーキテクチャやKafkaとSparkの接続時の注意点も解説します。 システムの詳細構成 マシン構成とマシンスペック 評価に向けたマシンの初期構成を図1に示します。システムは以下のノードから構成されます。 センサデータを収集してKafkaに送信する収集・配信ノード Kafkaクラスタを構成してメッセージの受け渡しを行うキューとして

    Kafka+Spark Streaming+Elasticserachによるシステム構築と検証の進め方
  • 楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社

    0. ログやデータを取得した後は? ログやデータの分析には、様々なアプローチが考えられるが、Apache Solrやelasticsearchといった全文検索エンジン製品にデータを蓄積し、その機能を用いて検索・集計・分析を行う方法がある。その際、データをそのまま蓄積するのではなく、各ツイート・各行に属性を付与(エンリッチメント)することにより、分析の幅は大きく広がる。 全文検索エンジンへのデータの投入では、Flume-ngやfluentdといったデータ収集製品を利用する実例が多い。しかし、リアルタイムにデータに対してエンリッチメントの前処理を行おうとした場合、処理が複雑になるにつれ、単体サーバーで動作するFlume-ngやfluentdでは処理能力が頭打ちになってくる。そこで、登場するのが、リアルタイムに大量のデータを処理することができるストリーミング処理系のビッグデータ関連技術である。

    楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社
  • 知識ゼロからElasticsearchを実践で使えるようになろう! - $shibayu36->blog;

    以前少しだけElasticsearchを触った時に、自分流Elasticsearch入門 - $shibayu36->blog; というElasticsearchに入門した時のメモをまとめていた。しかし、その頃はElasticsearchを使って完全に一人で一つの機能を作るというところまではいけなかった。 最近になってまたElasticsearchを一から導入する仕事をすることになった。この時以前自分がまとめた記事を読みながらやっていたのだが、実践で一から導入するためにはこの記事だけでは知識が足りなかった。 そこで、前の記事の知識をベースに、一から導入するために少しずつ学んでいき、自分のブログにまとめるなどのことをしてきたので、今回はその締めくくりとして、知識ゼロからElasticsearchを使えるようになるために学習したことについて書いておきたいと思う。 今回書くこと・書かないこと 今

    知識ゼロからElasticsearchを実践で使えるようになろう! - $shibayu36->blog;
  • 15分で作る、Logstash+Elasticsearchによるログ収集・解析環境 | さくらのナレッジ

    たとえば、inputに「stdin」、outputに「file」というプラグインを使用すれば、標準入力からイベントを受け取り、それをファイルに出力することが可能となる。そしてLogstashが注目されている理由の1つのが、出力先として「Elasticsearch」が利用できる点だ。 検索機能に優れた分散型データベース「Elasticsearch」 Elasticsearchはオープンソースで開発されている分散型データベースシステムだ(図2)。「Elastic」という名前のため勘違いされやすいが、米Amazonが提供しているクラウドサービス「Amazon Elastic Compute Cloud(EC2)」とは無関係だ。 図2 ElasticsearchのWebサイト ElasticsearchはJavaで実装されており、またデータ検索エンジンとして「Lucene」が組み込まれているのが特

    15分で作る、Logstash+Elasticsearchによるログ収集・解析環境 | さくらのナレッジ
  • [初心者向け] fluentd Elasticsearch Kibanaが結局何か分からないやつはここを見ろ – o24ブログ

    Apacheのログを解析しようと思い、色々とググってみたところ、 fluentd (td-agent), Elasticsearch, Kibanaというキーワードが頻出しました。 上記3つを組み合わせると、ApacheのログがシャレオツなUIで見れるということはすぐ理解できたのですが、 それぞれが結局何をするものなのか分からなかったので簡単にまとめてみました。 使ってみたいけど、いまいち仕組みが分からないって方は読んでみてください。 fluentd とは fluentd 様々なログフォーマットを指定したサービスのフォーマットに整形してくれます。 今回の場合は、Apacheのログを、Elasticsearchの入力フォーマットに整形してくれます。 fluentdの動作イメージ(公式より転載) fluentd は Apache や Nginxのログを Elasticsearchのフォーマット

    [初心者向け] fluentd Elasticsearch Kibanaが結局何か分からないやつはここを見ろ – o24ブログ
  • CactiのデータをElasticSearch+Kibanaでまとめてみてみよう

    斎藤です。こんにちは。 最近、会社の中で様々な部活動が始まっています。「プログラミング部」や「フットサル部」といったメジャー(?)なものから、「サイクリング部」「P部(プロレス観戦部)」そして「二郎部」などなど、エッジが効いたものまであります。そうそう、私は「サイクリング部」と「P部」に所属しています。 さて、今回はKibanaを使って、Cacti(RRDTool)が収集したモニタリングデータを参照してみようと思います。Cactiはモニタリングデータを収集・ビジュアライズするツールとして普及していますが、他のサーバ・指標と比較するのがちょっと面倒です。そこを、Kibanaを用いてより見やすくしようと言うのが目的です。Kibanaとは、収集したログをGUIで整理しつつビジュアライズできるデータ分析ツールの一種です。たいてい、データストアとしてElasticSearchというNoSQL DB

    CactiのデータをElasticSearch+Kibanaでまとめてみてみよう
  • Fulltext search with Node.js and elasticsearch

    今日のスライド http://swdyh.github.com ブラウザ拡張開発 AutoPagerize ページの自動継ぎ足し http://autopagerize.net JavaScriptRubyGoに興味 システム開発に検索はつきもの 小規模なら全件走査 LIKE '%query%' それで間に合わなくなってくると全文検索エンジン あらかじめindexを作る。の最後にあるindex Namazu, Hyper Estraier, Senna, Tritonn, Groonga, Sphinx, Lucene, Solr, elasticsearch

  • 1