Scaling Apache Storm: Cluster Sizing and Performance Optimization Slides from my presentation at Strata + Hadoop World 2014Read less
Private content!This content has been marked as private by the uploader.
Kohei Ozaki (a.k.a. @smly) is a Software Engineer at Ubie. My specialties are around data and machine learning. I love to discover knowledge and hidden values in data.保険/金融/広告ほか様々な事業でデータ分析や研究開発などの業務を 10 年以上経験してきました。 現在はUbie株式会社でソフトウェアエンジニアをしています。またTURING株式会社でフェローをしています。 I am a Grandmaster of Kaggle competitions (an honor for top competitors with outstanding data science skills) with 19 gold medals
こんにちは。kimukimuです。 昨日はクリスマスイブでしたが、皆さんはどのように過ごされたでしょうか? 私はケーキは買う派ではなく、自分で作る派です。……まぁ、食べるのも自分なのですが…… クリスマスはさておき、今日はKinesisとStormに関する内容です。 AWS re:Invent 2013 で 発表されたAmazon Kinesis が12/17にPublic Betaになり一般公開されましたね! 以下のように、KinesisはStormのコネクタを含んでいる、ということなので、さっそく試してみましょう。 Kinesis does include a connector for porting data to Storm, which AWS General Manager for Data Science Matt Wood said is a possibility in
こんにちは。kimukimuです。 AWS re:Invent 2013 で Amazon Kinesis が発表されるなど、 ストリームデータ処理に対するニーズの高まりを感じますね。 (Amazon Kinesis は、Stormとも連携できるようになっているようです)。 さて、先日、Storm 0.9.0 が正式リリースされたり、Apache Kafka 0.8.0 が正式リリースされたりしたので、 それらを連携して、ストリームデータの可視化を行うプロトタイプを作ってみました。 1. はじめに まず、「ストリームデータ」とは、連続的に発生し続けるデータのことを指します。 システムが出力するログやセンサーが発生するデータ、SNSなどで常時発生するメッセージなどが該当します。 今回は、Apacheが出力するログを、ストリームデータとして収集・可視化することを行ってみます。 1-1.やりたい
Twitter が SummingBird を正式リリースして早二ヶ月。「日本語の紹介記事がほとんど出てないな」と気付いたので、調査がてらまとめてみました。 SummingBird とは? MapReduce なプログラムを書くための Scala/Java ライブラリ。最大の特徴は、ひとたび SummingBird で書いたジョブは Hadoop でも Storm でも同じように実行できること。 SummingBird では、Hadoop を使う「バッチモード」と、Storm を使う「リアルタイムモード」に加えて、二つを同時に実行する「ハイブリッドモード」がある。ハイブリッドモードでは、ジョブの作者が特に配慮しなくても、バッチとリアルタイムの処理結果を自動的にマージできる。 ハイブリッドモードでは、同じジョブを Hadoop と Storm で同時に実行できるので、Hadoop の耐障害性
2015.10.3 にOSC2015 Fukuoka(@九州産業大学)で講演した資料です。 PacemakerとPostgreSQLのレプリケーション機能を組み合わせた「PG-REX」(*)は、共有ディスクを使用しない安価な構成で、商用運用にも耐える可用性を実現することができます。 このPG-REXを含むPacemakerによるクラスタ構成は初期構築後、実際の故障が発生した際にその効果を発揮しますが、ログやコマンドが複雑で、フェイルオーバの原因を突き止めたり、 その後に正しい状態に復旧する方法がわからない、といった問い合わせを受けることが多々あります。 そこで、デモでも使用しているPG-REXを例として、故障内容によるPacemakerの挙動の違い、および原因解析方法、復旧方法を、実例を挙げながら網羅的にご説明します。 * PG-REXのコミュニティも立ち上げ、普及に努めています。 コミュ
こんにちは。 #stormjp のタグでStormの雑多な情報まとめその3です。 段々前置きとかが思いつかなくなってきましたが、とりあえず入ります^^; ○19.StormとKestrelを組み合わせることで『Kestrelから取得したメッセージをStormで処理完了したことを保証する』 アプリケーションが構築可能。 Kestrelは「Transaction」という仕組みを持っており、 ackが返されなかったメッセージは一定時間でメッセージを復旧させるため。 そのため、Storm側で成功したらackを返し、失敗/タイムアウトしたらfailを返すように Kestrelとやり取りをすればOK。 上記の動作をする雛形はStorm-Kestrelにある。 ○20.Nimbus、Supervisor、workerは各々ローカルに一時ファイルを出力する。 出力先は【STORM_HOME】ディレクトリ配
2. HADOOP VS STORM Batch processing Real-time processing Jobs runs to completion Topologies run forever JobTracker is SPOF* No single point of failure Stateful nodes Stateless nodes Scalable Scalable Guarantees no data loss Guarantees no data loss Open source Open source * Hadoop 0.21 added some checkpointing SPOF: Single Point Of Failure 3. COMPONENTS Nimbus daemon is comparable to Hadoop JobTrac
こんにちは。 #stormjp のタグでStormの雑多な情報まとめその7です。 段々、終わりが見えてきたような感はありますw ○81.Stormクラスタ自体のアップデートは起動しっぱなしでは無理。 安全確実を期すなら下記のフロー。 1.Topology全部落とす 2.Storm-Nimbus、UI、Supervisorを落とす 3.ZK上とローカルのファイルを全部削除 4.Storm-Nimbus、UI、Supervisorを再起動 尚、Stormにとっては動作しながらのクラスタ自体のアップデートへ対応する優先度は低い。 ○82.storm.yamlのworker.childoptsでWorkerプロセス起動時のJVM引数を指定できるが、 その際「%ID%」と指定すればWorkerプロセスのIDに置換されて実行される。 83.LinearDRPCですとSpout/Boltの生成タイミング
リアルタイム分散処理とは 「ビッグデータ」処理のためにHadoopを用いますと、「複数のマシンに大量データ処理を分散して飛躍的に性能を向上する」ことが容易に可能となります。 ところがHadoopの弱点としまして、ビッグデータをいったん蓄積し、バッチで一括処理する形態で処理が行われますので、処理データが発生してからそれに対する処理結果が得られるまで必ずタイムラグが発生します。このため、クレジットカードの不正アクセス検知、センサーデータなどでの異常値検出のようなリアルタイムなレスポンス(低レイテンシー)が要求されるビッグデータ分野へのHadoopの適用は向いておりません。 このような随時発生する大量データ(ストリーミングデータ)を、蓄積せずにリアルタイムに処理する「リアルタイム分散処理」が求められています。 今回は、リアルタイム分散処理のソリューションとしてTwitter社より公開された
Akka, Finagle and Storm are 3 new open source frameworks for distributed parallel and concurrent programming. They all run on the JVM and work well with Java and Scala. They are very useful for many common problems: Real-time analytics Complex website with different input and outputs Finance Multiplayer games Big data Akka, Finagle and Storm are all very elegant solutions optimized for different p
NoSQL Now 2013の コンファレンスでは、チュートリアルの他2つの基調講演に参加した。2つとも似通ったテーマだが、少し異なった点を強調した。電力系統は電力だけではな く、電力搬送に関する莫大な量のデータや情報も伝達する。これは、電話のシステムに似ている。電話システムはコントロール・システム(シグナリング)と音 声(データ)だ。電話システムも電力系統も国家の根幹をなす重要なインフラであり、予期できる故障や予期できない故障の際にもサービスを停止することはで きない。電力の提供を絶やさないために、インフラやそれに付随するシステムは冗長性、回復性、自己回復性や,フォールトトレラント 性を備えて設計され構築されなければならない。 コンピュータのシステムも同様だ。大規模な分散コンピュータ・システムをモニターしコント ロールするためには、突然であっても不可避な問題に対応できるように設計・構築さ
2. About Me Eiichiro Uchiumi • A solutions architect at working in emerging enterprise technologies - Cloud transformation - Enterprise mobility - Information optimization (big data) https://github.com/eiichiro @eiichirouchiumi http://www.facebook.com/ eiichiro.uchiumi 3. What is Stream Processing? Stream processing is a technical paradigm to process big volume unbound sequence of tuples in realti
When you are optimizing the performance of your Storm topologies it helps to understand how Storm’s internal message queues are configured and put to use. In this short article I will explain and illustrate how Storm version 0.8/0.9 implements the intra-worker communication that happens within a worker process and its associated executor threads. Internal messaging within Storm worker processes Il
コロナウイルスが流行する前の2020年1月上旬、中国の杭州に行ってきたのでその記録を書いておく。 はじめに 自分はこれが中国へ行くの5回目。それなりに慣れている方だと思うけど、中国人と一緒に行ったほうが圧倒的に楽です。 数年前にキャッシュレスが普及して、その後も規制が変わったりして行くたびに状況が変わっています。なので、ここで書いてあることは半年後には参考にならないかも。 事前にやっておくこと WeChatPayのアカウントを作る、可能なら本人確認とチャージをやっておく Alipayのアカウントを作って、可能なら本人確認とチャージをやっておく 中国で使える香港SIMを買う WeChatPayとAlipayのアカウントは、外国人でも作れるときと作れないときがある。またお金もチャージできるときとできないときがある。 事前にググってできるかどうか試しておくのが重要。 また、中国はいわゆるGrea
We published our first ever UI-focused post on Top JavaScript Dynamic Table Libraries the other day and got some valuable feedback – thanks! We are back to talking about the backend again. Our Search Analytics and Scalable Performance Monitoring services/products accept, process, and store huge amounts of data. One thing both of these services do is process a stream of events in real-time (and b
A common pattern in real-time data workflows is performing rolling counts of incoming data points, also known as sliding window analysis. A typical use case for rolling counts is identifying trending topics in a user community – such as on Twitter – where a topic is considered trending when it has been among the top N topics in a given window of time. In this article I will describe how to impleme
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く