Tridentの並列数の指定方法についてまとめました. Tridentでは,ストリームを定義する時にparallelismHint()メソッドを書くことで,直前のOperationの並列数の指定が可能. ただし,単に記述しただけではダメみたいです. 例えば,以下の様なストリームを定義します. Stream inputStream = topology .newStream("sentence", spout) .each(new Fields("field"), new Function1()) .each(new Fields("field"), new Function2(), new Fields()) .parallelismHint(10); これを実行すると,Function2()が10並列になるかと思いきや,されません. しかし,以下のようにFunction1()とFunct
お久しぶりです@kojiisd です。 このブログへの登場はかなり久しぶりです。昨年10月にミャンマーから日本に帰ってきて、今は、IoTやら可視化などに関する仕事をしています さて、TwitterよりStormが公開されて以降、分散ストリーム処理フレームワークも、Flink、Spark Streaming、Samza、Beam、Gearpump、SensorBee等、さまざまなOSSプロダクトが公開されました。 世はまさに「大ストリーム時代」!?(ワンピース風) そのような中、4/12にApache Storm から正式メジャーバージョンとなる、1.0.0がリリースされました。このタイミングでどのような機能が盛り込まれるのか、興味を持っていましたが、これまでの課題を解消しつつ、他プロダクトよりも一歩先に行くような内容もリリースされました。 大きな変更点は12個 以下の公式サイトでも公表され
英語の勉強も兼ねてApache Stormのチュートリアルを和訳してみました。 ほぼ直訳・一部意訳です。間違いは大目に見ていただけると助かります。 https://storm.apache.org/documentation/Tutorial.html チュートリアル このチュートリアルでは、Stormトポロジーの作り方とStormクラスタのデプロイ方法について学びます。Javaをメインの言語で使いますが、Stormの他言語対応を説明するためにPythonを使います。 序文 このチュートリアルは、storm-starterプロジェクトを使います。本プロジェクトをcloneし、例に従うことをおすすめします。「Setting up a development environment」と「Creating a new Storm projet」を読んで、セットアップしてください。 Stormクラ
こんにちは。kimukimuです。 Stormの次バージョン(0.8.2)の開発を楽しみに待っていますが、 いつの間にか0.8.2の開発版のビルド番号が16まで行っていました(ーー; 0.8.2はGUIもパワーアップしているので楽しみです。 ・・・そんなわけで、どこかこのあたりで一度リリースしてくれることを期待する今日この頃です^^; とまぁ、それはさておき、今日のお題です。 1.StormのWikiに書いてありそうで書いていない肝心なこと これまで何回かStormについて投稿してきましたが、 肝心なことを書いていなかったことに気付きました。 それは・・・ 「Stormって条件でTupleを送信するBoltを分岐できるの?」 です。 StormのWikiを見てみても、下のようなSpoutとBoltの接続図は書いてありますが、 条件に関する記述はありません。 下の図からわかることは下記の2点
Apache Storm 1.0.0を使ってみるシリーズの3回目です。今まではこんなのを書いています。 Apache Storm 1.0.0を使ってみる Distributed Cache API編 Apache Storm 1.0.0を使ってみる Storm UI編 今回はNative Streaming Window APIを使ってみます。 Topologyの起動 SlidingWindowTopologyがサンプルとして用意されているので、それを使ってみます。 # bin/storm jar examples/storm-starter/storm-starter-topologies-1.0.0.jar org.apache.storm.starter.SlidingWindowTopology $ bin/storm jar examples/storm-starter/stor
Azure HDInsight は、マネージドの、全範囲に対応した、クラウド上のオープンソースのエンタープライズ向け分析サービスです。 HDInsight を使用すると、Azure 環境で Apache Spark、Apache Hive、LLAP、Apache Kafka、Hadoop などのオープン ソース フレームワークを使用できます。 HDInsight および Hadoop テクノロジ スタックとは Azure HDInsight は、Apache Spark、Apache Hive、LLAP、Apache Kafka、Apache Hadoop などのビッグ データ フレームワークを Azure 環境で簡単に実行できるようにするマネージド クラスター プラットフォームです。 大量のデータを高速かつ効率的に処理できるように設計されています。 どのようなときに Azure HDIn
こんにちは。kimukimuです。 AWS re:Invent 2013 で Amazon Kinesis が発表されるなど、 ストリームデータ処理に対するニーズの高まりを感じますね。 (Amazon Kinesis は、Stormとも連携できるようになっているようです)。 さて、先日、Storm 0.9.0 が正式リリースされたり、Apache Kafka 0.8.0 が正式リリースされたりしたので、 それらを連携して、ストリームデータの可視化を行うプロトタイプを作ってみました。 1. はじめに まず、「ストリームデータ」とは、連続的に発生し続けるデータのことを指します。 システムが出力するログやセンサーが発生するデータ、SNSなどで常時発生するメッセージなどが該当します。 今回は、Apacheが出力するログを、ストリームデータとして収集・可視化することを行ってみます。 1-1.やりたい
こんにちは。kimukimuです。 何回かTwitterStormの記事を投稿してきましたが、 ローカル環境での実行ですとやはり限度があるため、 分散環境で実行可能なStormクラスタを構築して検証します。 ホストやゲストのマシンスペック、OS等は以前の投稿を参照してください。 ちなみに、OSやStormのバージョン等は下記の通り以前からバージョンアップしています。 ゲストマシン(VirtualBoxの上に構築、1マシン辺りの性能) OS:Centos 6.0 (64bit) → Centos 6.2 (64bit) カーネルバージョン:2.6.32 CPU:1CPU Memory:2048MB HDD:128GB インストールStormバージョン:0.60 → 0.70-rc 1.まずは仮想マシンを増やしてネットワークを組んでみます なにはともあれ、仮想マシンが複数ないとはじまりません。
※こちらを参照した。 9 Apache Stormを動かすに従って、単体動作まで完了させる。 10 ZooKeeprをDistributed Modeで動かす。 ZooKeeper.mdの第2章のみを実行して、ZooKeeperをDistributed Modeで実行する。 11 Stormクラスタの設定を行う。(root権限で実行) stormの設定は、storm.yaml というファイルを作りますが、 stormのサーバの設定用のstorm.yaml と、クライアントの設定用のstorm.yamlがあるので注意が必要です。 サーバ用とは、stormを動かすための設定で、nimbusとsupervisorで通信したり、zookeeperとやりとりをするための設定です。 クライアント用とは、stormにtopologyを投入する時に、workerはいくつにする、などの設定です。 サーバーと
We process billions of events on Twitter every day. As you might guess, analyzing these events in real time presents a massive challenge. Our main system for such analysis has been Storm, a distributed stream computation system we’ve open-sourced. But as the scale and diversity of Twitter data has increased, our requirements have evolved. So we’ve designed a new system, Heron — a real-time analyti
こんにちは。 前回TwitterBlogのHeronの記事を読み込んでみたので、 次は論文を読むか、とはりきってみた所、有料だったので撃沈した今日この頃です。 この後開発が進んでいくことを考えると今買って読んでしまうか悩みますね・・ と思っていた所、下記のPaperを読んだ結果のサマリが投稿されているサイトが見つかったので、 実際論文読むかの参考という意味でも読んでみます。 blog.acolyer.org ただ、そのまま挙げているわけではなく、Nathanさんのブログの記事云々とか等、 一部省略している所もあります。 1. Twitterでは既にStormを使用していない。 Twitterでは既にStormは使用しておらず、Heronがストリーム処理の基本となっている。 ここ数カ月で既に数百のTopologyを複数のデータセンターで運用している。 ===== このあたりは、さすがStor
こんにちは。 今月頭、TwitterがHeronという新しいリアルタイム解析基盤について発表していました。 読んでみると、StormとAPIの互換性を保ったまま新しいHeronというリアルタイム解析基盤を開発したそうな。blog.twitter.com ですので、一度Heronの記事を読んでまとめて、Stormと比較しておこうと思います。 StormもOSS化されて4年近く経過し、ストリーム処理プロダクトも世代交代の時期に来ているようですので、その意味でのまとめとしても。 その前に、そもそもStormって? 2011年にTwitterがOSS化した耐障害性を持つ分散ストリーム処理基盤です。 どういうものかは下記あたりの資料を読むのが私が何か下手に書くよりわかりやすいと思います^^; 初めて広く広まったストリーム処理基盤のOSSで、その分野の走りだったのではないか、と考えています。 Twit
There are a number of distributed computation systems that can process Big Data in real time or near-real time. This article will start with a short description of three Apache frameworks, and attempt to provide a quick, high-level overview of some of their similarities and differences. Apache Storm In Storm, you design a graph of real-time computation called a topology, and feed it to the cluster
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く