[B! storm] yassのブックマーク

yass id:yass

stormに関するyassのブックマーク (23)

Scaling Apache Storm - Strata + Hadoop World 2014
Scaling Apache Storm: Cluster Sizing and Performance Optimization Slides from my presentation at Strata + Hadoop World 2014Read less
yass 2014/10/25
storm

concurrency
リンク
Private Presentation
Private content!This content has been marked as private by the uploader.
yass 2014/02/22
Storm

kafka

Jubatus

machinelearning
リンク
Kohei Ozaki, 小嵜耕平 | ho.lc
Kohei Ozaki (a.k.a. @smly) is a Software Engineer at Ubie. My specialties are around data and machine learning. I love to discover knowledge and hidden values in data.保険/金融/広告ほか様々な事業でデータ分析や研究開発などの業務を 10 年以上経験してきました。現在はUbie株式会社でソフトウェアエンジニアをしています。またTURING株式会社でフェローをしています。 I am a Grandmaster of Kaggle competitions (an honor for top competitors with outstanding data science skills) with 19 gold medals
yass 2014/01/29
storm

XOR

ack
リンク
Amazon Kinesis + Storm を連携させて、ストリームデータ処理を行ってみた - Taste of Tech Topics
こんにちは。kimukimuです。昨日はクリスマスイブでしたが、皆さんはどのように過ごされたでしょうか？私はケーキは買う派ではなく、自分で作る派です。……まぁ、食べるのも自分なのですが…… クリスマスはさておき、今日はKinesisとStormに関する内容です。 AWS re:Invent 2013 で発表されたAmazon Kinesis が12/17にPublic Betaになり一般公開されましたね！以下のように、KinesisはStormのコネクタを含んでいる、ということなので、さっそく試してみましょう。 Kinesis does include a connector for porting data to Storm, which AWS General Manager for Data Science Matt Wood said is a possibility in
yass 2013/12/25
kinesis

storm
リンク
Kafka+Storm+Elasticsearch+Kibanaでストリームデータ処理の可視化を行ってみた - Taste of Tech Topics
こんにちは。kimukimuです。 AWS re:Invent 2013 で Amazon Kinesis が発表されるなど、ストリームデータ処理に対するニーズの高まりを感じますね。（Amazon Kinesis は、Stormとも連携できるようになっているようです）。さて、先日、Storm 0.9.0 が正式リリースされたり、Apache Kafka 0.8.0 が正式リリースされたりしたので、それらを連携して、ストリームデータの可視化を行うプロトタイプを作ってみました。 1. はじめにまず、「ストリームデータ」とは、連続的に発生し続けるデータのことを指します。システムが出力するログやセンサーが発生するデータ、SNSなどで常時発生するメッセージなどが該当します。今回は、Apacheが出力するログを、ストリームデータとして収集・可視化することを行ってみます。 1-1.やりたい
yass 2013/12/13
kafka

storm

elasticsearch

kibana
リンク
Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive
Twitter が SummingBird を正式リリースして早二ヶ月。「日本語の紹介記事がほとんど出てないな」と気付いたので、調査がてらまとめてみました。 SummingBird とは？ MapReduce なプログラムを書くための Scala/Java ライブラリ。最大の特徴は、ひとたび SummingBird で書いたジョブは Hadoop でも Storm でも同じように実行できること。 SummingBird では、Hadoop を使う「バッチモード」と、Storm を使う「リアルタイムモード」に加えて、二つを同時に実行する「ハイブリッドモード」がある。ハイブリッドモードでは、ジョブの作者が特に配慮しなくても、バッチとリアルタイムの処理結果を自動的にマージできる。ハイブリッドモードでは、同じジョブを Hadoop と Storm で同時に実行できるので、Hadoop の耐障害性
yass 2013/11/03
" MapReduce なプログラムを書くための Scala/Java ライブラリ。最大の特徴は、SummingBird で書いたジョブは Hadoop でも Storm でも同じように実行できる / Storm がコケた場合でも、あとから Hadoop が同じデータを処理して結果を復旧"

Summingbird

storm

hadoop

twitter
リンク
大規模サイトを支えるビッグデータプラットフォーム技術
2. 自己紹介 Privileged and Confidential 2 遠峯康夫(とおみねやすお) 事業戦略統括本部データソリューション本部データインフラ開発部 2010年新卒入社 Hadoopクラスタ立ち上げの部署に配属 2012年データソリューション配属 Hadoop、リアルタイム処理基盤などを担当
yass 2013/10/04
" メモリ：64GB / CPU：12コア24スレッド / ディスク：3TB × 4ディスク "

Yahoo!

hadoop

server

storm

teradata
リンク
Stormの注目の新機能TridentAPI
2015.10.3 にOSC2015 Fukuoka(＠九州産業大学）で講演した資料です。 PacemakerとPostgreSQLのレプリケーション機能を組み合わせた「PG-REX」(*)は、共有ディスクを使用しない安価な構成で、商用運用にも耐える可用性を実現することができます。このPG-REXを含むPacemakerによるクラスタ構成は初期構築後、実際の故障が発生した際にその効果を発揮しますが、ログやコマンドが複雑で、フェイルオーバの原因を突き止めたり、その後に正しい状態に復旧する方法がわからない、といった問い合わせを受けることが多々あります。そこで、デモでも使用しているPG-REXを例として、故障内容によるPacemakerの挙動の違い、および原因解析方法、復旧方法を、実例を挙げながら網羅的にご説明します。 * PG-REXのコミュニティも立ち上げ、普及に努めています。コミュ
yass 2013/10/01
storm

trident
リンク
TwitterでつぶやいたStormの雑多な情報まとめ（その３ - 夢とガラクタの集積場
こんにちは。 #stormjp のタグでStormの雑多な情報まとめその３です。段々前置きとかが思いつかなくなってきましたが、とりあえず入ります＾＾； ○19.StormとKestrelを組み合わせることで『Kestrelから取得したメッセージをStormで処理完了したことを保証する』アプリケーションが構築可能。 Kestrelは「Transaction」という仕組みを持っており、 ackが返されなかったメッセージは一定時間でメッセージを復旧させるため。そのため、Storm側で成功したらackを返し、失敗／タイムアウトしたらfailを返すように Kestrelとやり取りをすればＯＫ。上記の動作をする雛形はStorm-Kestrelにある。 ○20.Nimbus、Supervisor、workerは各々ローカルに一時ファイルを出力する。出力先は【STORM_HOME】ディレクトリ配
yass 2013/09/29
" StormとKestrelを組み合わせることで『Kestrelから取得したメッセージをStormで処理完了したことを保証する』アプリケーションが構築可能。Kestrelは / ackが返されなかったメッセージは一定時間でメッセージを復旧 "

Storm

kestrel
リンク
STORM
2. HADOOP VS STORM Batch processing Real-time processing Jobs runs to completion Topologies run forever JobTracker is SPOF* No single point of failure Stateful nodes Stateless nodes Scala ble Scala ble Guarantees no data loss Guarantees no data loss Open source Open source * Hadoop 0.21 added some checkpointing SPOF: Single Point Of Failure 3. COMPONENTS Nimbus daemon is comparable to Hadoop JobTrac
yass 2013/09/29
storm

xor

ack

at least once
リンク
TwitterでつぶやいたStormの雑多な情報まとめ（その８ - 夢とガラクタの集積場
こんにちは。 #stormjp のタグでStormの雑多な情報まとめその７です。段々、終わりが見えてきたような感はありますｗ ○81.Stormクラスタ自体のアップデートは起動しっぱなしでは無理。安全確実を期すなら下記のフロー。１．Topology全部落とす２．Storm-Nimbus、UI、Supervisorを落とす３．ZK上とローカルのファイルを全部削除４．Storm-Nimbus、UI、Supervisorを再起動尚、Stormにとっては動作しながらのクラスタ自体のアップデートへ対応する優先度は低い。 ○82.storm.yamlのworker.childoptsでWorkerプロセス起動時のJVM引数を指定できるが、その際「%ID%」と指定すればWorkerプロセスのIDに置換されて実行される。 83.LinearDRPCですとSpout/Boltの生成タイミング
yass 2013/09/29
" Ackerの中では子TupleのAckIDは全体で一つのlong値しか保持せず、　子TupleのAckを受信するごとにAckIDの排他的論理和を計算していく形を取る。　結果が全て0bitとなれば、子Tupleは全て処理されたと判定される。"

storm

xor

ack
リンク
リアルタイム分散処理Stormの耐障害性は？ - Tech-Sketch
リアルタイム分散処理とは「ビッグデータ」処理のためにHadoopを用いますと、「複数のマシンに大量データ処理を分散して飛躍的に性能を向上する」ことが容易に可能となります。ところがHadoopの弱点としまして、ビッグデータをいったん蓄積し、バッチで一括処理する形態で処理が行われますので、処理データが発生してからそれに対する処理結果が得られるまで必ずタイムラグが発生します。このため、クレジットカードの不正アクセス検知、センサーデータなどでの異常値検出のようなリアルタイムなレスポンス(低レイテンシー)が要求されるビッグデータ分野へのHadoopの適用は向いておりません。このような随時発生する大量データ（ストリーミングデータ）を、蓄積せずにリアルタイムに処理する「リアルタイム分散処理」が求められています。今回は、リアルタイム分散処理のソリューションとしてTwitter社より公開された
yass 2013/09/29
" Topoloyの中をTupleが流れていく状況(Spoutから見たツリー構造)をStormが監視できる様にし、さらにBoltは処理結果に応じて、正常終了時は Ack , 障害発生時は Fail の送信を行うという実装を行います。"

Storm

ack
リンク
Akka vs. Finagle vs. Storm
Akka, Finagle and Storm are 3 new open source frameworks for distributed parallel and concurrent programming. They all run on the JVM and work well with Java and Scala. They are very useful for many common probl ems: Real-time analytics Complex website with different input and outputs Finance Multiplayer games Big data Akka, Finagle and Storm are all very elegant solutions optimized for different p
yass 2013/09/29
akka

finagle

storm

comparison
リンク
大規模、複雑、分散システムに必要な新たなパラダイムと考え方　－　Twitter Storm：ヨロズIT善問答：オルタナティブ・ブログ
NoSQL Now 2013のコンファレンスでは、チュートリアルの他２つの基調講演に参加した。２つとも似通ったテーマだが、少し異なった点を強調した。電力系統は電力だけではなく、電力搬送に関する莫大な量のデータや情報も伝達する。これは、電話のシステムに似ている。電話システムはコントロール・システム(シグナリング)と音声(データ)だ。電話システムも電力系統も国家の根幹をなす重要なインフラであり、予期できる故障や予期できない故障の際にもサービスを停止することはできない。電力の提供を絶やさないために、インフラやそれに付随するシステムは冗長性、回復性、自己回復性や,フォールトトレラント性を備えて設計され構築されなければならない。コンピュータのシステムも同様だ。大規模な分散コンピュータ・システムをモニターしコントロールするためには、突然であっても不可避な問題に対応できるように設計・構築さ
yass 2013/09/22
"やって来たデータはアップデートも消去もされず、単に格納 / もし、全てのデータの全ての版(値)を格納してあれば、どの時点でもどの版を使っても再処理が可能 / アプリは予め処理したヴューを通してアクセス"

twitter

storm

architechture

immutable
リンク
Storm Anatomy
2. About Me Eiichiro Uchiumi • A solutions architect at working in emerging enterprise techno logies - Cloud transf ormation - Enterprise mobility - Information optimization (big data) https://github.com/eiichiro @eiichirouchiumi http://www.facebook.com/ eiichiro.uchiumi 3. What is Stream Processing? Stream processing is a technical paradigm to process big volume unbound sequence of tuples in realti
yass 2013/06/30
Storm
リンク
Understanding the Internal Message Buffers of Storm
When you are optimizing the performance of your Storm topologies it helps to understand how Storm’s internal message queues are configured and put to use. In this short article I will explain and illustrate how Storm version 0.8/0.9 implements the intra-worker communication that happens within a worker process and its associated executor threads. Internal messaging within Storm worker processes Il
yass 2013/06/25
storm

ZeroMQ

disruptor

netty

messaging
リンク
tjun月１日記
コロナウイルスが流行する前の2020年1月上旬、中国の杭州に行ってきたのでその記録を書いておく。はじめに自分はこれが中国へ行くの5回目。それなりに慣れている方だと思うけど、中国人と一緒に行ったほうが圧倒的に楽です。数年前にキャッシュレスが普及して、その後も規制が変わったりして行くたびに状況が変わっています。なので、ここで書いてあることは半年後には参考にならないかも。事前にやっておくこと WeChatPayのアカウントを作る、可能なら本人確認とチャージをやっておく Alipayのアカウントを作って、可能なら本人確認とチャージをやっておく中国で使える香港SIMを買う WeChatPayとAlipayのアカウントは、外国人でも作れるときと作れないときがある。またお金もチャージできるときとできないときがある。事前にググってできるかどうか試しておくのが重要。また、中国はいわゆるGrea
yass 2013/06/25
"１０台のノードで毎秒100万メッセージの処理と、数百回のデータベース呼び出しを行うようなシステムが作れます。"

storm
リンク
ストリームデータ分散処理基盤Storm
2012年12月10日 NTTデータオープンソースDAY 2012 講演資料『ストリームデータ分散処理基盤 Storm』 NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス岩崎正剛 http://oss.nttdata.co.jp/hadoop/
yass 2013/05/23
storm

ZeroMQ

disruptor
リンク
Event Stream Processor Matrix - Sematext
We published our first ever UI-focused post on Top JavaScript Dynamic Table Libraries the other day and got some valuable feedback – thanks! We are back to talking about the backend again. Our Search Analytics and Scala ble Performance Monitoring services/products accept, process, and store huge amounts of data. One thing both of these services do is process a stream of events in real-time (and b
yass 2013/05/19
cep

esp

comparison

esper

storm

s4

stream
リンク
Implementing Real-Time Trending Topics with a Distributed Rolling Count Algorithm in Storm
A common pattern in real-time data workflows is performing rolling counts of incoming data points, also known as sliding window analysis. A typical use case for rolling counts is identifying trending topics in a user community – such as on Twitter – where a topic is considered trending when it has been among the top N topics in a given window of time. In this article I will describe how to impleme
yass 2013/02/21
SlidingWindow

storm

count

stream

disruptor

toread
リンク
1 2 次のページ