夢とガラクタの集積場[B!]新着記事・評価

KafkaクラスタでConsumerを接続した際の動作 - 夢とガラクタの集積場
11 users
kimutansk.hatenablog.com

こんにちは。 Producerからメッセージを投入時の動作を確認した前回に引き続き、動作を確認していきます。今回はConsumerがKafkaクラスタに接続した時の動作について、です。 1-1.Consumerのコマンド確認前回と同じく、Consumerのコマンドを確認します。重要になるのはgroup、topic、後は必須がZooKeeperURLとなっています。 # cd /opt/kafka # bin/kafka-console-consumer.sh [2014-03-18 07:22:07,118] ERROR Missing required argument "[zookeeper]" (kafka.utils.CommandLineUtils$) Option Description ------ ----------- --autocommit.interval.m
- 世の中
- 2016/02/04 19:35
- kafka
- あとで読む

RCO Study Night "RCOにおける機械学習と次世代量子情報処理技術「量子アニーリング」" に参加してきました - 夢とガラクタの集積場
16 users
kimutansk.hatenablog.com

こんにちは。最近技術的な内容は大体Qiitaに書いているのでこちらは間が空いてしまっていますが、勉強会の参加記録はこちらに。 RCO Study Night "RCOにおける機械学習と次世代量子情報処理技術「量子アニーリング」"に参加してきました。 atnd.org 正直な話、ソフトウェア屋なので物理的な内容に踏み込んだ個所は理解できていないのですが、その理解なりにわかったことを参加記録として残しておきます。当然間違った内容も紛れているでしょうけど、まぁそれが現時点の私の理解可能なレベルということで。参加メモ RCOにおける機械学習（高柳慎一）リクルートのビジネスは基本マッチングビジネスリクルートコミュニケーションズはリクルートの全事業領域に関わる世の中の”不”を解消広告配信の自動最適化アドテクはコードがそのままビジネス価値につながる特に重要な要素大量データのハン
- テクノロジー
- 2016/01/17 17:19
AWS NACLの設定をCLIから行ってみた - 夢とガラクタの集積場
7 users
kimutansk.hatenablog.com

AWSのNACLを試してみたのですが、ネット上を調べたところ日本語の実例情報がそれほどなかったため、とりあえずまとめておこう、ということでまとめてみました。 1. NACLとは？下記のページにもありますが、「サブネットのインバウンドトラフィックとアウトバウンドトラフィックを制御するファイアウォールとして動作するセキュリティのオプションレイヤー」です。 docs.aws.amazon.com セキュリティグループと何が違うのか、というのは下記のページにあります。docs.aws.amazon.com 簡単にまとめてしまうと、こんなイメージかと。セキュリティグループ NACL インスタンスレベルで動作サブネットレベルで動作ステートフル: ルールに関係なく、返されたトラフィックが自動的に許可ステートレス: 返されたトラフィックがルールによって明示的に許可 2. どんなネットワーク
- テクノロジー
- 2015/12/13 15:52
- aws
- Saved For Later
ActorSystemからActorを検索し、メッセージを送信する - 夢とガラクタの集積場
3 users
kimutansk.hatenablog.com

こんにちは。今回は生成したActorに対してメッセージを送信するのではなく、元々存在しているActorを取得してきてメッセージを送信することを試してみます。これができるようになれば、元々存在しているActorSystemにアクセスし、 Actorに対してメッセージを送れるようになる、つまりは複数のActorSystem間でのメッセージ送受信につながるはずです。 1. 1Actor取得確認というわけで、実際にコードを書いてみます。まず、下記の定義は継続使用します。 ■application.conf akka.actor.deployment { /router1 { router = round-robin-pool nr-of-instances = 3 } } その上で、下記のコードを記述します。 ■ReferenceApp.scala object ReferenceAp
- テクノロジー
- 2015/10/28 21:46
Docker-Registrator(Normal/internal)でConsulに登録される内容は？ - 夢とガラクタの集積場
8 users
kimutansk.hatenablog.com

こんにちは。最近、Dockerでマルチコンテナのクラスタを組もう、ということをやっています。で、そこで課題になってくるのがIPアドレスが一定しない、ということですよね。ですので、そのためにConsul等のサービスディスカバリの仕組みを使う形になります。ただ、Dockerコンテナの内部からConsulに登録するのはいまいち面倒・・ということで、自動登録が可能なDocker Registratorを２パターン試してみました。とりあえず、出来ると構成は下記のようになる・・はず。尚、OSはCentOS7、あとFirewalldは無効化してiptablesを用いています。理由は後ほど（次回以降？） 1. OS側準備まずはDockerインストールなどの諸々のセットアップを行います。尚、rootユーザでログインを予め許容しておき、rootユーザでセットアップを行います。 ■Selin
- テクノロジー
- 2015/08/14 11:07
- consul
- docker
Twitterの新ストリーム処理基盤、Heronのアーキテクチャは？（詳細 - 夢とガラクタの集積場
8 users
kimutansk.hatenablog.com

こんにちは。前回論文の前半部、Stormの問題点を読みましたが、今回は中盤部、Twitter Heronのアーキテクチャについてです。あと、後半部のStormとHeronの性能比較については下記のページでまとめているのの事例が増えただけでしたので、とりあえず省略する方向で＾＾；kimutansk.hatenablog.com では、前回の続きです。 5. Heron 5.1 Data Model and API Heronの主要な設計目標はStormのAPI互換性を維持すること。そのため、HeronのデータモデルはStormと同様のものとなる。 StormのようにHeronはTopologyを実行し、SpoutとBoltの有向非循環グラフとなる。同様に、SpoutはTopology内に入力Tupleを生成or外部から取得し、Boltは実際の計算処理を行う。 Heron Topo
- テクノロジー
- 2015/07/17 06:47
- Heron
- Storm
- architecture
Twitter Heronの論文でのStormの問題点は？（詳細 - 夢とガラクタの集積場
14 users
kimutansk.hatenablog.com

こんにちは。前回あーいう形でサマリ記事を読んだので、次は実際に論文を読んでみるしかないだろう・・ということで、Twitter Heronの論文を読んでみました。今回は前半の、Stormの問題点を記述した個所と、設計検討結果についてです。 Twitter Heron ただ、全文そのまま訳しているのではなく、読みながらそれなりに意訳や切り捨ては入っています。 Abstract Stormは長い間Twitterにおけるリアルタイム解析のメイン基盤だった。ただ、Twitterでのリアルタイム処理データ量が多様性の増加やユースケースの追加に伴って増加した結果、Stormの制約も多く明らかになった。 Twitterには共有インフラ上で動作する、よりスケールし、デバッグしやすく、性能が高く、管理しやすい基盤が必要になった。これらの事情を受けてTwitter内でいくつかのオプションを基に検討した
- テクノロジー
- 2015/07/12 15:08
- Heron
- Storm
- Twitter
Twitter Heronの論文でのStormの問題とHeronの利点は？（サマリ - 夢とガラクタの集積場
11 users
kimutansk.hatenablog.com

こんにちは。前回TwitterBlogのHeronの記事を読み込んでみたので、次は論文を読むか、とはりきってみた所、有料だったので撃沈した今日この頃です。この後開発が進んでいくことを考えると今買って読んでしまうか悩みますね・・と思っていた所、下記のPaperを読んだ結果のサマリが投稿されているサイトが見つかったので、実際論文読むかの参考という意味でも読んでみます。 blog.acolyer.org ただ、そのまま挙げているわけではなく、Nathanさんのブログの記事云々とか等、一部省略している所もあります。 1. Twitterでは既にStormを使用していない。 Twitterでは既にStormは使用しておらず、Heronがストリーム処理の基本となっている。ここ数カ月で既に数百のTopologyを複数のデータセンターで運用している。＝＝＝＝＝このあたりは、さすがStor
- テクノロジー
- 2015/07/05 23:05
- Storm
- Heron
Twitter HeronはStormに比べてどう進化しているのか？ - 夢とガラクタの集積場
51 users
kimutansk.hatenablog.com

こんにちは。今月頭、TwitterがHeronという新しいリアルタイム解析基盤について発表していました。読んでみると、StormとAPIの互換性を保ったまま新しいHeronというリアルタイム解析基盤を開発したそうな。blog.twitter.com ですので、一度Heronの記事を読んでまとめて、Stormと比較しておこうと思います。 StormもOSS化されて4年近く経過し、ストリーム処理プロダクトも世代交代の時期に来ているようですので、その意味でのまとめとしても。その前に、そもそもStormって？ 2011年にTwitterがOSS化した耐障害性を持つ分散ストリーム処理基盤です。どういうものかは下記あたりの資料を読むのが私が何か下手に書くよりわかりやすいと思います＾＾；初めて広く広まったストリーム処理基盤のOSSで、その分野の走りだったのではないか、と考えています。 Twit
- テクノロジー
- 2015/06/28 17:01
- Heron
- storm
- twitter
- realtime
- OSS
- dev
- あとで読む
並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる（その３：run概要＆データソース概要 - 夢とガラクタの集積場
5 users
kimutansk.hatenablog.com

こんにちは。前回で初期化部分の確認が終わったため、今回は本処理の方に入ってきます。尚、ServiceLoaderでJava製プラグインがロード出来るかについてはとりあえず一通り読んでからの方針で＾＾；まず、基本構造としては上記の図にあるRunnerが起動の起点となり、初期化を行った後に run/cleanup/guess/previewの各々の処理に分岐する流れとなっています。まず今回はrun処理の流れを追ってみることにします。 1. run処理の流れ概要 run処理の流れは下記のようになっています。設定ファイル（YAML形式）を読み込む。出力ファイル（次回実行用の設定出力先、Resume状態の出力先）の出力可能確認を行う。 Resume状態ファイルを読み込む。 Executorクラスを生成する。 Resume状態にあわせて処理を実行する。実行失敗した場合、Resume出力
- テクノロジー
- 2015/02/18 21:11
並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる（その１ - 夢とガラクタの集積場
14 users
kimutansk.hatenablog.com

こんにちは。ようやくKinesisSpoutが一段楽したので次のネタを。先日「データ転送ミドルウェア勉強会」が開催され、そこでバルクデータロードツール『Embulk』が公開されました。データのバルクロードというと、定番のOSSというのがなくて、 HDFSにバルクデータをロードする時はhadoopコマンドで行う・・などを行っていたのですが、それがツールでできるというのは非常にありがたいですね。で、既に使ってみた方の事例はいくつか挙がっていますので、実際にどう作られているかを見てみようと思います。・・・ええ、Javaでプラグインが書けるようになるまで実際に動かすかソース読むしか出来ないからですね。 1.embulkのモジュール構成 embulkのGitHubを確認してみますと、下記3つのモジュールで構成されています。 embulk-cli embulk-core embulk-s
- テクノロジー
- 2015/02/09 02:34
- embulk
- java
- Ruby
並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる（その２：初期化 - 夢とガラクタの集積場
15 users
kimutansk.hatenablog.com

こんにちは。前回は起動時のさわりだけでしたので、今回からまともに中身を読む形になりますね＾＾； 1.クラス概要構成 JRubyによる起動処理部分が終わり、 Javaに戻ったのでまずはJavaクラスの概要構成から確認してみます。概要の構成はこれだけです。 EmbulkはGuiceによるインジェクションで必要なオブジェクトを取得して使用する形になるので、固定的に起点となるRunnerクラスから参照が行われているのは上記の図の要素だけになります。各クラスの解説は下記の通りです。 Runner JRubyから起動されるEmbulkの本来のメインクラス。各種オブジェクトの初期化後、run/cleanup/guess/previewといった個別コマンドの処理を行うクラス。 DataSourceImpl システムプロパティに設定されたembulk関連の定義（embulk.で始まるもの）を J
- テクノロジー
- 2015/02/08 23:58
- embulk
- あとで読む
Akka StreamsによるReactive Streamsって？ - 夢とガラクタの集積場
7 users
kimutansk.hatenablog.com

こんにちは。最近気になっていた「Reactive Streams」について試してみました。 1. Reactive Streamsとは？少し前にReactive Streamという情報がWebに流れていました。 Reactive Streams 何かというと、 "Reactive Streams is an initiative to provide a standard for asynchronous stream processing with non-blocking back pressure on the JVM." つまり、 JVM上で動作するバックプレッシャー機能を保持するノンブロッキングな非同期ストリーム処理標準化のための提案ということになります。実際どういう意図で始まり、概要がどういうものか、についてはOkapiesさんがまとめています。非同期ストリーム処理の
- テクノロジー
- 2014/05/28 23:18
Apache Kafka入門を読んでみました - 夢とガラクタの集積場
9 users
kimutansk.hatenablog.com

こんにちは。この間購入した「Apache Kafka入門」を読み終わったので、どんな本かという概要と注意点を書いてみます。 Apache Kafka入門作者: 伊橋正義,原田勝憲出版社/メーカー: リクルートテクノロジーズ発売日: 2014/04/01メディア: Kindle版この商品を含むブログ (1件) を見るどんな本？／読んでみての感想一言で言うと、「内部構造や利用時の実装方法について詳細に書かれたJava開発者向けのKafka入門本」でした。＃Kafka自体はScala製ですが、この本はScala使いではなく、Java開発者向けです。特に、Broker/Producer/Consumerのコンポーネント構造や Kafkaのシェルで起動可能なクラスといった情報はコードを読み解かないとわからないため、貴重な情報だと思います。 Kafkaを利用する場合の各パターンについて
- テクノロジー
- 2014/05/19 00:58
- kafka
Apache Kafkaを動かしてみる - 夢とガラクタの集積場
4 users
kimutansk.hatenablog.com

こんにちは。これまで以下のような記事で実際にKafkaとは何か、や実際にビルドしてみていまいちうまくいかないとかを繰り返してきましたが、本家サイト側でついに最新版である0.8.0（β）のバイナリリリースが公開されたということもあり、実際に環境を構築して動作を確認してみることにします。 ■Apache Kafka 概要（Design）和訳まとめ http://d.hatena.ne.jp/kimutansk/20130520/1369064154 ■Apache KafkaのレプリケーションComments http://d.hatena.ne.jp/kimutansk/20130706/1373068963 ■Apache Kafka 0.8.0の新機能／変更点 http://d.hatena.ne.jp/kimutansk/20130703/1372803004 ■Apache
- 暮らし
- 2014/05/02 22:59
ストリームを処理するグラフィカルなツールStreamtools - 夢とガラクタの集積場
7 users
kimutansk.hatenablog.com

こんにちは。先ほど下記のニュースを見てしまい、グラフィカルなストリーム処理ツール、ということでとりあえず動かしてみました。 ■New York Times Labがストリーム処理ツールを公開 http://www.infoq.com/jp/news/2014/04/nyt-streamtools まず、リリースページからリリースアーカイブをダウンロードしてみます。で、解凍してみるのですが、作成されるファイルが「st」で、そのままでは実行できません（汗そのため、拡張子に「.exe」をつけて無理やり実行させます。すると・・？動き始めます。あってたはあってたんですが、それでいいんでしょうかね。で、ブラウザからアクセスしてみると、まずは下記のように接続しましたよ、という画面のみ表示されます。その後、白い部分をダブルクリックして「fromhttpstream」を入力してみると、下
- テクノロジー
- 2014/04/11 01:00
複数台マシンを用いたKafkaクラスタの構築方法 - 夢とガラクタの集積場
5 users
kimutansk.hatenablog.com

こんにちは。しばらく前にKakfa0.8.0正式版がリリースされているのですが、 0.8.0から追加されたレプリケーションの機能をきちんと試していなかったなぁ・・・ということで、Kafkaクラスタを構築するところから再度確認しなおしてみます。まず、構築したい環境としては下記です。３台の別マシン上にZooKeeperとKafkaのクラスタを構築することをゴールとします。その他の前提条件としては下記です。尚、ZooKeeperの構築手順や前提条件の設定方法についてはMesos-MasterをZooKeeperで冗長化させるを参照してください。各ホスト間はホスト名(kafka1、kafka2、kafka3)でIPアドレスを引ける iptables停止 selinux無効 1-1.KafkaServerインストールバイナリをダウンロードし、展開します。 # cd /usr/loca
- テクノロジー
- 2014/02/26 07:41
- Kafka
Spark Summit Sched & Perf1 「Spark Performance」 - 夢とガラクタの集積場
12 users
kimutansk.hatenablog.com

こんにちは。間が空いてしまっていますが、 Spark Summitの資料をとりあえず読んでみよう、の第２弾です。今回は「Spark Performance」を見てみました。概要の次にいきなり性能の資料に入ってしまうあたり趣味を反映している気もしますが＾＾；では、見てみます。あと、この情報はSpark0.8.1準拠だそうです。現状の最新版ですね。 Spark deep dive まず、下記のRDDの記述によって性能が変わることを理解いただきたい。 ■RDD (patrick, $24), (matei, $30), (patrick, $1), (aaron, $23), (aaron, $2), (reynold, $10), (aaron, $10)….. ■パターン１（groupByKey）このパターンの場合、groupByKeyオペレーションを実行したタイミングで全データ
- テクノロジー
- 2014/02/20 22:19
- spark
Spark Summit Keynote 「The State of Spark, and Where We’re Going Next」 - 夢とガラクタの集積場
4 users
kimutansk.hatenablog.com

こんにちは。 Spark Summitの資料をとりあえず読んでみよう、の第１弾です。１番目ということでKeynoteである「The State of Spark, and Where We’re Going Next」を見てみました。多分、これがSparkの特徴を復習したり現状を把握するには一番早いと思いますので。では、見てみます。 Sparkプロジェクトの歴史研究プロジェクトとして2009年開始 2010年にOSS化（初期バージョンは1600LOC！Wikipedia用のデモでした） 2013年7月にApache Incubator化現在100人以上の開発者(Contributor)、25の会社によって開発が進んでおり、最も開発が活発なBigDataプロダクトの一つになっている比較：Stormは48人、Giraphは52人、Drillは18人、Tezは12人、6か月前につい
- テクノロジー
- 2014/01/31 08:42
- spark
Spark Summit 2013の内容一覧 - 夢とガラクタの集積場
7 users
kimutansk.hatenablog.com

こんにちは。思いっきり見逃していた話なのですが、2013/12にSpark Summit 2013が開催されていました。幸い、資料はほとんど公開されているようなので、内容を確認してみようと思うのですが、まずは概要を確認しておこう、ということで内容一覧と概要をまとめてみました。尚、概要については概要ページが用意されている発表についてはそれを訳し、存在しないものについては資料の中身をざっと確認して概要を書いています。先進的な企業に加えて、Yahooのような大きなHadoopクラスタを有する企業でもSparkを取り込み、既存のデータ解析基盤と統合させようとする動きが出ているのが面白いですね。加えて、YARN／Mesosの存在によってSparkの導入は「既存機能の置き換え」ではなく、「既存機能との統合」という流れで発生しているのも興味深いところです。というわけで、各セッションに
- テクノロジー
- 2014/01/22 22:20
- Spark
Amazon KinesisとApache Kafkaの類似点／相違点まとめ - 夢とガラクタの集積場
27 users
kimutansk.hatenablog.com

こんにちは。 Amazon Kinesisについて調べたり実装してみたりしたため、モデルがよく似たApache Kafkaとの類似点や相違点が気になってきました。というわけで、実際比べてみた結果どうだったのかをまとめてみます。 1.2つのプロダクトの類似点 Amazon KinesisとApache Kafkaの大きな類似点として、以下があります。 1.メッセージを取得したタイミングで削除するのではなく、一定期間経過後に削除するモデルを取っている Kestrel、RabbitMQといったプロダクトはメッセージを取得され、利用側から応答が返った段階で削除するモデルを取っている。「メッセージキュー」と言いあらわした場合、削除するモデルの方がイメージ的には近い？ Amazon Kinesis、Apache Kafkaはメッセージの提供を行うのみで削除は行わない。一定時間経過後に削除している
- テクノロジー
- 2013/12/28 13:51
- Kinesis
- Kafka
- AWS
ストリームデータ処理サービスAmazon Kinesisについて調べた結果 - 夢とガラクタの集積場
25 users
kimutansk.hatenablog.com

こんにちは。最近ストリームデータ処理サービスであるAmazon Kinesisのドキュメントを読んだり、クライアントコードのソースを読んだり、実際の小さいアプリケーションを作ったりしたのですが、その際にわかったことをとりあえずまとめておこうと思います。 1.Amazon Kinesisとは？(http://aws.amazon.com/jp/kinesis/) ・Amazon Kinesis は、大規模なストリーミングデータをリアルタイムで処理する完全マネージド型サービス・大容量のストリームデータを受信し、提供することができる 2.Kinesisの構造(http://docs.aws.amazon.com/kinesis/latest/dev/introduction.html) ・Kinesisの実態は「大規模でスケール可能、メッセージが一定時間保存されるPubSub型キュー」
- テクノロジー
- 2013/12/25 20:31
- kinesis
- aws
- amazon
- stream
- 技術
Amazonの中の人によるAWS re:Invent 出張報告会での注目スライドサマリ(Gremlin) - 夢とガラクタの集積場
4 users
kimutansk.hatenablog.com

こんにちは。既に旬（？）自体は明らかに過ぎているre:Inventネタですが、個人的な勉強にもなるので続けます。 3つ目はBDT303、AWS上でグラフベースの製品リコメンドシステムを構築した事例の話になります。 3.BDT303 Using AWS to Build a Graph-Based Product Recommendation System（スライド）（動画）実際どのサイトでの話かというと、「Magazine Luiza」というブラジルでの耐久消費財を扱うチェーン店での話です。ブラジルにおいては家庭用品を扱う最も大きな小売店チェーンのうちの一つとのことでした。規模は下記の画像参照・・・ですが、2280万人のユーザを抱えて捌いているというのはかなり大規模になりますね。で、まずそもそもレコメンデーションで重要になる要素は何かという話から。レコメンデーションシステムにお
- テクノロジー
- 2013/12/07 07:57
- Gremlin
- AWS
Amazonの中の人によるAWS re:Invent 出張報告会での注目スライドサマリ(EBS) - 夢とガラクタの集積場
3 users
kimutansk.hatenablog.com

こんにちは。昨日Amazonの中の人によるAWS re:Invent 出張報告会に参加してきました。発表内容やプロダクトアップデートについてはこの後スライドがアップされるそうなので割愛し、出張報告会で注目すべきと中の方達が説明していたBreakOutSessionについて中身をざっと見てみました。・・・ざっとの割にやたらと時間がかかるあたりが慣れていない所以ですね。尚、私自身はAWSについて初心者なので、他のサイトであまり解説されていなかったセッションに限っています。正式なAWSエンジニアのまとめがある場合はそれを見た方がいいかと＾＾；まず、1つ目はSTG302、Amazon EC2とEBSの性能を最大限発揮するためのセッションです。EBSのIOの中身についても触れられています。 1.STG302 Maximizing EC2 and Elastic Block Store
- テクノロジー
- 2013/12/03 13:53
- AWS
Mesos-MasterをZooKeeperで冗長化させる - 夢とガラクタの集積場
5 users
kimutansk.hatenablog.com

こんにちは。では、MesosのZooKeeperによる冗長化を確認してみます。尚、前回の記事で「Hadoopインストールした前提」としましたが、備忘録のため環境構築手順も残しておくことにします。楽にインストールするよりは構成をきちんと把握してインストールできる手順・・・としているので、効率的には悪くなっている気もしますが＾＾； Mesosについては「2.Mesos冗長化」からになりますので、適宜読み飛ばして下さい。 1.cdh4.4.0インストール cdh4.4.0のうち、以下のコンポーネントをインストールします。 ZooKeeper（Mesos冗長化用） HDFS（Sparkのデータソース用） 1-1.ZooKeeperインストール・ZooKeeperダウンロード＆インストール http://archive.cloudera.com/cdh4/redhat/6/x86_64/
- 学び
- 2013/11/16 20:14
- zookeeper
Hadoop YARNとApache Mesosの違いって何？ - 夢とガラクタの集積場
44 users
kimutansk.hatenablog.com

こんにちは。 CDH上でSparkがサポートされるという発表もあり、ニッチな領域をちょこちょこ調べていたはずが、いきなりSparkがメジャーなステージに飛び出すのかなぁ・・と楽しみにしている今日この頃です。ただ、CDH上でのSparkはリソースマネージャとしてHadoop YARNを使う模様。 Apache Mesosは使われないようです。とはいえ、それ以前の問題として、Hadoop YARNとApache Mesosの違いがそもそもよくわかっていないという現状があります。そのため、いい情報が無いかなぁ・・・と調べていたところ、丁度以下のスレッドが見つかりました。 How does YARN compare to Mesos? http://www.quora.com/How-does-YARN-compare-to-Mesos とりあえず、このスレッドに書かれている「差分」を訳し
- テクノロジー
- 2013/11/07 11:11
- mesos
- YARN
- hadoop
- spark
- cloud
- architecture
- development
- *あとで
Apache SparkをStandalone Modeで実行してみる - 夢とガラクタの集積場
6 users
kimutansk.hatenablog.com

こんにちは。色々紆余曲折ありましたが、ようやくSparkの動作確認スタートです。以前構築したMesosクラスタはソースをビルドして作ったいまいち使いにくいものですので、とりあえず後で再構築するとして、まずはMesosを使わなくていい状態で出来ることを確認していきます。 1.環境準備 ※Mesosを使わないため、Windows上で実行しています。以下のページからソースをダウンロードし、展開します。 http://spark-project.org/download/spark-0.8.0-incubating.tgz 展開後、展開したディレクトリに移動して以下のコマンドを実行。そうすると依存ファイルがダウンロードされ、Sparkを動作させる準備が整います。但し、マシンがヘボいと依存性解決とコンパイル、ビルドにやたらと時間がかかります。ひー。＃尚、以下に表示されている時間はコンパ
- テクノロジー
- 2013/11/04 23:39
SLF4J+LOGBackでログレベル別に出力先を切り分けることは出来るの？ - 夢とガラクタの集積場
6 users
kimutansk.hatenablog.com

こんにちは。この間酷い目にあったのでその酷い目に対する対応策として。皆さん、ログを出力するときにログレベルを定義するかと思うのですが、１ファイルに全レベルのログを出力していた場合、「ログレベルの低いログにログレベルの高いログが塗りつぶされる」という経験は無いでしょうか？特に、検証用環境では「動作を確認するためのログを確認したいが、エラーも確認したい」という形になるため、ログレベルはINFO、DEBUGといった詳細なものに設定して運用しがちだと思います。ですが、やっていることがStorm等の高速大量イベントを処理する基盤ともなると、 INFOログであっても量がバカになりません。そのため、「何か問題が発生したようなのだが、動作ログに埋もれてエラーログが消えている」ということがざらに発生します。・・・そんなわけで、ログレベルの高いログは別ファイルに分離して出力しておけばそういっ
- 世の中
- 2013/11/02 13:56
- logback
Storm-0.9.0系の各プロセスの基本JVMオプションまとめ - 夢とガラクタの集積場
3 users
kimutansk.hatenablog.com

こんにちは。現在遅ればせながらStorm-0.9.0系を動作させて試しているのですが、まずこの後色々やってみるためのベースとして、各プロセスのJVMオプションを確認しておきます。何故こんなことを行うかというと、StormではWorkerプロセスを管理するのは Storm自体となるため、Workerに基本どういう情報を渡しているかを見ておくと、後付けでJVMオプションを渡す場合の参考になるからなんですね。尚、後付けでJVMオプションを追加する場合、TopologyをSubmitする際のConfigオブジェクトの以下のキーに値を設定しておけばＯＫです。 worker.childopts topology.worker.childopts worker.childoptsとtopology.worker.childoptsに指定した値がスペースで連結され、JVMオプションに追加されま
- テクノロジー
- 2013/10/31 07:37
- Storm

はてなブックマーク

はてなブックマーク

『夢とガラクタの集積場』

RCO Study Night "RCOにおける機械学習と次世代量子情報処理技術「量子アニーリング」" に参加してきました - 夢とガラクタの集積場

AWS NACLの設定をCLIから行ってみた - 夢とガラクタの集積場

ActorSystemからActorを検索し、メッセージを送信する - 夢とガラクタの集積場

Docker-Registrator(Normal/internal)でConsulに登録される内容は？ - 夢とガラクタの集積場

Twitterの新ストリーム処理基盤、Heronのアーキテクチャは？（詳細 - 夢とガラクタの集積場

Twitter Heronの論文でのStormの問題点は？（詳細 - 夢とガラクタの集積場

Twitter Heronの論文でのStormの問題とHeronの利点は？（サマリ - 夢とガラクタの集積場

Twitter HeronはStormに比べてどう進化しているのか？ - 夢とガラクタの集積場

並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる（その３：run概要＆データソース概要 - 夢とガラクタの集積場

並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる（その１ - 夢とガラクタの集積場

並列バッチデータ転送OSSのEmbulkをソースコードリーディングしてみる（その２：初期化 - 夢とガラクタの集積場

Akka StreamsによるReactive Streamsって？ - 夢とガラクタの集積場

Apache Kafka入門を読んでみました - 夢とガラクタの集積場

Apache Kafkaを動かしてみる - 夢とガラクタの集積場

ストリームを処理するグラフィカルなツールStreamtools - 夢とガラクタの集積場

複数台マシンを用いたKafkaクラスタの構築方法 - 夢とガラクタの集積場

Spark Summit Sched & Perf1 「Spark Performance」 - 夢とガラクタの集積場

Spark Summit Keynote 「The State of Spark, and Where We’re Going Next」 - 夢とガラクタの集積場

Spark Summit 2013の内容一覧 - 夢とガラクタの集積場

Amazon KinesisとApache Kafkaの類似点／相違点まとめ - 夢とガラクタの集積場

ストリームデータ処理サービスAmazon Kinesisについて調べた結果 - 夢とガラクタの集積場

Amazonの中の人によるAWS re:Invent 出張報告会での注目スライドサマリ(Gremlin) - 夢とガラクタの集積場

Amazonの中の人によるAWS re:Invent 出張報告会での注目スライドサマリ(EBS) - 夢とガラクタの集積場

Mesos-MasterをZooKeeperで冗長化させる - 夢とガラクタの集積場

Hadoop YARNとApache Mesosの違いって何？ - 夢とガラクタの集積場

Apache SparkをStandalone Modeで実行してみる - 夢とガラクタの集積場

Storm-0.9.0系の各プロセスの基本JVMオプションまとめ - 夢とガラクタの集積場

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『夢とガラクタの集積場』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません