Fluentd において特定パターンのデータをもっているメッセージ数をカウントする、およびメッセージ数に対してパターンごとの割合を算出する fluent-plugin-datacounter をリリースしました。また fluent-plugin-datacounter のようにメッセージの傾向を算出するためのプラグインに入れるデータを作るため、全メッセージからサンプリングを行う fluent-plugin-sampling-filter もリリースしました。 fluent-plugin-datacounter | RubyGems.org | your community gem host fluent-plugin-sampling-filter | RubyGems.org | your community gem host fluent-plugin-sampling-filter
皆さん、ログ書いてますか!?(挨拶) Fluentd meetup in Japan も開催間近、最近大変熱いイベントログ収集システム Fluentd なわけですが、Perl からログを出力する Fluent::Logger というモジュールを CPAN にリリースしたのでお知らせします。 (最初の版は id:hirose31 さんが書かれて、それに同僚の id:shin1rosei と手を加えたものです) インストールは cpanm などでどうぞ。使い方は POD にもあるように簡単です。 use Fluent::Logger; my $logger = Fluent::Logger->new( host => "127.0.0.1", port => 24224 ); $logger->post( "myapp.info" => { foo => "bar" } ); 上記の例で送信す
楽天市場の商品数は約8800万。会員数7000万人超がアクセスするトラフィックはピーク時に20Gbpsを超える。同社は、このビッグデータをどのように解析し、活用しているのか。最前線で活躍するエンジニアに聞いた。 ユーザーからのアクセスログは、Eコマースを運営する事業者に、貴重な情報をもたらす。どのような画面遷移で購入ページにたどり着き、何を購入したか。その行動分析と販売データには、新たなビジネスチャンスとなる宝の山があるからである。 一例を挙げれば、Webサービスの場合、よりユーザーの心に響くレコメンデーションの提供につながり、表示される画面のパーソナライゼーションを可能にする。他にも、サービスの品質を大きく向上させる様々なマーケティングデータとしての活用が可能だ。このように、多様な価値が潜むユーザーの大量のアクセスログは、事業者から見ればまさに宝の山と言えるだろう。 ピークタイムには1分
並列分散処理の常識をHadoopファミリから学ぶ:ビッグデータ処理の常識をJavaで身につける(2)(3/3 ページ) 3つの課題に応える「Hadoopファミリ」 関連プロジェクトは、Hadoopが抱える以下の3つの課題に応えたものです。 【課題1】「並列分散処理をもっと簡単に書きたい」 MapReduceをJavaで書く処理はある種のひらめきが必要ともいわれます。特に、SQLで書かれていた処理をMapReduceで書き替える場合、思考の切り替えが必要で苦労することも多いようです。たとえ慣れていても、Hadoopで簡単なデータ加工したい、そのためだけに多くのクラス定義をするのは面倒です。 この難易度を下げるハイレベル言語として「Hive」「Pig」が存在します。どちらの言語もSQLやストアドプロシジャのようなコードを書いて、MapReduceを動かせます。対話型のシェルユーティリティもあり
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く