[B! fluentd] sbg3のブックマーク

Fluentdの設定を考えるときはこんなかんじで考えると便利 - Qiita

Fluentdはデータを流すのに非常に便利なツールでそこら中で使われている(個人調べ)。そのため、なんかいろんなところで設定を見るのであるが、タグに情報が付いていたりフィールドに情報がついていたりして、あれ、これどうなってるんだっけ感に襲われることがよくある。このあたり自分でも混乱しがちなので、普段どのように考えているかだいたいまとまった気がしたところで書いておくことにした。 Fluentdのデータ構造まずはFluentdのデータ構造を知っておいた方が良い。Fluentdの内部データはMessagePackで符号化されているが、Fluentdのデータ構造は単なるハッシュではなく、時刻(time)とタグ(tag)という属性を持っている。次のような感じだ。レコードレコード(record)は入力されたデータそのものであり、tailプラグインであれば、tailした1行のデータに相当する。重

sbg3 2016/04/01

fluentd

リンク

Pascal〜Puree + ngx_lua + Fluentd + BigQueryでつくるメルカリのログ分析基盤〜

Pascal〜Puree + ngx_lua + Fluentd + BigQueryでつくるメルカリのログ分析基盤〜 Backend Author: cubicdaiya エンジニアではなくプログラマと呼ばれたい@cubicdaiyaです。今回はメルカリのログ分析基盤のお話です。メルカリにおけるログデータ分析メルカリでは初期の頃からログデータの分析をサービスの成長にとって重要なタスクとして位置づけ、そのための基盤作りに取り組んできました。ログの種類はいくつかありますが、中でも代表的なのがアプリケーションサーバで出力されるアクセスログやアプリケーション固有のログです。これらのログはサイズが大きいので効率良くログデータを転送するための工夫が必要になります。そこで活躍するのがFluentdです。大雑把に説明するとアプリケーションサーバで出力されたログはFluentdから最終的にBigQu

sbg3 2015/09/11

リンク

『fluentd + Elasticsearch + kibanaでCassandraモニタリング』

はじめまして。インフラ＆コアテク本部の鳥垣と申します。普段はAmeba Smart Phone PlatformやAmebaの基幹系サービス全般のインフラを見る仕事をしております。昨今fluentd + Elasticsearch + kibanaを使ったリアルタイムモニタリングが流行っていますが、これを使ってCassandraのステータスをモニタリングするシステムを作ってみましたので、そのお話をさせていただければと思います。構築のきっかけこちらのサイトにてdstatのモニタリングをkibanaでやっている記事を拝見し、Cassandraのステータスも同じようにリアルタイムグラフの描画ができないかと考えました。以前にWebSocketで監視もリアルタイムにという記事でもあるとおりリアルタイムモニタの仕組みはありましたが、kibanaの検証も兼ねてリアルタイムのグラフ描画にチャレンジし

sbg3 2014/11/07

リンク

fluentd + MongoDB + Elasticsearch + Kibanaでログを可視化する | 踊る犬.net

Programming, Techno logy fluentd + Mongo DB + Elasticsearch + Kibanaでログを可視化する SaaSは利用料が高いのでOSSを使う要件独自フォーマットのログを扱いたいアプリケーション特化の情報も一緒に格納したいグラフ設定を簡単に柔軟に変えられるようにしたいシステム構成 Chefを使ったセットアップ手順 fluentdの設定 ElasticsearchとKibanaのインストール Elasticsearchの設定 Kibanaの設定参考リンク SaaSは利用料が高いのでOSSを使うサーバのログを可視化するSaaSは沢山あります。 DataDogとかKeen IOとかlibrato、Logglyなどなど。とても便利そうですね。でも価格が高い！なんでもかんでもSaaSに頼ってたら毎月数十万とかになりそうです。貧

sbg3 2014/08/11

リンク

NATやファイアウォールの向こうへデータをお届けする fluent-plugin-pull_forward を書いた - たごもりすメモ

Fluentdにおけるネットワークごしデータ転送プラグインといえば forward が組み込みであるし、通信路を暗号化したければ secure-forward がある。しかしこれらFluentdのネットワーク転送プラグインは基本的に全て送信元から送信先に対してプッシュする形になっており、ネットワーク接続も送信元から送信先に対して行うことになっている。このため送信先のFluentdがNAT下にある場合やファイアウォールで保護された場所にある場合、もしくはダイヤルアップ接続……は、まあ今は無いだろうけど、例えば移動するデバイス上にある場合など、こういったときにはうまくデータの転送を行う構成がとれない。なぜこういう状況、つまりプッシュ型で転送を行うプラグインばかりなのかというと、FluentdのBuffer pluginの仕組みによる。細かく設計上の話をあれこれしてもアレだし面倒くさいので省

sbg3 2014/08/04

リンク

Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

「BigQueryは120億行を5秒でフルスキャン可能」は本当か？先日、kaheiさんがGoogle BigQuery（Googleクラウドの大規模クエリサービス）について、こんなエントリを書いていた。とにかくパフォーマンスがすごい。（Fluentd Meetupでの）プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる（これ、記憶がちょっとあいまい。もう少しかかったかも）。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきましたこれを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

sbg3 2014/05/19

リンク

Talpa memorandum

橘玲の『「読まなくてもいい本」の読書案内』を読んだので、感想とメモをまとめておく。この本、タイトルは『「読まなくてもいい本」の読書案内』だが、実際には「読まなくていい本」はほとんど紹介されていない。紹介されているのは、当たり前の話かもしれないが読むべき本だ。他の読書案内本と異なっているのは、”こういう本は読まなくて良い”と、ばっさり切り捨てているところ。読むべきか・読まなくてもよいかの基準は、20世紀後半に爆発的に進歩した科学研究の成果に置いている。著者は、この時期に起きた科学研究の大幅な進歩を”知のビッグバン”、”知のパラダイム転換”と呼び、これ以前に書かれた本は（とりあえず）読む必要がないと言い切る。古いパラダイムで書かれた本は捨てて、新しいパラダイムで書かれた本を読もうという話だ。ちょっと乱暴な分け方ではあるが、1980年代に大学生だった私には案外納得できるものだった。学生時代に最

sbg3 2014/05/18

リンク

Norikra+FluentdでDoS攻撃をブロックする仕組みを作ってみた｜ Developers.IO

Norikraとは Norikraとはリアルタイム集計プロダクトです。イベントストリームに対してSQLライクな言語で処理を書くことが出来ます。例えば、ApacheのアクセスログをNorikraに流し込み、1分あたりのアクセス数やレスポンスタイムの最大値をリアルタイムに集計することが出来ます。 Norikraの利用例は作者であるtagomorisさんのブログで紹介があります。今回は、Norikraを使ってDoS攻撃をブロックする仕組みを作ってみました。 DoS攻撃ブロックの仕組みアクセス元はApacheのアクセスログから取得し、ログの受け渡しにはFluentdを利用しました。ブロックの手順は以下のようになります。アクセスログをFluentdのin_tailプラグインで取得。 Fluentdのout_norikraプラグインで、アクセスログをNorikraに流し込み。 Norikra

sbg3 2014/04/05

リンク

dstat + fluentd + Elasticsearch + kibana でサーバモニタリングする - blog.nomadscafe.jp

普段はサーバのメトリクス可視化のためにcloudforecastを使っていますが、某案件用に数秒単位で数十台のサーバのメトリクスを表示したいので、記事タイトルのような構成を作ってみた。 dstatでとった各種値の他に、nginxとmemcachedの情報も合わせて表示させています。セットアップもろもろのセットアップのメモ監視サーバまず、監視サーバにElasticsearchとkibanaをいれる。環境はCentOS6 $ sudo yum install java-1.7.0-openjdk $ sudo rpm -Uvh https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.x.x.noarch.rpm Elasticsearchは特に設定なく起動 $ sudo service

sbg3 2014/04/01

リンク

春山征吾のくけー : fluent-plugin-referer-parser を作りました. - livedoor Blog（ブログ）

Fluentd で HTTP の Referer から検索エンジンで入力された検索語を取得したいなと思ったのですが, 適当な plugin はないようでした. そこで, snowplow/referer-parser を利用して Referer をパースする haruyama/fluent-plugin-referer-parser を作りました. tagomoris/fluent-plugin-woothee をベースにしています. referer-parser の RefererParser::Referer の known?, referer, search_term を Fluentd の key として抽出します. key のデフォルトは referer_known, referer_referer, referer_search_term です. key 名は変更可能です. r

sbg3 2014/01/07

リンク

春山征吾のくけー : fluent-plugin-out-solr を作りました. - livedoor Blog（ブログ）

https://www.unixuser.org/~haruyama/blog/ に移転しました http://wiki.livedoor.jp/haruyama_seigo/d/FrontPage @haruyama タイトルが思いつかないときはそのときかかってた曲をタイトルにしています. Apache Solr を Fluentd から更新したいなと思ったのですが, 既存の btigit/fluent-plugin-solr は Solr の field が固定されていて(https://github.com/btigit/fluent-plugin-solr/blob/d3b4e3baa6eb9951493ff22627d57497c929a6a3/lib/fluent/plugin/out_solr.rb#L44), 汎用性がありません. そこで, uken/fluent-plug

sbg3 2014/01/07

fluentd
solr

リンク

グリー技術者が聞いた、fluentdの新機能とTreasure Data古橋氏の野心

fluentdのほかにもバイナリシリアライゼーションフォーマット「MessagePack」の開発などで知られる古橋氏だが、学生時代からその技術力の高さには定評があり、注目され続けてきたスーパーエンジニアでもある。今回、fluentdのユーザーでもあり、古橋氏とは旧知の仲でもあるグリー開発本部リーダーの森田想平氏がインタビュアーとなり、fluentdにまつわるトピックや、トレジャーデータでの開発、オープンソースへの想いなどを訊いている。本稿では、その模様をお伝えしながら、“エンジニア・古橋貞之”の魅力に迫ってみたい。 fluentd v11の注目ポイント森田　まずは、グリーでも大変お世話になっているfluentdについて、いろいろ聞かせてください。開発中の新バージョン（v11）では、かなり大きな変更や機能追加があると伺っていますが、注目ポイントをいくつか教えてもらえますか。フィルタ

sbg3 2013/10/08

fluentd

リンク

S3とFluentdを用いた効率的なログ管理 | SmartNews開発者ブログ

ゴクロの大平です。私にとって一番大事で替えの効かないミュージシャンはさだまさしさんですが、私にとってクラウドコンピューティングのサービスの中で一番大事で替えが効かないサービスはS3です。多種多様なAPIを用いて柔軟にファイルの操作が出来る事や、”99.999999999％”と謳われている高い耐障害性、S3にあるデータをElastic MapReduceやRedshiftなどを用いて手軽にデータ解析を行える基盤が提供されていることなど、あまりに便利すぎてS3の代替となるサービスを探しだすのが難しい状態です。もちろん多くのAWSユーザーが同じようにS3の便利さを享受していると思いますし、インターネット上でも多くのブログ等でその魅力が語られています。その中で本記事は既に存在する記事と似たような内容を書いてしまうかもしれませんが、弊社なりのS3の使い方についてご紹介したいと思います。なお

sbg3 2013/09/04

リンク

ビッグデータ分析の勘所─Treasure Dataイベントで見えたデータサイエンスのノウハウ | gihyo.jp

その中からTreasure Data（以下、TD）のデータ分析ノウハウについて語った田村氏、柄沢氏の発表をピックアップしてレポートします。データを集めるのはたいへん 1つめに挙げた課題はデータ収集の問題です。田村氏は、いざデータ分析を始めてみると、集めたデータに間違いがあって、正しく集計、分析ができないということがよく起きると言います。その原因の1つは、アプリケーションを修正した結果、出力するログが変わっていたというものです。データ分析の現場では、「⁠業務でデータを集める人」と「データを分析する人」が異なるというのはよくあるそうです。そのため、前述のようにほかの担当者がログを分析していることをあまり意識せずに、アプリケーション開発担当者がログの内容を変更してしまうということが起こるのです。また、データを集めるしくみが複雑過ぎる、というのも一因です。一般的にどんなサービスでも、複数のデ

sbg3 2013/08/19

リンク

ruby 2.0.0-p195 + fluentd v0.10.35 + msgpack v0.5.5 の組合せが素敵という話 - たごもりすメモ

fluentd v0.10.35 が出ましたね！ https://rubygems.org/gems/fluentd で、端的に申し上げまして fluentd をお使いの皆様は以下の組合せで使うのがおススメです。 Ruby 2.0.0-p195 Fluentd v0.10.35 MessagePack v0.5.5 なぜかというと以下のようなすばらしい利点があるからですね。 Ruby 2.0.0 でfluentdを走らせると大変高速 2.0.0 は each とかを回すときに非常に高速になるような改良が入っている 1.9.3 向けには funny-falcon patch として知られていたもの rvm を使ってビルドしていたrubyだと知らずに当たってるかもこれが大量のメッセージに対してループが回りつづけるFluentdに超ハマる手元計測で生の 1.9.3 の倍ちょっと高速 Ruby

sbg3 2013/06/14

リンク

Fluentdがよくわからなかった話

The document discusses the Fluentd logging system. It includes an explanation of how Fluentd buffers and queues log data before outputting it. The em it method is used to add log data to a chunk, and if the chunk limit is reached a new chunk is created and added to the queue. Once data is in the queue it can be output by the configured plugin.Read less

sbg3 2013/06/03

fluentd

リンク

fluent-plugin-forest released! - たごもりすメモ

現状のfluentdでは、タグを動的に扱う方法がいまいち無い。具体的に言うと設定項目にタグに応じて変化するような指定をしたい場合、タグごとに分けて書くしかない。例えば out_file で出力先ファイル名をタグに応じてつけたい場合、タグの数だけ match 節を書く必要がある。 <match hoge> type file path /var/log/hoge.log </match> <match pos> type pos path /var/log/pos.log </match> # 以下いっぱいこれには極めて簡単にわかる範囲で、ふたつの大きな問題がある。多数のタグを扱う場合、設定ファイル全体のボリュームが肥大化して管理コストが増大する(品質が低下する) 新しく扱うタグが増える場合、設定ファイルの更新と適用が必要となり、管理コストが増大する既に手元でこの問題に悩まされていて、H

sbg3 2013/03/29

リンク

開発メモ#6 : ログの取り扱い : GrowthForecast, Amazon S3, Treasure Data で心労ゼロ - naoyaのはてなダイアリー

開発メモ#6 です。前回から少し間があいてしまいました。開発メモ#2 : AWS でのホスト / クラウドネイティブなデプロイ - naoyaのはてなダイアリーで書いたように、EC2 へのアプリケーションのデプロイにあたっては Elastic IP の利点を活かしてカジュアルにホストを入れ替えまくっています。ちょっとこのデプロイは慎重になりたいな、と思ったらスナップショットからインスタンスを立ち上げては切り替える、の繰り返し。この運用をしていると、スナップショットとの差分ができやすいのは chef-solo で吸収するというのが前回、前々回のはなし。もう一点問題があります。アクセスログやアプリケーションのログです。フロントエンドのサーバをあっちこっち切り替えているうちに、そのままではログが分断されてしまう。ホストを Terminate しようものならログは消失してしまいます。この

sbg3 2013/02/21

リンク

fluentd + mongodb+ node.js でリアルタイムにグラフを描く - stanaka's blog

追記 2/22 毎回微妙に追記していますが、今回も追記です。最後にmongo dbのinsert性能について80lines/secで厳しくなった、と書いてますが、環境か設定まわりがあやしいので訂正します。もうすこし検証してみようと思います。 → 検証して fluentd側の設定の問題であることが分かりました。詳しくは、http://blog.stanaka.org/entry/2013/02/22/171053 追記ここまで最近は、fluentd + mongo db でログを蓄積していろいろ便利に使っているわけですが、数分に一回集計スクリプトを周したり、 GrowthForecast の画面をリロードしまくるのではなく、もっとリアルタイムで見たい! という欲求が募ってきたので、 node.js を使って実装してみました。( https://github.com/stanaka/realti