タグ

fluentdに関するy-kobayashiのブックマーク (162)

  • Fluentd Meetup in Japan

    ■fluentd http://fluentd.org/ ■Fluentd Meetup in Japan http://www.zusaar.com/event/193104 全ての資料について、SlideShareへLinkがあります.

  • OSSで支えられるライブドアの巨大ログ集計 #nhntech

    PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services

    OSSで支えられるライブドアの巨大ログ集計 #nhntech
  • dstatの結果をfluentdで取得して、WebSocketで送りつけるリアルタイムリソース監視アプリを作ってみた。 - from scratch

    Tuppari公開記念Hackathonで作ろうとした奴を作ってみました。 ごめんなさい、micro instanceなのでアクセス過多で動かない時があるかもしれません、ちょっと調整中です。 リアルタイムリソース監視アプリ yosuke-furukawa/dstatwatcher · GitHub WebSocketを使ってリアルタイムにリソース監視したりログ監視したりするのは正直よくあるやつなのですが、fluentd使ってみたかったというのと、highchartを業の方で使おうか迷った挙句、使えなかった経緯があったので、使ってみようと思って作成してみました。 大体、↓の感じの流れでやってます。 Fluentdとdstatのつなぎの部分にはfluent-plugin-dstatを使用しています。 shun0102/fluent-plugin-dstat · GitHub これを使うと、d

    dstatの結果をfluentdで取得して、WebSocketで送りつけるリアルタイムリソース監視アプリを作ってみた。 - from scratch
  • zusaar.com - zusaar リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

  • Fluentd casual

    [db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...Insight Technology, Inc.

    Fluentd casual
  • Fluentd out_forward における最適化パラメータいくつかの話 - たごもりすメモ

    Fluentdのデータをネットワーク経由で転送するための組み込みプラグイン out_forward には最適化のための設定がいろいろあるが、内部構造への理解がないとなかなか意味がわからなかったりするものも多い。ので、あんまりいじってる人はいないんじゃないかという気がする。 最近複数の転送先へのロードバランスを out_roundrobin ベースの方法から out_forward の機能を使った方法に切り替えてみたので、ついでにそのあたりについて書いてみる。 (おまけ) out_roundrobin と out_forward(のロードバランス)の違い out_roundrobin は event stream の emit つまりFluentd内部における最小の配送処理単位ごとに配送先プラグイン(のインスタンス)を切り替える。可能な限り細かい単位で配送先をバラけさせたいときはこちらを使う

    Fluentd out_forward における最適化パラメータいくつかの話 - たごもりすメモ
  • Software Design (ソフトウェアデザイン) 2012年6月号 (発売日2012年05月18日) | 雑誌/電子書籍/定期購読の予約はFujisan

  • fluentd out_exec_filter を使ってみた - Studio3104::BLOG.new

    はじめに in_tailでパースされたwebのアクセスログに含まれるクエリストリングを、外部プログラムでさらにパースする例を紹介します。 例えば、クエリストリングに"uid"ってキーが定常的に含まれる場合など、得られた結果をMongoDBなどに突っ込んで、"uid"にインデックスを張っておくと解析システムの開発の助けになるんじゃないでしょうか。 まずは超ベーシックなin_tailの例 fluentdを使ってwebサーバのアクセスログをリモートのサーバに転送する場合、in_tailを使うのがベーシックですよね。 例えば、webサーバがnginxだった場合はこんな感じが超ベーシック。 nginxのログフォーマット設定 combined+レスポンスタイムな感じの一般的なもの。 log_format main '$remote_addr - $remote_user [$time_local] "

    fluentd out_exec_filter を使ってみた - Studio3104::BLOG.new
  • 検証中のtd-agent(fluentd)の設定とか負荷とか - mikedaの日記

    せっかくなのでアクセスログ関連のところだけ抜き出してみます。 構成 概要 Fluentdを使ってWEBサーバ(APPサーバ)のアクセスログを集約サーバに集約、いくつかの処理をやってます。 要するにこの3つです。 まとめてファイルに保存する(とりあえずやってみてるだけ) TreasureDataプラットフォームにデータを送信して集計可能にする Zabbixでサービスの稼働状況を可視化する TreasureDataプラットフォームに関しては前の記事で書いたように、簡単な管理画面を作って集計テストをしています。自社フレームワーク用のライブラリも作成するつもりです。 Zabbixを使った可視化はこんな感じです。 プラグインの構成図 td-agentはサーバごとに1プロセス、できる限りシンプルでFluentdっぽい使い方を心がけてます。 負荷 2億/dayくらいのログを突っ込んでみたところ、集約サー

    検証中のtd-agent(fluentd)の設定とか負荷とか - mikedaの日記
  • Treasure Dataプラットフォームの管理画面を作る - mikedaの日記

    前置きです。 IT界隈の人とHadoopの話をするとこういうギャップを感じます。 Hadoop使ってみたいところ >>> 実際に使っているところ みんな どう使って、どう収益に結びつけるか 設計、サーバ購入、構築、運用などなどの技術的コスト とか考え始めて止まっちゃいます。たぶん考えるよりTreasureData使ってみたほうが早いです。 そんなの使ってみないとよくわからんからです。 Hadoopガッツリ使ってました!なんて人そうそういないのです。 というわけで問答無用で構築して(そのあたりは前記事)、簡単な管理画面を作ってサービスチームに公開しています。 無料のトライアル版でもけっこう使えますし、気合入れればきっと数日で構築出来ます。 以下はその管理画面についてです。 ポイントはとにかく、『テキトウに作ってさっさと使ってみる』です。 (ちゃんとしたものはそのうちだれかが作ってくれるでしょ

    Treasure Dataプラットフォームの管理画面を作る - mikedaの日記
  • Treasure Dataの解析プラットフォームを使ってみた - mikedaの日記

    ログの解析は日時でscpでかき集めてバッチ集計してるんだけど リアルタイムで集計したい もっと柔軟に集計したい という人は多いんじゃないでしょうか。 リアルタイム収集はFluentdを使えばいけそうですが、集計部分を柔軟にというとどうだろう。 CookpadやAmebaはHiveを使ってるとの情報がある。 『Hive on AWS @ COOKPAD』 『Amebaのログ解析基盤』 (どっちも古い。HiveはHadoop上でSQL(っぽく)ログ解析するためのプロダクトです) 「面白そうだなー。でもHadoopよくわからん、というかサーバいっぱいいりそうだから承認通すのめんどくさい(´・ω・`)」 とか思ってたらSoftwareDesignの最新号にこんな記事が。 Cookpadの人 「Treasure Dataは...ログ解析用の商用プラットフォームを提供しています。 Fluentd経由で

    Treasure Dataの解析プラットフォームを使ってみた - mikedaの日記
  • Treasure Data Analytics 第2回 〜Treasure Data Cloud Warehouse について(後編)〜 - doryokujin's blog

    はじめに Treasure Data Cloud Warehouse(前編)では,サービスの概観を紹介しました。第2回では,実践的なデータ・アナリティクスを行う上で解決しなければならない問題をTreasure Dataではどのように解決しているのか,具体的に述べていきたいと思います: データ収集の問題:様々な種類のログをどのようにデータを集約・収集して,横断的な解析を可能にするか? ストレージの問題:増え続けていく大量のログを,どこに,どのようなフォーマットで,解析可能な状態のまま保管していくか? 解析結果の活用に関する問題:ログを解析した結果を,どのように可視化するか。あるいはどのように既存のシステムに統合・フィードバックしていくのか? 1. データ収集の問題 図1: fluentd はログ解析の前段,ログ収集における問題を解決してくれる 「解析対象のログを収集してくる」という作業は

    Treasure Data Analytics 第2回 〜Treasure Data Cloud Warehouse について(後編)〜 - doryokujin's blog
  • Fluentdの所感 その2 | 外道父の匠

    YARNについて書きたい気持ちを抑えて前回の続きです。 まだfluentdをがっつり導入しているわけじゃなく、独自プラグインや構成については改良の余地があるかもなので、まぁ参考程度に見ておいてください。 データフロー APサーバのログ書き込みから、HDFSに書き込むまでの処理内容です。パスとかは適当に書き換えてます。なぜこんなフローなのかは後述。めんどいのでテキストで。 (WEB/AP) ◆ログを固定パスに追記 (ex: date >> /tmp/service_plathome_logtype.log のような) ├─□cronによる強制logrotate (10分~1時間程度おき) │ (Fluentd Agent) ◇IN 改造tailプラグインでログ取得 (pathに*の使用可、basenameをtagにできる) │ ◆OUT copy ├─◆flowcounter (unit h

    Fluentdの所感 その2 | 外道父の匠
  • Fluentdの所感 その1 | 外道父の匠

    Agent ログの量やFluentd&CPUの性能を考えると、負荷的には1サーバ1Agentで十分足りるので、ステータス検知などの監視だけしっかりしておけばOKと考えます。なので例えばWEBサーバに普通に1Agent入れてそれが数百・数千台になることを想定します。 Collector 複数台用意し、Agentからroundrobinで送信することで均一化します。Collectorダウン時や復旧時は、ログのロスト無しにすみやかにroundrobinから外れたり復活することを確認済みです。台数が増えすぎた時の懸念点は、HDFSに対する1ファイルへのAPPEND数が増えることですが、ここまでの試験を見る限りはおそらくかなりの数まで大丈夫ですし、仮にHDFSへの書き込みが問題になる場合はAgent -> Collectorの選択条件や、書き込みファイルパスで工夫すれば大丈夫です。 とはいえ、APP

    Fluentdの所感 その1 | 外道父の匠
  • fluent-plugin-rewriteというプラグインを作成した #fluentd - Kentaro Kuribayashi's blog

    fluent-plugin-rewriteというfluentdのプラグインを作成した。以下、このプラグインの解決する問題について述べる。 https://github.com/kentaro/fluent-plugin-rewrite https://rubygems.org/gems/fluent-plugin-rewrite 問題 あるサービスのレスポンスタイム改善をしていて、まずは状況の可視化のために、fluentdを用いることにした。その際、たとえば トップページ ユーザページ 書籍検索ページ 書籍詳細ページ ... その他 といったグループにわけて、レスポンスタイムの各種統計を取りたい。また、ログを全部集計すればいいというものではなく、除外すべきmessageも複数種類あるので、柔軟にフィルタルールを設定したい。 既存のプラグインだとout_exec_filterを使うことによっ

    fluent-plugin-rewriteというプラグインを作成した #fluentd - Kentaro Kuribayashi's blog
  • 標準入力から読んでFluentdに送信するにはfluent-agent-liteが便利 - 酒日記 はてな支店

    標準入力から受けたログを syslog に送信する場合に使えるのが logger(1) コマンドです。 $ echo "log message" | logger -t myapp -p local0.info自分のところではバッチ処理の出力や、daemontools で起動したコマンドの出力を log/run で logger に渡して syslog に集約するなどしていました。 これを syslog ではなく、Fluentd に送りたい場合にどうするか。 Fluentd 体には fluent-cat というコマンドが同梱されていますが、これは入力に JSON 形式を要求するので単純に代替はできません。 何か適当なワンライナーで wrap する手もありますが…… $ echo "log message" | perl -MJSON -nE 'say JSON::encode_json(

    標準入力から読んでFluentdに送信するにはfluent-agent-liteが便利 - 酒日記 はてな支店
  • Fluentd Casual Talksに参加してきました « ボーダーレスライフ

    Fluentd Casual Talksに参加してきました。こういった勉強会の情報は、twitterRSSで素早く把握できる様にしてはいるのですが、申し込んだ時点で補欠40番目というかなり絶望的な状況。。でも当日にキャンセルが続出して余裕で繰り上げ当選となりました! 会場は先日オフィスを移転したばかりのDeNAのヒカリエオフィスです。外部の人を多数招くのは大変だと思いますが(しかも無料で!)受付も誘導の方々もフレンドリーで余裕のある対応!そういったところ見習わないとな〜なんて思いました。 oranieさんの「fluentdはじめました」 Fluentd casual 大規模で使う様になると困るのがconfigファイルの管理ですよね。ウチの環境でもこのあたりはそのまま真似した方が良いだろうなと思いました。 アプリケーションサーバでは、include httpdでconfig情報を読み込ん

  • fluentdでNagiosアラートの集約 « ボーダーレスライフ

    RRDなどにメトリクスを書き込んでグラフを生成している場合、標準的なサーバだとCPUかHDDがボトルネックになって、Nagiosサーバ1台あたり持てるクライアントは、300台〜700台くらいが限度といったところでしょう。 数万台のサーバを管理する様な環境では、Nagiosサーバ単位で情報が分断されてしまうので、関連するシステム(特に他部署が管理している様な)の状況が把握しづらいことがよくあります。 全サーバの状況を横断して検索、リスティングができると、障害時の対応時間を短縮できるし、統計情報の取得ができるとメトリクスdrivenな運用&開発もしやすくなり、プロダクトの質も向上するだろうということでfluentdでやってみました。とは言ってもまだ始まったばかりなのですが、下の図の様な構成で、Nagios上のイベントログをfluentdがtailし、必要なイベントログをfluentd serv

  • Fluentd | Open Source Data Collector

    Fluentd is an open source data collector for unified logging layer. Fluentd allows you to unify data collection and consumption for a better use and understanding of data.

  • [fluentd] #Fluentd Casual Talks で「fluentdでWebサイト運用を楽にする」話をしてきました - 酒日記 はてな支店

    id:tagomoris さんにお声がけいただきまして、Fluentd Casual Talks にて「fluentdでWebサイト運用を楽にする」というタイトルで発表させていただきました。 発表資料はこちら 主催者の id:tagomoris さん、会場を提供していただいた DeNA 様、いろいろ準備をしてくださった id:riywo さんはじめ多くの方々、参加してくださった100名以上の皆様、ありがとうございました!楽しかったです。 発表ではここ半年ほど Fluentd を運用して来た経験をお話ししましたが、発表内で触れなかったことで大事(?)なことがありますので以下に補遺をいくつか書いておきます。 MongoDB にログを溜めすぎない方がいいかも 太田さん (@kzk_mover) の発表内でも触れられていましたが、数千万件程度にしておいたほうがいいのでは……という実感です。 発表内