タグ

fluentdに関するkozy4324のブックマーク (19)

  • 並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi

    こんにちは。古橋です。 先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用 しているため、RubyJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ

    並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi
  • オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援 何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。 コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。 古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー 古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援
  • fluentd v1 configのチェッカを作った - たごもりすメモ

    tagomoris/fluentd-v1-checker · GitHub fluentd-v1-checker | RubyGems.org | your community gem host Fluentdの設定ファイルについてはv1 config という新書式がある。v0.14からはデフォルトでこちらの書式でパースが行われる予定。 ここに @repeatedly さんが書いてるけど、今のうちから v1 config で書いて --use-v1-config しておくと将来的に困らなくてよいと思う。書式的にも綺麗になっているはず。 ところで v1 config といってもいろいろな経緯から、これまでの書式の設定ファイルをぶちこんでもなんとなくパースできるようになっている。値に # とかを含めたいとかでなければ設定を変更しなくても通る場合も多い。 「場合も多い」これが困る。起動してみて動

    fluentd v1 configのチェッカを作った - たごもりすメモ
  • Google Apps Scriptで行データを連想配列として扱う | Nikushi's blog

    Google Apps Scriptで行データを連想配列として扱う | Nikushi's blog
  • IPアドレスを元に位置情報をリアルタイムに付与する fluent-plugin-geoip v0.0.1をリリースしました #fluentd - Y-Ken Studio

    FluentdのレコードにあるIPアドレスを元に位置情報を付与するプラグインをリリースしました! これを使えば、Maxmind社の提供するGeoIPというデータベースを利用してリアルタイムに位置情報を付与できます。 パフォーマンスを重視するため、BufferedOutputをベースに、GeoIPのC拡張を利用した設計としました。 y-ken/fluent-plugin-geoip https://github.com/y-ken/fluent-plugin-geoip http://rubygems.org/gems/fluent-plugin-geoip それでは早速使い方の紹介を行います。 使い方 インストール方法 # fluentdをシステム側に入れている場合 $ gem install fluent-plugin-geoip # td-agentを使っている場合 $ sudo /u

    IPアドレスを元に位置情報をリアルタイムに付与する fluent-plugin-geoip v0.0.1をリリースしました #fluentd - Y-Ken Studio
    kozy4324
    kozy4324 2013/08/13
    住所文字列からジオコーディングするプラグインも誰か、はよ!
  • Fluentdのレコードが全てString型になるアレな挙動を改善するpull-reqを出した話 - Y-Ken Studio

    Apache/Nginxのアクセスログやローカルファイルから、Fluentdのin_tail機能を使ってログを収集しているケースはあると思います。この時、元々は123といった数値や123.45といったfloat型だったものが、全てString型になっていること、ご存じでしょうか。 それをそのままTreasureData(Hive)やmongoDBなどで数値比較を行いたい時には、正規表現での比較を行うという奇妙な対処が必要です。 ※ もちろんJSON形式でファイルに書き出したり、直接Fluentdに転送している場合には問題になりませんが、それの話は棚に上げます。 そういった時の対処方法は用意されており、fluent-plugin-typecastやfluent-plugin-mongo-typedを使うことで、カラムを指定した上で、明示的に型変換を行えます。 しかしこれが面倒なのです。構造化

    Fluentdのレコードが全てString型になるアレな挙動を改善するpull-reqを出した話 - Y-Ken Studio
  • OSS CEP Server 'Norikra' v0.0.1 released! - たごもりすメモ

    みんな大好きFluentdはプラグインも自由に書けて好き放題にリアルタイム集計を行うことが可能なわけですが、やりたい処理にあわせて無限にプラグインを書き続けてるとプラグインの数が爆発し何がどんな処理をしているのかもよくわからず混乱の海に呑まれて消えるという未来がみなさんの脳裏にもおそらく想像されていることと思います。 で、世の中にはCEPエンジンというものがあってストリーム状に流れてくるイベントデータに対して処理を行う仕組みがあるわけですね。これ使いたい! しかもあれだ、簡単に処理が書けるものがいい! 何が言いたいかと言うとWE NEEEED xQL!!!!!!!!!!!!!!! そんなようなことをこちらのエントリを書いたときに思ったわけです。 http://tagomoris.hatenablog.com/entry/2013/02/19/142017 で、RubyKaigiにも通っちゃ

    OSS CEP Server 'Norikra' v0.0.1 released! - たごもりすメモ
  • ApacheログをLTSV形式にする際の2つの落とし穴と対処法+Apache&FluentdのLTSV設定サンプル - Y-Ken Studio

    ApacheのアクセスログをLTSV形式にしたいと思った方に是非お伝えしたい、 私がハマった落とし穴とその対処方法、その後にApacheとFluentdの設定サンプルを紹介します。 以下に1つでも該当するものがあれば、LTSVの導入メリットは高いでしょう。 テクニカルな正規表現のメンテナンスに疲れた awk等のテキスト整形ツールで加工や集計を容易に行いたい ログ収集ツールFluentdを使ってリアルタイム集計などを行いたい 落とし穴 その1「request_first_line」 一般的なApacheの設定ファイルhttpd.confでは、デフォルトで以下の設定が行われています。 LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined このLogFormatStringをそのままLT

  • 「fluentd」と「Storm」の比較について - Tous Les Jours 攻防記

    まず、両者はかなり性質の異なるプロダクトなので、以下の比較は筋違い。 筋違いであることを前提に、ストリームデータ処理プラットフォームとしての両者を比べてみる。 基情報 fluentd http://fluentd.org/ 今をときめくログコレクター/イベントアグリゲーター。Rubyで実装されているが軽量高速。 RPC基盤ではなく、その下のレイヤーに位置するプロダクト。 Storm http://storm-project.net/ 分散RPC基盤。ストリームデータ版MapReduce風フレームワーク。Java+Clojureで実装されている。 概要については、下記のスライドがとてもわかりやすかった。 Twitterのリアルタイム分散処理システム「Storm」入門 ストリームデータ処理で何をするのかについて ストリームデータ処理のニーズについて、自分が理解している範囲での簡単な説明。 典

    「fluentd」と「Storm」の比較について - Tous Les Jours 攻防記
  • Treasure Data - naoyaのはてなダイアリー

    少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。

    Treasure Data - naoyaのはてなダイアリー
  • fluent-plugin-esper構想概略 - たごもりすメモ

    Fluentd Casual Talks #2 で聞いた fluentd + esper によるCEP実現の話が非常に素敵な感じで、自分の手元でもああいう感じで書きやすく投入しやすいストリームクエリがやりたくてしょうがないお年頃なので、以下のようなものを作ろうかと考えている。勢いあまって(まだ1バイトも書いてないのに) the RubyKaigi 2013 のCFPにsubmitしてしまった。通ったら何がなんでも2ヶ月くらいで書いて動かさないといけない。 ということで以下のようなものを作ろうかと考えている。この内容は Fluentd Casual Talks #2 の懇親会でFluentdコミッタ陣と @angostura11 さんとで頭をつきあわせてゴニョゴニョ話していた内容で、100%自分で考えたものでないことは最初に記しておく。だいたいそもそものアイデアは @angostura11

    fluent-plugin-esper構想概略 - たごもりすメモ
    kozy4324
    kozy4324 2013/02/19
    これはワクテカする
  • 2012年を振り返ってみる - たごもりすメモ

    世界が滅亡することもなく2012年も日で無事終わるようなので、すこし振り返ってみる。去年と同じようにやろうかと思ったんだけど時期ごとの特徴みたいなものがあんまりなかったので、トピックごとに適当にまとめる。 Fluentd とにかくこれでしたねー。Fluentdを格的に使いはじめて、プラグインや周辺ツールを書きまくった。いま数えてみたら自分がリリースした fluent-* なgemは21個*1でした。けっこうがんばった。 fluent-plugin-delay-inspector fluent-plugin-ping-message fluent-mixin-config-placeholders fluent-plugin-config-expander fluent-plugin-woothee fluent-mixin-plaintextformatter fluent-plugi

    2012年を振り返ってみる - たごもりすメモ
  • 最新のログファイルにリンクが作れるようになった Apache 2.4.1 の rotatelogs を試す - blog.nomadscafe.jp

    この機能欲しかったんだよねー。 CustomLogで、pipeしてrotatelogsを使ってログ分割を行う場合、 CustomLog "|/path/to/rotatelogs /path/to/log/access_log.%Y%m%d%H 7200 540" ログファイルは、 $ ls -1 access_log.2012030116 access_log.2012030118 の様に最新のファイルが変更になります。tail -f で追いかけていた場合は、途中でファイルを手動で切り替えないとならないのでとても不便です。また、fluentdのtail pluginも利用できません。 Apache 2.4.1 のrotatelogsでは、最新のファイルに対してハードリンクを張る機能が追加されたので、とりあえず試してみました。 $ wget http://ftp.riken.jp/net/

  • fluent-plugin-numeric-monitor v0.1.0 and fluent-plugin-numeric-counter v0.1.0 released! - たごもりすメモ

    Fluentdメッセージ中の数値の統計・集計をとるためのプラグインをふたつリリースしたのでその話。numeric-monitorは前に 0.0.x 系のバージョンでいちおう出してたけど、自分の手元でもちゃんと使い始めたので v0.1.0 として改めてリリースした。 fluent-plugin-numeric-counter fluent-plugin-numeric-counter | RubyGems.org | your community gem host tagomoris/fluent-plugin-numeric-counter · GitHub このプラグインは数値の上下範囲にマッチするメッセージをカウントする。数値版の datacounter みたいなものだと思えばよい。出力も datacounter の出力内容とまったく同じ。 Fluentd Casualのときの @fu

    fluent-plugin-numeric-monitor v0.1.0 and fluent-plugin-numeric-counter v0.1.0 released! - たごもりすメモ
  • タグによってforward先を一意にしつつ負荷分散したい時に使えるかもしれないfluent-plugin-hash-forward #fluentd - As a Futurist...

    そろそろ fluentd 触ろうかと思ってはや 1 年近くが経とうとしている今日この頃。ふと構成を色々考えてたんですが、ひとつ気になる問題がありました。 forward とか roundrobin とかでログの転送先をいろんなサーバにすることがあると思うのですが、単純な count up 以外の集約を行おうとすると、サーバ(正確には flunetd のインスタンス)が別れてるとちょっと面倒ですよね。例えば、アクセスログから 1 分辺りのステータスコードによって datacounter するとして、それを出力してるサーバ毎にやりたいと思った時に、一つのサーバからの出力がラウンドロビンされていろんな fluentd に分かれていると、ちょっと厳しい。 また、例えば 1 サーバで in_forward の受け口は 1 つにしつつ、ローカルに別プロセスでいくつも fluentd を上げてそれらにロ

    タグによってforward先を一意にしつつ負荷分散したい時に使えるかもしれないfluent-plugin-hash-forward #fluentd - As a Futurist...
  • Fluentd meetup in Japan 2 にいってきた #fluentd - たごもりすメモ

    Fluentd meetup in Japan #2 #fluentd on Zusaar ふらふらとお気楽に参加してきた。当方ささやかながらプラグインを作ったりしているので、他のひとがどのように使っているか、どのようなプラグインが他の人によって使われているか、あたりにたいへん興味があったので、そういう話をかなり聞けたのがすばらしく有益だった。主催者の方々、スタッフの方々、会場提供のグリーの方々、ありがとうございました。 以下だらだらとセッションごとに感想めいたものを書く。 「Fluentdの現在と未来」by @frsyuki 会場のFluentd利用者率が6割だか7割だかでびびる。当に? みたいな。あと日語ドキュメントなんていらんかったんやー、俺達は間違ってなかったんやー、と安心したりする。*1 Fluentd次期バージョンの話、じつはこれをメインで聞きにいったけど、既にTwitte

    Fluentd meetup in Japan 2 にいってきた #fluentd - たごもりすメモ
  • #fluentd in_httpプラグインでImageをレスポンスしたい - L4L

  • zusaar.com - zusaar リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

  • fluentd のベンチマークとってみたよ! - たごもりすメモ

    入出力プラグインをrubyで書けるのがじつにいい感じの fluentd がいい感じに見える。 fluent/fluentd · GitHub ので使えるかどうか、使えるとしたらどれくらいのノードを用意すればいいのかについて考えるため、とりあえずベンチマークをとってみた。 結論 以下非常に長くなるので結論だけ書くと、大変使える感じ。現状だとほとんど何も考えずにデータ中継させても秒間1万メッセージ、100Mbpsくらいまでは処理できる。効率よくなるよう流す側も考えてやれば 300Mbps を超えるデータの転送に成功した。だいぶいい感じ。 なおこれは in_scribe および out_scribe を使用した場合で、開発者 @frsyuki によるとMessagePackでのデータ転送の場合はこの倍くらい出るらしい。 もちろんこれは右から左に流しただけなので現実にタグによるルーティングだとかロ

    fluentd のベンチマークとってみたよ! - たごもりすメモ
  • 1