タグ

ブックマーク / repeatedly.github.io (11)

  • Fluentd v0.12でのFilterとLabel - Go ahead!

    Fluentd,最近だと海外でも露出が増えてきていて,軽量・柔軟・ロバストという所で, 新規の他,既存のログコレクタのリプレース含め,採用する所が増えてたりします. より改善するため色々とユーザにヒアリングした結果,「フィルタ機能が欲しい」というのが一番多い意見でした. Fluentdは元々Treasure Dataへロバストにデータを転送するためのミドルウェアで,「ETLとかはTreasure Dataで」 というのもあり,組み込みでフィルタ機能はありませんでした. 今現在のOutputプラグインによるフィルタ実装は,タグの書き換えが必要だったりして少し慣れが必要で,初心者にはちと難しい. ということで,より簡単に効率よくデータストリームを扱えるフィルタ機能を入れることにしました! 前置きが長くなりましたが,次のバージョンであるv0.12ではFilterとLabelの導入が目玉機能になり

  • Fluentdの現実装のPros/Cons - Go ahead!

    TODO: 必要なら図を足す 他に書いた方が良いPros/Consのリクエストがあったら追記 内部のイベントストリームの扱い Pros: Inputがスケーラブルに実装しやすく,データストリームを正常時/エラー時で切り替えやすい Cons: エラーハンドリングがブロッキングモデルよりも複雑になりやすい 以下長々と理由書きます. Fluentdはイベントストリームを効率良く,またロバストに扱うことを目的に設計されています.そのため,独自の転送プロトコル(forwardプラグイン)を実装していますし,内部のイベントのハンドリングもそれに沿うようになっています.ただ,それによって相性の悪い操作とかもあります. Fluentdはバッファ機能を提供しており,これによって転送の効率化とエラー時のデータロスを防ぐ設計になっています.が,あまりにも書き込み先が遅いなどの問題があると,バッファの制限を超えて

  • Fluentdとログ収集のパターン - Go ahead!

    「ログを集めて保存する」と言うのは簡単だけど,ログ収集の構成にはいくつか方法があり,勉強会などでちょくちょく聞かれるので,いくつかのパターンについて書く. 「俺はもうバリバリログ収集やってるぜ!」という人は多分すでに知っていることが書かれているので,タブを閉じて良い. ここではログコレクタにFluentdを想定しているが,他のログ収集プロダクトにも適用出来るはず. ただ,Fluentdはタグベースのルーティングを持ち,単体でもキューのように動作させることが可能で,既存のものより複雑な問題を解決しようとしているので,少し工夫が必要かもしれない. Fluentdそのものについては公式ドキュメントや,Fluentdとはどのようなソフトウェアなのかを参考に. クライアントから直接保存する いきなりFluentdを使わないパターン.JavaScript SDKを提供している解析サービスやモバイル端末

  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

  • そろそろFluentd v11についてひとこと言っておくか - Go ahead!

    リリースは永遠にされません! 日では色々なところでv11の噂がまことしやかに囁かれていますが, 俺がメインメンテナである限りv11がリリースされることはないので,諦めてv0.10.xを使ってください! 以下まじめな話になります. v11が生まれた背景と現状 v11が生まれたのは1年以上前です.背景には,v10と呼ばれる今のバージョンがプロトタイプを兼ねたリリースであり, 「利用者のフィードバックを取り込んで,ダメな所をガッツリ書き換えて互換性を壊してメジャーバージョンアップや!」という流れがありました. しかし,v10は十分に柔軟でかつパフォーマンスも発揮しており,コミッタ陣はそれほどモチベーションがあったわけではありません. また,プラグインによって解決出来た問題も多く,v11が生まれた時ほどユーザから「v11が欲しい!」という要望は聞かれなくなりました. 当たり前ですが,ユーザからの

  • Sensu雑感 - Go ahead!

    Sensu 最近人気が出てきているようなので試して見た. 仕組みに関しては家のドキュメントとかスライドとか見ると大体分かる. 雑感: server, client, api, dashboardに分かれているのは良い 実装はRubyでシンプルに書かれているように見える.多分弄るのは簡単 RabbitMQとRedisが必要なのが試すのに結構つらい.chefとかpuppetを使うと良いらしい? なんかテストモードがあるなら知りたい ドキュメントは最低限はある.Advancedなことしようとするとgithubとか先人を頼ることになる 設定がJSONなのはいいけど,ログすらJSONなのは徹底している RabbitMQにはクライアントから登録しにいくようで,勝手に監視対象が増えるのは楽 マスターからのpullは限界があるので,この仕組みはモニタリングでは筋が良さそう プラグインは簡単に書けるが,現

  • D言語の現状 - Go ahead!

    「FacebookがプロダクションでD言語の利用を始めた」ことに関する記事が少し話題になってます.で,これだけだとD言語が他の言語のようにプロダクションreadyと勘違いする方もいるかもしれないので,今の現状について書いておきます. この記事の一言まとめ 手軽にプロダクションで使えるわけではありません! 詳細が知りたい方は以降をお読みください. 今回の話 FacebookのAndreiはTDPLというを出した,D言語界隈でも主要なコミッタです.その一方,C++界隈でも有名な人物で,そういう人物がついにC++をやめてプロダクションでD言語を使った,というのが一つの大きなニュースです. また,Facebookにはこの記事を書いたBenなど,D言語を使えるエンジニアが他にもいます. プロダクションでつかえるのか? 簡単に言うと,「品質的には問題が無い,が今広まってる言語ほど楽ではない」です.J

  • Search logs using Fluentd and Kibana - Go ahead!

    Search logs using Fluentd and Kibana Apr 17th, 2013 | Comments Fluentd is a flexible and robust event log collector, but Fluentd doesn’t provide own datastore and Web UI. So if you want to search stored events, then you can use Kibana and ElasticSearch :) ElasticSearch is a easy to use Search Engine and Kibana is a great Web UI for ElasticSearch with LogStash format. Setup Pre requirements Java fo

  • Go ahead!

    Recently, Travis CI announces “Multi-OS feature” on their blog. Multi-OS Feature Available If this feature is enabled, our project can be tested on both Linux and Mac OS X. Multi OS feature has been enabled for Fluentd repository. See following build: fluent/fluentd on Travis CI This is very useful for checking commit and PR. Thanks Travis CI and Facebook team! Cool.io was revived after I became a

  • Stormをはじめよう - Go ahead!

    O’Reillyの方からStormをはじめようを献して頂いて読んだのでレビュー! 感想 最近増えてきている100ページくらいのなので,さっくり読めました. 簡単にまとめると ”英語は読みたくないので情報が古くてもStormの概要を日語で読みたい” という方向けの. 大きな理由は以下: Stormの対象バージョンが0.7.1と古い.俺でもTridentというのが0.8から入っているのを知っているので,その辺の目玉機能は書かれていない 多分原著の方も少し書き方が雑.なんの説明もなく実装のクラス名を使って説明している所とかあるので「?」となる所がある サンプルコードも少し雑で,使ってない変数があったり説明と実装があってなかったりもたまにある 翻訳が少し微妙.Cursorが”カーサー”だったり,原著の方の構成の不味さもあるのか,日語的に理解しにくい文がちょくちょく混じっている (監訳はい

  • AWSを使ったデータ解析PaaSの裏側 - Go ahead!

    JAWS DAYS 2013というイベントがあって,2日目にTreasure Dataとして発表してきました.実は1日目には弊社CTOがパネルディスカッションに登壇したりしてました. Slideshare Ustream Video streaming by Ustream 最初はfrsyukiが登壇予定に上がっていたんだけど,今彼はアメリカということで代打で役割が回ってきた,というのが発表の経緯. なんかラベルが”Dev”と”Ops”という超大雑把なくくりで「AWSで”Dev”って何発表すれば…」という状態だったので, AWS上で展開しているTreasure Dataサービスの仕組みについてつらつらと話しました. AWSべったりな感じではなくて Treasure Dataのサービス内容と目的 どうAWSのプロダクトを使っているのか なぜこのAWSのサービスを使わないのか というのを大まか

  • 1