タグ

ブックマーク / repeatedly.github.io (17)

  • AWS Athena雑感 - Go ahead!

    Amazon Athena — Serverless Interactive Query Service - AWS Prestoのフォースを感じたので,知り合いが試した情報も含めて,今思っている所を書いてみる. 実装 Athenaのページにあるように,実行エンジンは独自実装ではなくて,Facebookが公開しているPrestoを使っている.FacebookのみならずTreasure Data,Airbnb,Netflixなどクエリがガンガン飛ぶ環境で元気に動いている実績もあるので,拡張性,パフォーマンス,安定性で選ばれたのだろうと思われる.あとAWS的にJavaの方が相性は良さそう. パフォーマンス いくつかの記事で言及されている. Analyzing Data in S3 using Amazon Athena Amazon AthenaをBigQueryと比較してみた Amazon

  • Fluentdの現実装のPros/Cons - Go ahead!

    TODO: 必要なら図を足す 他に書いた方が良いPros/Consのリクエストがあったら追記 内部のイベントストリームの扱い Pros: Inputがスケーラブルに実装しやすく,データストリームを正常時/エラー時で切り替えやすい Cons: エラーハンドリングがブロッキングモデルよりも複雑になりやすい 以下長々と理由書きます. Fluentdはイベントストリームを効率良く,またロバストに扱うことを目的に設計されています.そのため,独自の転送プロトコル(forwardプラグイン)を実装していますし,内部のイベントのハンドリングもそれに沿うようになっています.ただ,それによって相性の悪い操作とかもあります. Fluentdはバッファ機能を提供しており,これによって転送の効率化とエラー時のデータロスを防ぐ設計になっています.が,あまりにも書き込み先が遅いなどの問題があると,バッファの制限を超えて

  • Fluentd v0.12でのFilterとLabel - Go ahead!

    Fluentd,最近だと海外でも露出が増えてきていて,軽量・柔軟・ロバストという所で, 新規の他,既存のログコレクタのリプレース含め,採用する所が増えてたりします. より改善するため色々とユーザにヒアリングした結果,「フィルタ機能が欲しい」というのが一番多い意見でした. Fluentdは元々Treasure Dataへロバストにデータを転送するためのミドルウェアで,「ETLとかはTreasure Dataで」 というのもあり,組み込みでフィルタ機能はありませんでした. 今現在のOutputプラグインによるフィルタ実装は,タグの書き換えが必要だったりして少し慣れが必要で,初心者にはちと難しい. ということで,より簡単に効率よくデータストリームを扱えるフィルタ機能を入れることにしました! 前置きが長くなりましたが,次のバージョンであるv0.12ではFilterとLabelの導入が目玉機能になり

  • Fluentd UI - Go ahead!

    fluent/fluentd-ui Fluentdのエコシステムの一つとして,Fluentd UIをリリースしました. すでに試してくれたユーザもいるようなので,現在の使用感などは下記の記事を参考にしてください. Fluentd UIが出たので触ってみた Touch the fluentd-ui(1) この記事ではFluentd UIそのものについてつらつらと書きたいと思います.英語でのアナウンスもいずれ公式ブログに載るはず. Fluentd UIの生い立ち Fluentd UIの背景として,Fluentdも最近は国を問わず色々な所でユーザが増えてきており, 「CLIとか楽勝!」以外のユーザの割合も増えつつあります. ログコレクタでリッチな管理UIを持っているプロダクトってほとんどないと思うのですが, 新しく使い始めるユーザの嵌まり所とか見ていると, GUIの方が始めるための敷居が下がりそ

    Fluentd UI - Go ahead!
  • Fluentdとログ収集のパターン - Go ahead!

    「ログを集めて保存する」と言うのは簡単だけど,ログ収集の構成にはいくつか方法があり,勉強会などでちょくちょく聞かれるので,いくつかのパターンについて書く. 「俺はもうバリバリログ収集やってるぜ!」という人は多分すでに知っていることが書かれているので,タブを閉じて良い. ここではログコレクタにFluentdを想定しているが,他のログ収集プロダクトにも適用出来るはず. ただ,Fluentdはタグベースのルーティングを持ち,単体でもキューのように動作させることが可能で,既存のものより複雑な問題を解決しようとしているので,少し工夫が必要かもしれない. Fluentdそのものについては公式ドキュメントや,Fluentdとはどのようなソフトウェアなのかを参考に. クライアントから直接保存する いきなりFluentdを使わないパターン.JavaScript SDKを提供している解析サービスやモバイル端末

  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

  • Fluentd v1 and Roadmapというプレゼンをしてきた

    今回の発表は,今までのv11やv1に関してのまとめ的な発表になっています. 以下のリンク集を見れば,発表内容の大抵はカバー出来ると思います. また,他の方もまとめ記事とかを書かれているので,そちらも参照してください. そろそろFluentd v11についてひとこと言っておくか Plan for v1 release #251 Support JRuby #317 FluentdのWindowsランチ Add –use-v1-config option to enable new configuration format #293 td-agent2のパッケージリポジトリ 俺の方から言えることは,Fluentd v0.10.46以降を使っている方は, 積極的に--use-v1-configオプションを使ってくださいということです. 既存のフォーマットとの違いはドキュメントを参照してください

  • Sensu雑感 - Go ahead!

    Sensu 最近人気が出てきているようなので試して見た. 仕組みに関しては家のドキュメントとかスライドとか見ると大体分かる. 雑感: server, client, api, dashboardに分かれているのは良い 実装はRubyでシンプルに書かれているように見える.多分弄るのは簡単 RabbitMQとRedisが必要なのが試すのに結構つらい.chefとかpuppetを使うと良いらしい? なんかテストモードがあるなら知りたい ドキュメントは最低限はある.Advancedなことしようとするとgithubとか先人を頼ることになる 設定がJSONなのはいいけど,ログすらJSONなのは徹底している RabbitMQにはクライアントから登録しにいくようで,勝手に監視対象が増えるのは楽 マスターからのpullは限界があるので,この仕組みはモニタリングでは筋が良さそう プラグインは簡単に書けるが,現

  • そろそろFluentd v11についてひとこと言っておくか - Go ahead!

    リリースは永遠にされません! 日では色々なところでv11の噂がまことしやかに囁かれていますが, 俺がメインメンテナである限りv11がリリースされることはないので,諦めてv0.10.xを使ってください! 以下まじめな話になります. v11が生まれた背景と現状 v11が生まれたのは1年以上前です.背景には,v10と呼ばれる今のバージョンがプロトタイプを兼ねたリリースであり, 「利用者のフィードバックを取り込んで,ダメな所をガッツリ書き換えて互換性を壊してメジャーバージョンアップや!」という流れがありました. しかし,v10は十分に柔軟でかつパフォーマンスも発揮しており,コミッタ陣はそれほどモチベーションがあったわけではありません. また,プラグインによって解決出来た問題も多く,v11が生まれた時ほどユーザから「v11が欲しい!」という要望は聞かれなくなりました. 当たり前ですが,ユーザからの

  • 高トラフィックでのFluentdからElasticsearchへの書き込み問題への対策 - Go ahead!

    Fluentd -> Elasticsearch 大量データ転送でトラブル 上の記事にあるように,Elasticsearchに大量のデータを一気に流し込むと色々と問題が起きます. 元々検索エンジンはスケールさせるのが難しく,よく当たる問題だと思います. また,Fluentdとかだとガンガンログを流し込むことも多く,この辺で詰まる云々はたまに聞きます. 第3回elasticsearch勉強会 で,Elasticsearch勉強会にFlorianという家のエンジニアが来ていたので, 懇親会でこの辺どうすればいいのか聞いてみました. 実際Elasticsearchユーザの中でもちょくちょく問題になるらしく, 大きくわけて二つの方法(またはこの組み合わせ)で回避しているようです. 書き込み先のノードを増やす 1ノードへの書き込みで詰まるなら,もっとノードを増やせば良いというアプローチ. 今のfl

  • Category: presto - Go ahead!

  • Prestoソースコードリーディング #1 - Go ahead!

    Presto ソースコードリーディング #1のATND @tagomorisさんに場所を確保してもらって,LINEで第一回をやりました. 開催の流れ CROSS辺りでPrestoのソースコードリーディングしたいね,という話が出て, じゃあ俺が立てるので場所はLINE辺りで〜というその場のノリで決まった. どうせ10人前後だろうということでかなり適当な感じで募集とかやってたんだけど, 応募人数が40人越え,当日参加が25人前後くらいだったので,予想より多かったかなという感じ. やったこと 全体の概要 俺が軽めにやりました.Prestoの生まれた背景とか,依存している主要なライブラリ, @frsyukiのスライドを拝借しての主要なクラス群の紹介,現在サポートしている型, Slice使ってのデータの持ち方とか.後,最近の変更周りも少し紹介した HTTPレイヤー @tagomorisさんが担当で,

  • Fluentd v11 at Tokuben - Go ahead!

    今現在見えている機能群について一通りその背景とか,v10ではどうだったのかを絡めて話したので,上のスライドだけ見ても少しわかりにくいかもしれません.新しい機能の確認みたいな感じで眺めて貰えると. 特勉は今回はログ・データ解析がテーマでしたが,色々とテーマを変えて定期的にやるようなので,随時チェックしておくと良いと思います. その後… Fluentd v11 なんてなかったんだ で,実はこの発表の次の日にTwitterで色々とやりとりがあり,上記のスライドに書かれているいくつかの機能は,v10に取り込まれる可能性が高いです.というか,v11そのものが消える可能性は普通にあります. Fluentdそのものの改善では色々と考えていることはあるので,定期的にチェックして頂けると!後「v10でこういうところが使いにくい」とかあると,開発陣にフィードバックして貰えると助かります. それでは!

  • ElasticSearch勉強会 第1回 - Go ahead!

  • Stormをはじめよう - Go ahead!

    O’Reillyの方からStormをはじめようを献して頂いて読んだのでレビュー! 感想 最近増えてきている100ページくらいのなので,さっくり読めました. 簡単にまとめると ”英語は読みたくないので情報が古くてもStormの概要を日語で読みたい” という方向けの. 大きな理由は以下: Stormの対象バージョンが0.7.1と古い.俺でもTridentというのが0.8から入っているのを知っているので,その辺の目玉機能は書かれていない 多分原著の方も少し書き方が雑.なんの説明もなく実装のクラス名を使って説明している所とかあるので「?」となる所がある サンプルコードも少し雑で,使ってない変数があったり説明と実装があってなかったりもたまにある 翻訳が少し微妙.Cursorが”カーサー”だったり,原著の方の構成の不味さもあるのか,日語的に理解しにくい文がちょくちょく混じっている (監訳はい

  • Mongoプラグインの仕様 - Go ahead!

    分散パフォーマンステスト関係を書こうと思っていたんですが,よくよく考えたらMongoプラグインについて日語でまともな記事を書いたことなかったので書きます. このエントリはウィークリーFluentdユースケースエントリリレーの参加エントリです. 概要 MongoプラグインはMongoDBに対するInput/Outputプラグインを提供します.またユーティリティとして,MongoDBのcappedコレクションに対してtailを行うmongo-tailコマンドも付属しています. リポジトリ: https://github.com/fluent/fluent-plugin-mongo MongoDBは内部はBSONですが,API的にはJSONでやりとりしており,また明示的なスキーマもいらないため,Fluentd周辺では集計サーバやテンポラリサーバとして広く利用されています. td-agentには

  • AWSを使ったデータ解析PaaSの裏側 - Go ahead!

    JAWS DAYS 2013というイベントがあって,2日目にTreasure Dataとして発表してきました.実は1日目には弊社CTOがパネルディスカッションに登壇したりしてました. Slideshare Ustream Video streaming by Ustream 最初はfrsyukiが登壇予定に上がっていたんだけど,今彼はアメリカということで代打で役割が回ってきた,というのが発表の経緯. なんかラベルが”Dev”と”Ops”という超大雑把なくくりで「AWSで”Dev”って何発表すれば…」という状態だったので, AWS上で展開しているTreasure Dataサービスの仕組みについてつらつらと話しました. AWSべったりな感じではなくて Treasure Dataのサービス内容と目的 どうAWSのプロダクトを使っているのか なぜこのAWSのサービスを使わないのか というのを大まか

  • 1