タグ

ブックマーク / repeatedly.github.io (7)

  • AWS Athena雑感 - Go ahead!

    Amazon Athena — Serverless Interactive Query Service - AWS Prestoのフォースを感じたので,知り合いが試した情報も含めて,今思っている所を書いてみる. 実装 Athenaのページにあるように,実行エンジンは独自実装ではなくて,Facebookが公開しているPrestoを使っている.FacebookのみならずTreasure Data,Airbnb,Netflixなどクエリがガンガン飛ぶ環境で元気に動いている実績もあるので,拡張性,パフォーマンス,安定性で選ばれたのだろうと思われる.あとAWS的にJavaの方が相性は良さそう. パフォーマンス いくつかの記事で言及されている. Analyzing Data in S3 using Amazon Athena Amazon AthenaをBigQueryと比較してみた Amazon

  • Fluentdとログ収集のパターン - Go ahead!

    「ログを集めて保存する」と言うのは簡単だけど,ログ収集の構成にはいくつか方法があり,勉強会などでちょくちょく聞かれるので,いくつかのパターンについて書く. 「俺はもうバリバリログ収集やってるぜ!」という人は多分すでに知っていることが書かれているので,タブを閉じて良い. ここではログコレクタにFluentdを想定しているが,他のログ収集プロダクトにも適用出来るはず. ただ,Fluentdはタグベースのルーティングを持ち,単体でもキューのように動作させることが可能で,既存のものより複雑な問題を解決しようとしているので,少し工夫が必要かもしれない. Fluentdそのものについては公式ドキュメントや,Fluentdとはどのようなソフトウェアなのかを参考に. クライアントから直接保存する いきなりFluentdを使わないパターン.JavaScript SDKを提供している解析サービスやモバイル端末

    kenjiskywalker
    kenjiskywalker 2014/08/01
    "一切ログの欠損も重複も許せない,しかも確実に書き込む必要がある,というケース" これで使ってるところ結構ありそう
  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

    kenjiskywalker
    kenjiskywalker 2014/07/24
    最高の知見
  • Sensu雑感 - Go ahead!

    Sensu 最近人気が出てきているようなので試して見た. 仕組みに関しては家のドキュメントとかスライドとか見ると大体分かる. 雑感: server, client, api, dashboardに分かれているのは良い 実装はRubyでシンプルに書かれているように見える.多分弄るのは簡単 RabbitMQとRedisが必要なのが試すのに結構つらい.chefとかpuppetを使うと良いらしい? なんかテストモードがあるなら知りたい ドキュメントは最低限はある.Advancedなことしようとするとgithubとか先人を頼ることになる 設定がJSONなのはいいけど,ログすらJSONなのは徹底している RabbitMQにはクライアントから登録しにいくようで,勝手に監視対象が増えるのは楽 マスターからのpullは限界があるので,この仕組みはモニタリングでは筋が良さそう プラグインは簡単に書けるが,現

  • CROSS 2014 - Go ahead!

    CROSS 2014というイベントがあり, 分散処理システムCROSSというセッションのオーナーをやってきた. 分散処理システムCROSS 元々はログ収集で1セッションどうか,という話だった.が, もうFluentdとかの話は色々な所でやってるし,ここで1時間やってもあんま成果はないだろうということでやめた. そもそも日でFluentd以外のログ収集プロジェクトで深い話を出来る人は希で,探すのがつらい. その変わり分散処理でも話が来ていたので,そっち側でどうにかやることにした. 分散処理だとなんかアルゴリズムとかそっち系の色が強くなりそうなので,とりあえずシステムをつけた. メンバ @oza_x86,@kuenishi,@shot6の三人にお願いした.時間を作って頂いてありがとうございました! 人選に関しては,少し前にTwitterでつぶやいたけど,以下のような感じで選んだ. 分散処理シ

    kenjiskywalker
    kenjiskywalker 2014/01/19
    Red Bull Girlいなかったのか
  • D言語の現状 - Go ahead!

    「FacebookがプロダクションでD言語の利用を始めた」ことに関する記事が少し話題になってます.で,これだけだとD言語が他の言語のようにプロダクションreadyと勘違いする方もいるかもしれないので,今の現状について書いておきます. この記事の一言まとめ 手軽にプロダクションで使えるわけではありません! 詳細が知りたい方は以降をお読みください. 今回の話 FacebookのAndreiはTDPLというを出した,D言語界隈でも主要なコミッタです.その一方,C++界隈でも有名な人物で,そういう人物がついにC++をやめてプロダクションでD言語を使った,というのが一つの大きなニュースです. また,Facebookにはこの記事を書いたBenなど,D言語を使えるエンジニアが他にもいます. プロダクションでつかえるのか? 簡単に言うと,「品質的には問題が無い,が今広まってる言語ほど楽ではない」です.J

  • Search logs using Fluentd and Kibana - Go ahead!

    Search logs using Fluentd and Kibana Apr 17th, 2013 | Comments Fluentd is a flexible and robust event log collector, but Fluentd doesn’t provide own datastore and Web UI. So if you want to search stored events, then you can use Kibana and ElasticSearch :) ElasticSearch is a easy to use Search Engine and Kibana is a great Web UI for ElasticSearch with LogStash format. Setup Pre requirements Java fo

  • 1