タグ

ブックマーク / repeatedly.github.io (12)

  • AWS Athena雑感 - Go ahead!

    Amazon Athena — Serverless Interactive Query Service - AWS Prestoのフォースを感じたので,知り合いが試した情報も含めて,今思っている所を書いてみる. 実装 Athenaのページにあるように,実行エンジンは独自実装ではなくて,Facebookが公開しているPrestoを使っている.FacebookのみならずTreasure Data,Airbnb,Netflixなどクエリがガンガン飛ぶ環境で元気に動いている実績もあるので,拡張性,パフォーマンス,安定性で選ばれたのだろうと思われる.あとAWS的にJavaの方が相性は良さそう. パフォーマンス いくつかの記事で言及されている. Analyzing Data in S3 using Amazon Athena Amazon AthenaをBigQueryと比較してみた Amazon

  • YAPC::Asia Tokyo 2015での発表 - Go ahead!

    YAPC::Asia Tokyo 2015 今年で最後となるYAPC::Asia Tokyoで,データ分析基盤まわりについて発表してきました.部屋は満席だったようで,聞きに来てくれた皆さん,ありがとうございました.会場はD言語erにふさわしくD会場でした. データ分析基盤を支える技術 - YAPC::Asia Tokyo 2015 これが今どきのデータ解析基盤だ!初心者のためのデータ解析講座 #yapcasia #yapcasiaD - Togetterまとめ どういう展開にしようか悩んだんですが,データ分析基盤の構築に使われる様々なソフトウェアが,どういう問題を解決するために導入されているのか,またその一方どういう問題を持っているのか,を一からデータ分析基盤を作るという流れで話していくことにしました. 既にガリガリやっている人向けではなくて,これからやろうとしている人,やってるけど現状の

  • 第一回 Vertica勉強会 - Go ahead!

    第1回 Vertica 勉強会 DeNAでVerticaの勉強会が開かれるということで行ってきた.皆さんお疲れ様 & ありがとうございました. VerticaはMPPデータベースと呼ばれるプロダクトの一つ.まとめみたいなのはすでに他の人が用意してくれているので,そちらを参照してください. 第1回 Vertica 勉強会 - Togetterまとめ 第1回Vertica勉強会に参加してきた - INPUTしたらOUTPUT! 第1回 Vertica 勉強会に行ってきた - wyukawa’s blog はじめてのVertica!(はじめのて方にも、20分で分かりやすく解説) Verticaの基的な話.C-Storeが元になっていて, やはりC-Storeの論文に書かれている機能がベースになってた. ここで出てきた 列指向フォーマット そして列毎の圧縮 Shared Nothing ANSI

  • データ転送ミドルウェア勉強会 - Go ahead!

  • Presto meetup #1 - Go ahead!

    Presto meetup 1月20日に第一回をやりました!キャンセルも少なめで,イベント参加100人強,懇親会が80人くらいでした.予想の倍以上集まった感じで,Prestoも注目されてるんだなと実感したイベントでした. 今回は基から始まり,それぞれ今使っている人達に,運用の話,BIツールとの連携の話,どういう組み合わせで使っているかなど発表してもらいました.「PrestoのDynamoDBコネクタを作る!」みたいな話もあったりして,リリースが待ち遠しい所です. 懇親会でもたくさんの人と話をしましたが,やはり安定した運用のしやすさとか,コネクタによる複数ソースへのアクセスなど,色々と使っている理由含め情報交換出来たのが良かったです.発表してくれそうな人を二人くらい見つけたので,日程は決まってませんが,また第二回でもやろうと思っています. このイベントの後,発表に関しての議論が他で行われた

  • ServerEngine at RubyKaigi 2014 - Go ahead!

    RubyKaigi 2014でServerEngineについて発表してきました. 最初はFluentdで発表しようかと思ったんですが,別の有用なプロジェクトの話もそろそろした方がいいかな,ということでServerEngineにしました. @sonotsさんがFluentdの発表をしてくれたので,被らなくて良かった… 画像は技評さんから. 以下がスライドです.書いてないことも発表では色々と話したので,動画もセットで見た方が良いです. fluent/serverengine ServerEngineはTreasure Dataで開発・運用されている分散キューや分散スケジューラ,それとFluentdなどの経験を元に,汎用的な部分を抽出してフレームワークにしたプロダクトです.発表で言及した機能の他にもBlockingFlagなどのユーティリティがあるので,Rubyでデーモンやバッチワーカーを書くと

    ServerEngine at RubyKaigi 2014 - Go ahead!
  • Fluentd UI - Go ahead!

    fluent/fluentd-ui Fluentdのエコシステムの一つとして,Fluentd UIをリリースしました. すでに試してくれたユーザもいるようなので,現在の使用感などは下記の記事を参考にしてください. Fluentd UIが出たので触ってみた Touch the fluentd-ui(1) この記事ではFluentd UIそのものについてつらつらと書きたいと思います.英語でのアナウンスもいずれ公式ブログに載るはず. Fluentd UIの生い立ち Fluentd UIの背景として,Fluentdも最近は国を問わず色々な所でユーザが増えてきており, 「CLIとか楽勝!」以外のユーザの割合も増えつつあります. ログコレクタでリッチな管理UIを持っているプロダクトってほとんどないと思うのですが, 新しく使い始めるユーザの嵌まり所とか見ていると, GUIの方が始めるための敷居が下がりそ

    Fluentd UI - Go ahead!
  • Fluentdとログ収集のパターン - Go ahead!

    「ログを集めて保存する」と言うのは簡単だけど,ログ収集の構成にはいくつか方法があり,勉強会などでちょくちょく聞かれるので,いくつかのパターンについて書く. 「俺はもうバリバリログ収集やってるぜ!」という人は多分すでに知っていることが書かれているので,タブを閉じて良い. ここではログコレクタにFluentdを想定しているが,他のログ収集プロダクトにも適用出来るはず. ただ,Fluentdはタグベースのルーティングを持ち,単体でもキューのように動作させることが可能で,既存のものより複雑な問題を解決しようとしているので,少し工夫が必要かもしれない. Fluentdそのものについては公式ドキュメントや,Fluentdとはどのようなソフトウェアなのかを参考に. クライアントから直接保存する いきなりFluentdを使わないパターン.JavaScript SDKを提供している解析サービスやモバイル端末

  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

  • Release fluent-plugin-http-puma - Go ahead!

    in_httpとほぼ同じように動きますが,独自でHTTPリクエストをパースしてないので,keepaliveやボディサイズチェック用のオプションはありません.その代わりPuma関係のオプションが増えてます(README参照). 一番の違いは,HTTPSをサポートしている所です.use_sslとssl_keysを使うことで,HTTPSとして立ち上がります. パフォーマンス 手元のMBPで試して見たら,HTTPはin_httpより少し速かった.HTTPSは当たり前ですがガクッと落ちます. クライアントはRubynet/httpを使って,小さめのjsonをapplication/jsonで送ってます. in_http 平均2400 events/secくらい. 2014-07-20 19:02:30 +0900 [info]: plugin:out_flowcounter_simple cou

  • Prestoソースコードリーディング #4 - Go ahead!

    Presto ソースコードリーディング #4 いつものようにLINEでやりました! @frsyukiが帰国する前に,という流れで開催決定・募集が1週間前というタイトなスケジュールでしたが, 無茶ぶりにつきあってくれた@ueshinさんに感謝. 当日の内容 togetterのまとめを見れば,なんとなく大まかな流れは把握できるはず…! ueshinさんが第二回のashigeruさんの論理計画実行の後を継いで, 物理計画実行周りの話をしてくれました(資料のgist). バイトコード生成しての高速化の話とか,Presto以外でも有用な話が出てました. frsyukiが現在のPrestoの開発体制の話,Treasure Dataでハックしている所の紹介, CREATE VIEWなどの実装がなぜこうなっているのか(これはfrsyuki案が通ったらしい), 今後Prestoチームがやろうとしていることな

  • Fluentd v1 and Roadmapというプレゼンをしてきた

    今回の発表は,今までのv11やv1に関してのまとめ的な発表になっています. 以下のリンク集を見れば,発表内容の大抵はカバー出来ると思います. また,他の方もまとめ記事とかを書かれているので,そちらも参照してください. そろそろFluentd v11についてひとこと言っておくか Plan for v1 release #251 Support JRuby #317 FluentdのWindowsランチ Add –use-v1-config option to enable new configuration format #293 td-agent2のパッケージリポジトリ 俺の方から言えることは,Fluentd v0.10.46以降を使っている方は, 積極的に--use-v1-configオプションを使ってくださいということです. 既存のフォーマットとの違いはドキュメントを参照してください

  • 1