hohoho_ho2005のブックマーク - はてなブックマーク

AWS Athena雑感 - Go ahead!

Amazon Athena — Serverless Interactive Query Service - AWS Prestoのフォースを感じたので，知り合いが試した情報も含めて，今思っている所を書いてみる．実装 Athenaのページにあるように，実行エンジンは独自実装ではなくて，Facebookが公開しているPrestoを使っている．FacebookのみならずTreasure Data，Airbnb，Netflixなどクエリがガンガン飛ぶ環境で元気に動いている実績もあるので，拡張性，パフォーマンス，安定性で選ばれたのだろうと思われる．あとAWS的にJavaの方が相性は良さそう．パフォーマンスいくつかの記事で言及されている． Analyzing Data in S3 using Amazon Athena Amazon AthenaをBigQueryと比較してみた Amazon

hohoho_ho2005 2016/12/05

presto
aws

リンク

Fluentdの現実装のPros/Cons - Go ahead!

TODO: 必要なら図を足す他に書いた方が良いPros/Consのリクエストがあったら追記内部のイベントストリームの扱い Pros: Inputがスケーラブルに実装しやすく，データストリームを正常時/エラー時で切り替えやすい Cons: エラーハンドリングがブロッキングモデルよりも複雑になりやすい以下長々と理由書きます． Fluentdはイベントストリームを効率良く，またロバストに扱うことを目的に設計されています．そのため，独自の転送プロトコル(forwardプラグイン)を実装していますし，内部のイベントのハンドリングもそれに沿うようになっています．ただ，それによって相性の悪い操作とかもあります． Fluentdはバッファ機能を提供しており，これによって転送の効率化とエラー時のデータロスを防ぐ設計になっています．が，あまりにも書き込み先が遅いなどの問題があると，バッファの制限を超えて

hohoho_ho2005 2015/04/14

Fluentd

リンク

Fluentd v0.12でのFilterとLabel - Go ahead!

Fluentd，最近だと海外でも露出が増えてきていて，軽量・柔軟・ロバストという所で，新規の他，既存のログコレクタのリプレース含め，採用する所が増えてたりします．より改善するため色々とユーザにヒアリングした結果，「フィルタ機能が欲しい」というのが一番多い意見でした． Fluentdは元々Treasure Dataへロバストにデータを転送するためのミドルウェアで，「ETLとかはTreasure Dataで」というのもあり，組み込みでフィルタ機能はありませんでした．今現在のOutputプラグインによるフィルタ実装は，タグの書き換えが必要だったりして少し慣れが必要で，初心者にはちと難しい．ということで，より簡単に効率よくデータストリームを扱えるフィルタ機能を入れることにしました！前置きが長くなりましたが，次のバージョンであるv0.12ではFilterとLabelの導入が目玉機能になり

hohoho_ho2005 2014/08/30

Fluentd

リンク

Fluentd UI - Go ahead!

fluent/fluentd-ui Fluentdのエコシステムの一つとして，Fluentd UIをリリースしました．すでに試してくれたユーザもいるようなので，現在の使用感などは下記の記事を参考にしてください． Fluentd UIが出たので触ってみた Touch the fluentd-ui(1) この記事ではFluentd UIそのものについてつらつらと書きたいと思います．英語でのアナウンスもいずれ公式ブログに載るはず． Fluentd UIの生い立ち Fluentd UIの背景として，Fluentdも最近は国を問わず色々な所でユーザが増えてきており，「CLIとか楽勝！」以外のユーザの割合も増えつつあります．ログコレクタでリッチな管理UIを持っているプロダクトってほとんどないと思うのですが，新しく使い始めるユーザの嵌まり所とか見ていると， GUIの方が始めるための敷居が下がりそ

hohoho_ho2005 2014/08/04

Fluentd

リンク

Fluentdとログ収集のパターン - Go ahead!

「ログを集めて保存する」と言うのは簡単だけど，ログ収集の構成にはいくつか方法があり，勉強会などでちょくちょく聞かれるので，いくつかのパターンについて書く．「俺はもうバリバリログ収集やってるぜ！」という人は多分すでに知っていることが書かれているので，タブを閉じて良い．ここではログコレクタにFluentdを想定しているが，他のログ収集プロダクトにも適用出来るはず．ただ，Fluentdはタグベースのルーティングを持ち，単体でもキューのように動作させることが可能で，既存のものより複雑な問題を解決しようとしているので，少し工夫が必要かもしれない． Fluentdそのものについては公式ドキュメントや，Fluentdとはどのようなソフトウェアなのかを参考に．クライアントから直接保存するいきなりFluentdを使わないパターン．JavaScript SDKを提供している解析サービスやモバイル端末

hohoho_ho2005 2014/08/01

Fluentd

リンク

MPP on Hadoop, Redshift, BigQuery - Go ahead!

Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ！」というプレッシャーが半端ないのでてきとうに書きます．この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので，すべてが俺の経験ではありません(特にBigQuery)．各社のSAの人とかに聞けば，もっと良いアプローチとか詳細を教えてくれるかもしれません．オンプレミスの商用MPPは使ったことないのでノーコメントです． MPP on HadoopでPrestoがメインなのは今一番使っているからで，Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています．もちろん実装の違いなどがあるので，その辺は適宜自分で補間してください．前提アプリケーションを開発していて，そのための解析基盤を一から作る．簡単なまとめデータを貯める所が作れるのであれば，そこに直接クエリを投げられるPre

hohoho_ho2005 2014/07/24

リンク

Fluentd v1 and Roadmapというプレゼンをしてきた

今回の発表は，今までのv11やv1に関してのまとめ的な発表になっています．以下のリンク集を見れば，発表内容の大抵はカバー出来ると思います．また，他の方もまとめ記事とかを書かれているので，そちらも参照してください．そろそろFluentd v11についてひとこと言っておくか Plan for v1 release #251 Support JRuby #317 FluentdのWindowsブランチ Add –use-v1-config option to enable new configuration format #293 td-agent2のパッケージリポジトリ俺の方から言えることは，Fluentd v0.10.46以降を使っている方は，積極的に--use-v1-configオプションを使ってくださいということです．既存のフォーマットとの違いはドキュメントを参照してください

hohoho_ho2005 2014/05/18

Fluentd

リンク

Sensu雑感 - Go ahead!

Sensu 最近人気が出てきているようなので試して見た．仕組みに関しては本家のドキュメントとかスライドとか見ると大体分かる．雑感: server, client, api, dashboardに分かれているのは良い実装はRubyでシンプルに書かれているように見える．多分弄るのは簡単 RabbitMQとRedisが必要なのが試すのに結構つらい．chefとかpuppetを使うと良いらしい？なんかテストモードがあるなら知りたいドキュメントは最低限はある．Advancedなことしようとするとgithubとか先人を頼ることになる設定がJSONなのはいいけど，ログすらJSONなのは徹底している RabbitMQにはクライアントから登録しにいくようで，勝手に監視対象が増えるのは楽マスターからのpullは限界があるので，この仕組みはモニタリングでは筋が良さそうプラグインは簡単に書けるが，現

hohoho_ho2005 2014/05/03

sensu

リンク

そろそろFluentd v11についてひとこと言っておくか - Go ahead!

リリースは永遠にされません！日本では色々なところでv11の噂がまことしやかに囁かれていますが，俺がメインメンテナである限りv11がリリースされることはないので，諦めてv0.10.xを使ってください！以下まじめな話になります． v11が生まれた背景と現状 v11が生まれたのは1年以上前です．背景には，v10と呼ばれる今のバージョンがプロトタイプを兼ねたリリースであり，「利用者のフィードバックを取り込んで，ダメな所をガッツリ書き換えて互換性を壊してメジャーバージョンアップや！」という流れがありました．しかし，v10は十分に柔軟でかつパフォーマンスも発揮しており，コミッタ陣はそれほどモチベーションがあったわけではありません．また，プラグインによって解決出来た問題も多く，v11が生まれた時ほどユーザから「v11が欲しい！」という要望は聞かれなくなりました．当たり前ですが，ユーザからの

hohoho_ho2005 2014/03/05

Fluentd

リンク

高トラフィックでのFluentdからElasticsearchへの書き込み問題への対策 - Go ahead!

Fluentd -> Elasticsearch 大量データ転送でトラブル上の記事にあるように，Elasticsearchに大量のデータを一気に流し込むと色々と問題が起きます．元々検索エンジンはスケールさせるのが難しく，よく当たる問題だと思います．また，Fluentdとかだとガンガンログを流し込むことも多く，この辺で詰まる云々はたまに聞きます．第3回elasticsearch勉強会で，Elasticsearch勉強会にFlorianという本家のエンジニアが来ていたので，懇親会でこの辺どうすればいいのか聞いてみました．実際Elasticsearchユーザの中でもちょくちょく問題になるらしく，大きくわけて二つの方法(またはこの組み合わせ)で回避しているようです．書き込み先のノードを増やす 1ノードへの書き込みで詰まるなら，もっとノードを増やせば良いというアプローチ．今のfl

hohoho_ho2005 2014/02/12

リンク

Category: presto - Go ahead!

hohoho_ho2005 2014/02/11

リンク

Prestoソースコードリーディング #1 - Go ahead!

Presto ソースコードリーディング #1のATND @tagomorisさんに場所を確保してもらって，LINEで第一回をやりました．開催の流れ CROSS辺りでPrestoのソースコードリーディングしたいね，という話が出て，じゃあ俺が立てるので場所はLINE辺りで〜というその場のノリで決まった．どうせ10人前後だろうということでかなり適当な感じで募集とかやってたんだけど，応募人数が40人越え，当日参加が25人前後くらいだったので，予想より多かったかなという感じ．やったこと全体の概要俺が軽めにやりました．Prestoの生まれた背景とか，依存している主要なライブラリ， @frsyukiのスライドを拝借しての主要なクラス群の紹介，現在サポートしている型， Slice使ってのデータの持ち方とか．後，最近の変更周りも少し紹介した HTTPレイヤー @tagomorisさんが担当で，

hohoho_ho2005 2014/02/11

リンク

Fluentd v11 at Tokuben - Go ahead!

今現在見えている機能群について一通りその背景とか，v10ではどうだったのかを絡めて話したので，上のスライドだけ見ても少しわかりにくいかもしれません．新しい機能の確認みたいな感じで眺めて貰えると．特勉は今回はログ・データ解析がテーマでしたが，色々とテーマを変えて定期的にやるようなので，随時チェックしておくと良いと思います．その後… Fluentd v11 なんてなかったんだで，実はこの発表の次の日にTwitterで色々とやりとりがあり，上記のスライドに書かれているいくつかの機能は，v10に取り込まれる可能性が高いです．というか，v11そのものが消える可能性は普通にあります． Fluentdそのものの改善では色々と考えていることはあるので，定期的にチェックして頂けると！後「v10でこういうところが使いにくい」とかあると，開発陣にフィードバックして貰えると助かります．それでは！

hohoho_ho2005 2014/01/26

Fluentd

リンク

ElasticSearch勉強会第1回 - Go ahead!

hohoho_ho2005 2013/08/31

elastic search

リンク

Stormをはじめよう - Go ahead!

O’Reillyの方からStormをはじめようを献本して頂いて読んだのでレビュー！感想最近増えてきている100ページくらいの本なので，さっくり読めました．簡単にまとめると ”英語は読みたくないので情報が古くてもStormの概要を日本語で読みたい” という方向けの本．大きな理由は以下: Stormの対象バージョンが0.7.1と古い．俺でもTridentというのが0.8から入っているのを知っているので，その辺の目玉機能は書かれていない多分原著の方も少し書き方が雑．なんの説明もなく実装のクラス名を使って説明している所とかあるので「？」となる所があるサンプルコードも少し雑で，使ってない変数があったり説明と実装があってなかったりもたまにある翻訳が少し微妙．Cursorが”カーサー”だったり，原著の方の構成の不味さもあるのか，日本語的に理解しにくい文がちょくちょく混じっている (監訳はい

hohoho_ho2005 2013/07/10

Storm

リンク

Mongoプラグインの仕様 - Go ahead!

分散パフォーマンステスト関係を書こうと思っていたんですが，よくよく考えたらMongoプラグインについて日本語でまともな記事を書いたことなかったので書きます．このエントリはウィークリーFluentdユースケースエントリリレーの参加エントリです．概要 MongoプラグインはMongo DBに対するInput/Outputプラグインを提供します．またユーティリティとして，Mongo DBのcappedコレクションに対してtailを行うmongo-tailコマンドも付属しています．リポジトリ: https://github.com/fluent/fluent-plugin-mongo Mongo DBは内部はBSONですが，API的にはJSONでやりとりしており，また明示的なスキーマもいらないため，Fluentd周辺では集計サーバやテンポラリサーバとして広く利用されています． td-agentには

hohoho_ho2005 2013/07/08

リンク

AWSを使ったデータ解析PaaSの裏側 - Go ahead!

JAWS DAYS 2013というイベントがあって，2日目にTreasure Dataとして発表してきました．実は1日目には弊社CTOがパネルディスカッションに登壇したりしてました． Slideshare Ustream Video streaming by Ustream 最初はfrsyukiが登壇予定に上がっていたんだけど，今彼はアメリカということで代打で役割が回ってきた，というのが発表の経緯．なんかラベルが”Dev”と”Ops”という超大雑把なくくりで「AWSで”Dev”って何発表すれば…」という状態だったので， AWS上で展開しているTreasure Dataサービスの仕組みについてつらつらと話しました． AWSべったりな感じではなくて Treasure Dataのサービス内容と目的どうAWSのプロダクトを使っているのかなぜこのAWSのサービスを使わないのかというのを大まか

hohoho_ho2005 2013/03/18

リンク

はてなブックマーク

タグ

ブックマーク / repeatedly.github.io (17)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス