タグ

scribeに関するhtgcのブックマーク (2)

  • Webサーバログ転送・ストリーム処理系私案 - たごもりすメモ

    HTTPアクセスログをHiveが読める書式への変換やその他必要なデータ変換などストリーム処理で行いつつ転送して最終的にHDFSに時間ごとに書き込むぜー、というシステムを作ってる途中なんだけど、だいたい部品が揃いつつあるところでいったんまとめて書き出してみて見落としがないかどうか考えてみるテスト。 実在のシステムとは異なる可能性があるので(特に後日これを読む人は)あまり真に受けないほうがよいです。あと解析処理自体はHadoop上でHiveでやるのが大前提で、そこにデータをもっていくまでがここに書く話です。 (12/1 考えた末、構成を変えることにしたのでエントリ後半に追記した。) 前提システム 既にscribeを使用したログ収集・配送・保管系がある。各Webサーバは scribeline を使用してログをストリーム転送する。 scribelineのprimaryサーバとして配送用サーバ、se

    Webサーバログ転送・ストリーム処理系私案 - たごもりすメモ
  • 障害に強いscribeサーバ構成と設定 - たごもりすメモ

    scribeによるログ配送についていくらか試したりしつつ実戦投入しているのでその話。 今のところピーク時で20Mbps程度の流量で、100Mbpsを超えてくるようになると流量制限をシビアに考えたり中継サーバを複数台構成にしたり考えることになるのかなーと思っているが、現状はまだそこまでやってない。世の中には考えている人がぜったいいるはずなので話を聞いてみたいなあ。なんか「動かしてみた」レベルの話しかぐぐっても見付からない。悲しい。 サーバ構成 各サーバからログを(ほぼ)リアルタイムにscribedに流すのはいいとして、1台立ててるだけだと障害があったら全て終了してしまう。これはまずいので、複数台構成にする。 scribedはdeliverとcentralの両方で起動する。(設定はもちろん異なる。後述。) 通常は各サーバはすべて deliver サーバに接続してログを送る。deliverサーバ

    障害に強いscribeサーバ構成と設定 - たごもりすメモ
  • 1