タグ

障害に関するwarufuzaketaichiのブックマーク (3)

  • パブリックデータから経路リークを探る - LGTM

    2017/08/25 12:30 (JST) ごろ、日国内で大規模な通信障害が観測されました。 通信障害の内容について、とても詳細にまとめられている記事があります。 d.hatena.ne.jp 障害の内容はさておき、このエントリでは障害のしくみについて探ってみようと思います。 MRT Dump から見るBGP Update 数の急増 MRT Dump をもとに、該当時刻のBGP Update 数(毎分) をバーチャートにしました。 横軸: 時刻(UTC) 縦軸: BGP Update されたのべPrefix 数 正: NLRI 負: Withdraw 単純にBGP Update の回数をカウントしているため、Path Attribute だけの変更だったり、NLRI → Withdraw → 同じNLRI の場合でも すべて1回と数えています。 普段と比べるとUpdate 数が激増して

    パブリックデータから経路リークを探る - LGTM
  • GMO、先週の24時間にわたるサービス障害時にはデータセンター内の約12%が電源喪失。変圧分電盤故障が原因の可能性。監視体制の強化など対策

    先週末、2016年1月16日から17日にかけて、GMOインターネットが提供するレンタルサーバやドメイン名登録などのサービスで管理画面が表示できなくなるなどの障害が約24時間にわたり発生しました。 GMOインターネットはWebサイトで影響の範囲や復旧状況などを報告、それによると障害の影響範囲は、お名前.com、レンサバ.comなどに加え、ConoHa byGMOGMOアプリクラウドなどクラウドサービスまで広範囲に渡っています。 また、障害の原因は「データセンター内における電源設備の一部故障」とされました。 24時間という長時間かつ広範囲に発生した障害の実態はどうだったのか、また原因とされた電源設備の一部故障とはどのようなものだったのか、GMOインターネットの発表は詳細部分について触れられていなかったため、PublickeyではGMOインターネットに対して取材を申し込みました。 GMOインタ

    GMO、先週の24時間にわたるサービス障害時にはデータセンター内の約12%が電源喪失。変圧分電盤故障が原因の可能性。監視体制の強化など対策
  • TwilioのRedisによる決済サービスの障害、2つの原因 - unknownplace.org

    Twilio というサービスで決済サービスの障害があったらしいが、恐しいことにこのサービス、 決済情報をRedisで管理していたらしい、というのをRedis作者、antirez氏のblogで知った。 Twilio incident and Redis - Antirez weblog この件に関しては、Twilio自体も 調査報告 を出している。簡単にまとめるとこういう感じだ: TwilioではRedisを single-master, multi-slave なレプリケーション環境で使用している ネットワーク障害で一時的に master-slave 間の接続が切れたことにより、master-slave間のデータの再同期が発生 この再同期がすべてのslaveに対して同時に発生したため、masterの負荷が高くなり、結果決済サービスの障害が発生 この負荷を解決するためmasterを再起動する

  • 1