タグ

障害に関するmasudaKのブックマーク (4)

  • GitHubが1月28日のサービス障害の詳細を公開。停電により内部のChatOpsシステムも落ちて初期対応が困難に。Redisクラスタの復旧に時間

    GitHubが1月28日のサービス障害の詳細を公開。停電により内部のChatOpsシステムも落ちて初期対応が困難に。Redisクラスタの復旧に時間 報告では、サービス障害はGitHub社内のChatOpsシステムも巻き込んで初期対応に時間がかかってしまったこと、一時的な停電がRedisクラスタの障害を引き起こしたため、その究明と復旧が作業の主な部分だったことなどが説明されています。 報告の要点をまとめました。 内部のChatOpsシステムも障害に GitHubのサービス障害は、すでに報告されているように、自社データセンターにおける一時的な停電が最初の原因でした。 At 00:23am UTC on Thursday, January 28th, 2016 (4:23pm PST, Wednesday, January 27th) our primary data center experi

    GitHubが1月28日のサービス障害の詳細を公開。停電により内部のChatOpsシステムも落ちて初期対応が困難に。Redisクラスタの復旧に時間
  • WiMAX通信障害の経緯・原因をUQが公表、アクセス系設備のバグでシステム停止

    UQコミュニケーションズは2011年9月28日、9月21日から22日にかけて約19時間15分にわたって東日全域で発生したWiMAXの通信障害(関連記事:UQ WiMAXの障害は全面復旧、「原因は台風の影響かも含め調査中」)について、発生の経緯・原因と対処を公表した。障害発生の原因は、アクセス系のセンター設備のバグにあったという。 障害発生の経緯は以下の通り。(1)台風の接近によって、通常のトラフィックを大きく上回るアクセスが発生、(2)アクセス系センター設備で、アクセスの増加に加え、大量のリトライ処理による異常な負荷が発生、(3)センター内部が輻輳(ふくそう)状態にあるなか、内在するバグによってセンター設備でシステム停止、(4)制御下にある東日全域の基地局が停波し、通信できない状態が発生、(5)センター設備の再起動を試みたが、輻輳状況下でバグによって再度システムが停止---という経緯を

    WiMAX通信障害の経緯・原因をUQが公表、アクセス系設備のバグでシステム停止
    masudaK
    masudaK 2011/09/29
    輻輳コワイ。
  • mixi大規模障害について 解明編 - mixi engineer blog

    こんにちは、システム技術部たんぽぽGの森です。 先日のmixi大規模障害の原因となったmemcachedの不具合の詳細な解明ができました。 再来週まで発表を見合わせようと思ったのですが、早くお伝えしたほうがいいと思いましたので公開発表致します。 memcachedとlibevent memcachedはlibeventというライブラリを使用してクライアントからの要求(接続、コマンド送信)を処理しています。 libeventを使用するにはevent_baseという構造体を用います。 main threadはmain_baseを使用します。 static struct event_base *main_base; ... int main (int argc, char **argv) { ... main_base = event_init(); ... /* enter the ev

    mixi大規模障害について 解明編 - mixi engineer blog
  • mixi大規模障害について - mixi engineer blog

    こんにちは。システム技術部たんぽぽGの森です 先日のmixi大規模障害についてのブログです。 はじめにお断りしておきますが、弊社CTOがtwitterで公開した以上の情報はまだ得られておりません。 twitterでは書ききれなかった細部を補足してみたいと思います 現状判明しているのは以下の点です memcachedに大量の接続・切断を行うとmemcachedプロセスが突然終了することがある memcachedには異常時に終了するフローもあるが、同時に出力されるはずのエラーログは出ていなかった coreも出力されていなかった テスト環境にて追試を行ったところ、なんどか再現させることができましたが、確実に発生する条件は未だ不明です。 障害時の memcachedのバージョンは1.4.4, libeventのバージョンは1.3bです memcached の起動オプションは以下のとおり ./

    mixi大規模障害について - mixi engineer blog
  • 1