タグ

障害に関するzanastaのブックマーク (6)

  • Google Appsのほとんどのサービスが異常停止。対応チームが12分でデバッグし約35分で復旧へ

    GmailやGoogle Documents、Google Calendarなど、Google Appsのほとんどのサービスが異常停止するという事故が1月24日午前11時前(日時間で1月25日土曜日の午前4時前)に発生しました。 障害は約35分続き、利用中のユーザー全てに影響したとのことです。原因はサービス関連のコンフィグレーションを設定するサーバにバグがあったとのこと。 原因と今後の対応について、Google Official Blogのエントリ「Today’s outage for several Google services」で説明されています。重要な部分を引用し、訳しました。 コンフィグレーション生成システムにバグが発生 午前10時55分にバグが発生します。 At 10:55 a.m. PST this morning, an internal system that gene

    Google Appsのほとんどのサービスが異常停止。対応チームが12分でデバッグし約35分で復旧へ
  • エンジニアなら知っておきたい障害報告&再発防止策の考え方 - Qiita

    システムには障害がつきものです。どんなにしっかりと作られたサービスであっても思わぬところで、バグやミスが発覚して、トラブルになるものです。大事なのはこういった障害を次への糧にしていくこと。失敗というのは大事な資産なので、管理できるようにしましょうという話。 あわせて読みたい あきらめるにはまだ早い!ソースコードの品質向上に効果的なアプローチ メンタリングの方法について基礎をまとめました。内心でなく行動を変えることが障害報告とも共通します。 新入社員が来てメンターになれって言われたけど、どうすればいいのかという対話テクニック 半年で40kg痩せた!ダイエットでわかるリーンなプロジェクトマネジメント手法 心理的安全性ガイドライン(あるいは権威勾配に関する一考察) 障害の種類と障害報告について 障害には、小さなもの、たとえば画面に表示されているテキストの乱れから、すべての画面で50xエラーが発生

    エンジニアなら知っておきたい障害報告&再発防止策の考え方 - Qiita
  • Dropboxが2日以上ダウン。原因はメンテナンス用スクリプトのミス

    オンラインストレージサービスのDropboxが、米国時間1月10日の午後から約2日間にわたって障害を引き起こしていました。直接の原因は、OSをバージョンアップするために実行したメンテナンス用スクリプトにバグがあったことです。 障害の状況を時系列で追いつつ、原因についての報告を見てみましょう。 約48時間続いた復旧作業 障害の状況報告については、Dropbox Tech Blogの「Dropbox Status Update」でまとめられています。ポイントごとに引用し、訳しました。 障害発生が認識されたのは、米太平洋時間の午後6時40分です。後になって分かるのですが、この日の5時半に障害の原因となったメンテナンスが始まっています。それから1時間後にDropboxのダウンが発覚します。 1/10 at 6:40pm PT: We are aware that the Dropbox site

    Dropboxが2日以上ダウン。原因はメンテナンス用スクリプトのミス
  • システム障害対応に対する考え方について

    ヴィス @2vis 社内システムが普通に12月32日なって 「どーなってるんですか!」とユーザに言われて、 しらねーよ俺作ってねーよとは言えず呼び出されたことがw 2014-01-01 02:57:47 ヴィス @2vis 後、汎用機で1月1日になったら急に送受信が止まって呼び出されたときに… MMCFに「expire:20〷」って設定がされてた。 訳:期間満了って事 こんな地雷設定しこむんじゃねー!と叫びたくなったよw 2014-01-01 03:00:57

    システム障害対応に対する考え方について
  • 人間は誰でもミスをする、システムは必ず障害を起こす──トラブルを減らす“6つの知恵”

    「To Err is Human」、これは、1999年に米国の有識者機関である米国医学研究所(IOM: Institute of Medicine)から刊行された報告書のタイトルだ。日語に訳すと「人間は誰でもミスをする」という意味になる。 毎年約10万人が医療事故で死亡、米の死亡原因8位に この報告書によると、当時の米国では、毎年4万4000人~9万8000人もの患者が医療事故によって命を落としていた。これは、自動車事故やエイズによる死亡をはるかに上回り、第1位~3位の死亡原因を占める心臓病、がん、脳卒中といった三大疾病から順に数えても、米国の第8位の死亡原因と報告された。

    人間は誰でもミスをする、システムは必ず障害を起こす──トラブルを減らす“6つの知恵”
  • データセンター移転とDRBD - Cybozu Inside Out | サイボウズエンジニアのブログ

    @ymmt2005 こと山泰宇です。今回は去る 5 月から 6 月にかけて行った、cybozu.com のデータセンター移転作業について、失敗してしまったことを中心に解説します。 失敗と書いたのは、移転作業中に何度か、一部のお客様環境でストレージ高負荷による障害を起こしてしまったためです。移転作業自体はスケジュール通り進行し、6 月第二週に完了しています。障害に関しては、こちら(PDF)でお詫びとご報告をしていますが、この記事では技術面ならびに障害を引き起こすにいたった背景について詳述します。 移転に至った背景 移転方式の検討 ストレージ同期の方法 DRBD による同期の詳細 まずは自社環境を移転、成功 そして障害は発生した なぜ障害につながったのか まとめ 移転に至った背景 まず、なぜデータセンターを移転することにしたかを説明します。 端的に言うと、当時のデータセンターが手狭になり拡張

    データセンター移転とDRBD - Cybozu Inside Out | サイボウズエンジニアのブログ
  • 1