タグ

システム障害に関するiR3のブックマーク (3)

  • ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

    同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。 1台での縮退運転を決断 4台の完全停止から37分後、ANAは1台のDBサーバー

    ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン
    iR3
    iR3 2016/03/31
    ふむふむ毎度原因はシスコのバグか!
  • ファーストサーバ最終報告書、ベテラン担当者のマニュアル無視を黙認

    ヤフー子会社のファーストサーバは2012年7月31日、6月20日に発生した大規模障害(関連記事)についての調査報告書(最終報告書)を公表した(写真)。報告書は、ファーストサーバに利害関係のない3人の委員による「第三者調査委員会」(関連記事)が作成した。同社Webサイトに「要約版」を掲載している。 報告書は調査対象とする事故を、6月20日に発生した「第1事故」と、第1事故で消失したデータが想定外の場所に復元された「第2事故」(関連記事)の2つとしている。 1人だけ自作プログラムでメンテナンス 報告書は、第1事故の事実関係について次のように言及している。ファーストサーバではシステム変更を実行する際、社内マニュアルに沿って実行することになっており、第1事故の原因となったシステム変更の担当者(A氏)以外は社内マニュアルに従っていた。 ところが、A氏だけはマニュアルに従わず、自作の「更新プログラム」

    ファーストサーバ最終報告書、ベテラン担当者のマニュアル無視を黙認
  • 株式会社IDCフロンティア

    IDCフロンティアのクラウドサービスが政府情報システムのためのセキュリティ評価制度(ISMAP... データセンター 2024年01月10日 【接続先追加】「バーチャルブリッジ」に主要IX事業者などの他事業者接続が追加 データセンター 2024年01月10日 令和6年能登半島地震の影響により、被災された地域のお客さまがご利用中のサービスについて支援措置を実施します。 サービス 2024年01月05日 新年のご挨拶 代表取締役社長 鈴木 勝久 その他 2024年01月04日 1月17日~19日に福岡で開催される「JANOG53 in Hakata」にブース出展します その他 2023年12月20日 ZDNET Japan Business&IT ClassWork supported by ... その他 2023年12月15日 IDCフロンティア、「AIサービスのためのデジタルインフラ」を

    株式会社IDCフロンティア
    iR3
    iR3 2012/06/25
    「ファイル削除コマンドを停止させるための記述漏れ」って何?? 原因は「誤ってファイル削除コマンドを実行したこと」が第一ではないの?
  • 1