タグ

problemに関するsaitokoichiのブックマーク (3)

  • ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

    同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。 1台での縮退運転を決断 4台の完全停止から37分後、ANAは1台のDBサーバー

    ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン
  • Microsoft Azureが10時間を超える障害。原因はストレージの性能改善のバグと運用のミスとの報告

    Microsoft Azureが10時間を超える障害。原因はストレージの性能改善のバグと運用のミスとの報告 マイクロソフトのクラウドサービス「Microsoft Azure」は、11月19日水曜日の午前10時前(日時間)から午後8時45分の10時間を超える長時間、ストレージや仮想マシンなど多くのサービスでサービスの中断や性能低下などの障害を引き起こしていました。 その原因について、Microsoft Azureのブログのエントリ「Update on Azure Storage Service Interruption」(日語訳「Azure Storage サービスのサービス中断について - Microsoft Azure Japan Team Blog (ブログ)」で報告されています。 この障害で影響があったのは、Azure Storage、StorSimple、Azure Backu

    Microsoft Azureが10時間を超える障害。原因はストレージの性能改善のバグと運用のミスとの報告
  • 米国全土でインターネットサービスの途絶が発生--BGPルーティングテーブルの巨大化で

    多くのTier1のインターネットサービスプロバイダー(ISP)や、さらにそうしたISPがサポートしている末端のISPは、技術的問題に直面しており、その結果、米国全土とカナダの一部地域ではインターネットサービスの状況が悪化している。 インターネットのエンジニアリングやアーキテクチャの専門団体である、北米ネットワークオペレーターズグループ(NANOG)のメーリングリストへの投稿によれば、「東部標準時8月12日午前4時〜5時頃から、複数のISPで大規模な問題が」生じているという。 NANOGや障害追跡サービスのDownDetectorによれば、Level 3やAT&T、Cogent、Sprint、Verizonなど多くのISPでは、8月12日に何度も深刻なパフォーマンス問題に悩まされたという。 そして問題の影響を受けているのはISPだけではない。 大半のISPはこのサービス途絶についてコメントし

    米国全土でインターネットサービスの途絶が発生--BGPルーティングテーブルの巨大化で
  • 1