タグ

ネットワークと障害に関するbluedayのブックマーク (2)

  • ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

    同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。 1台での縮退運転を決断 4台の完全停止から37分後、ANAは1台のDBサーバー

    ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン
  • ドコモに何が起きたのか 大規模障害に垣間見える、顕在化するスマホ時代の課題

    ドコモに何が起きたのか 大規模障害に垣間見える、顕在化するスマホ時代の課題:神尾寿のMobile+Views(1/2 ページ) 既報のとおり、1月25日に東京都内でNTTドコモの大規模通信障害が発生した。障害は朝8時26分に発生し、約4時間40分後の13時8分に復旧。対象エリアは東京都の14区(葛飾区・江戸川区・江東区・港区・新宿区・千代田区・中央区・品川区・文京区・墨田区・大田区・目黒区・渋谷区・世田谷区)であり、最大252万人のユーザーに影響が出た。東京都心部で、しかも平日の昼間に発生したため、かなり深刻かつ大規模な障害であったことは言うまでもない。 25日の通信障害を受けて、NTTドコモは26日に報道関係者向けの緊急記者会見を実施。NTTドコモ 取締役常務執行役員の岩崎文夫氏が中心になり、障害の原因と今後の対策について説明した。 ドコモの大規模通信障害はなぜ発生したのか。その原因と、

    ドコモに何が起きたのか 大規模障害に垣間見える、顕在化するスマホ時代の課題
  • 1