タグ

システム障害に関するarrayszkのブックマーク (2)

  • 2012年7月3日 うるう秒がLinuxシステムを直撃! わかっていても避けられなかったトラブル | gihyo.jp

    Linux Daily Topics 2012年7月3日うるう秒がLinuxシステムを直撃! わかっていても避けられなかったトラブル すでにあちこちでニュースになっているので、ご存じの方も多いかと思うが、グリニッジ標準時で6月30日の深夜、地球の自転にあわせるためにうるう秒(a leap second)が23時59分60秒として挿入された。そしてこの1秒が世界各地のコンピュータシステムをちょっとした混乱に陥れたのである。Linuxもその例外ではなく、いくつものトラブルが報告されている。 今回のうるう秒トラブルの多くはコンピュータの内部時計を調整するNTP(Network Time Protocol)に正しく情報を伝達できなかったことが主原因だとされている。Linuxではカーネルバージョンが2.6.26以上のシステムで頻発したようだ。 Linuxで起こったトラブルの中では、「⁠Server

    2012年7月3日 うるう秒がLinuxシステムを直撃! わかっていても避けられなかったトラブル | gihyo.jp
  • 東証、システム障害の原因は「人為ミス」、診断レポートを“解読”できず

    東京証券取引所は2月16日、2月2日に発生した大規模システム障害について、「(東証の)職員が主体的にシステムの状態を確認せず、問題なしと判断した」ことが原因だったと発表した。東証のシステム子会社である東証システムサービス(TSS)の担当者と、保守ベンダーである富士通のSEが診断レポートを誤認し、東証の職員が経営陣に適切な報告を怠っていたことが、対応の遅れにつながったことも明らかにした(関連記事)。 障害を起こしたのは取引関係者に相場情報を配信する「情報配信システム」。サーバー3台を1セットとし、8セットで構成する。東証はサーバーを三重化しており、1台のサーバーに障害が発生した場合、残り2台に自動的に切り替えて処理を継続する。東証は切り替えに成功したと考えていたが、実際には失敗しており、同日午前中の一部銘柄の取引停止につながった。 経緯はこうだ。 午前1時27分、1台のサーバー(ノードA)で

    東証、システム障害の原因は「人為ミス」、診断レポートを“解読”できず
  • 1