タグ

障害に関するhinopapaのブックマーク (4)

  • KDDIが4G LTE通信障害の詳細を説明――設計・判断ミスが原因

    KDDIが1月16日、年末年始に発生した「4G LTE」の通信障害について、原因と対策を説明した。 12月31日の通信障害はアクセス集中、信号制御装置の設計ミスで発生 2012年12月31日の0時0分から2時55分にかけて、auの4G LTEのデータ通信が「利用できない」状況、そして同日2時55分から4時23分にかけて、同データ通信が「利用しにくい」状況が発生した。全国の地域で、最大180万回線に影響を及ぼした。 通信障害の発生原因について、KDDI 技術統括部 運用部長の内田義昭氏が説明した。今回の通信障害が発生したLTEネットワークは、「基地局制御装置」と「信号中継装置」、(7Gバイトなどの)通信量を制御する「加入者プロファイルサーバ」で構成されている。加入者プロファイルサーバは、アクセスが集中したときの対策として、各種装置からの信号を破棄する機能を備えている。12月31日の障害時

    KDDIが4G LTE通信障害の詳細を説明――設計・判断ミスが原因
  • システム障害はなぜ繰り返されるのか?(4) システム監視で障害を防ぐ

    ユーザー企業は、ベンダーがシステム監視をしていると考えているが、実は質的なシステム監視はしていない。コンピュータの死活監視をしていることでシステム監視をしていると考えている企業が大半なのである。正しくシステム監視をすればシステム障害を未然に防ぐことはできるだろうが、現状のシステム監視方法では未然防止は難しい。 現状のシステム監視方法の問題 現状のシステム監視方法は「死活監視」と「リソース監視」がある。死活監視は、その名の通りで、コンピュータが死んでいるのか、"活きて" いるのかを監視することが主目的で、具体的にはコンピュータの応答監視などを行う。死活監視により障害を検知した場合、自動復旧を行い、障害対応にかかる時間を短縮してダウンタイムを短くする。リソース監視は、CPU、メモリー、ディスクなどのリソース使用状況の監視である。 システム監視ソフトウェアの多くは、リソース監視を行うことで、シ

    システム障害はなぜ繰り返されるのか?(4) システム監視で障害を防ぐ
  • 新生銀行でシステム障害 約3万5千件の送金できず - MSN産経ニュース

    新生銀行は10日、システムトラブルが発生し、午前8時半ごろから午前11時までの約2時間半にわたり、他行あての送金ができなくなったと発表した。バックアップシステムに切り替えて処理を再開したが、主に個人顧客の送金取引のうち、約3万5千件について、同日中の処理ができない見通しだという。同行ではトラブルの原因を調査中だ。 同行によると、8日、9日にかけて全銀為替取引システムの移転作業を行い、10日朝に格稼働を始めたところシステムが停止。バックアップシステムへの切り替えが完了した午前11時まで、他行への送金ができなかった。 処理が遅れた取引は、11日朝に行う予定。同行は昨年4月にも現金自動預払機(ATM)やネットバンキングが一時使用不能となるトラブルを起こしている。

  • 相次ぐクラウドの大規模障害のあとで考える、これからのクラウド

    4月にはAmazonクラウドの米国東リージョンの一部でクラウドの障害が発生し、5月にはNTT PCコミュニケーションズのクラウドサービス「Cloud9」が障害を起こしました。 Amazonクラウドの大規模障害、そのときに内部で何が起きていたのか? 日語での要約 国内でもクラウド障害、復旧見通し立たず。NTTPCコミュニケーションズ Amazonクラウドの障害では、その上で動作していたFoursquare、Quora、Herokuなどこれまでにないほど広範囲のサービスに影響があり、またNTT PCコミュニケーションズのCloud9は障害を起こしたままサービスの復旧はならず、同社のクラウドサービスそのものが停止に追い込まれるという事態になりました。 これまでにないほどの規模の障害を経てこれからのクラウドがどう変化していくのか、少し思うところを書いておこうと思います。 ストレージ技術の発展に焦

    相次ぐクラウドの大規模障害のあとで考える、これからのクラウド
  • 1