タグ

障害に関するlackofxxのブックマーク (5)

  • KDDI高橋社長が通信障害を陳謝、原因はコアルーター交換時の不具合とアクセス集中

    今回の通信障害では、音声電話やSMSが一時つながらなくなったほか、データ通信がつながりにくかったり途切れたりといった状態になった。影響を受けた回線数は7月3日午前11時時点の概算で最大約3915万回線。内訳はスマートフォン・携帯電話が同約3580万回線、MVNO(仮想移動体通信事業者)向け回線が同約140万回線、IoT(インターネット・オブ・シングズ)回線が同約150万回線、「ホームプラス電話」回線が同約45万回線。 通信障害のきっかけとなったのは、メンテナンスの一環としてモバイルコア網と全国各地の中継網をつなぐコアルーターのうち、1拠点で旧製品から新製品へ交換する作業。これに伴い通信トラフィックのルート変更を実施している際に「VoLTE交換機でアラームが発生した」(高橋社長)。確認したところ「ルーターのところで何らかの不具合が起き、一部の音声トラフィックが不通になったことが判明した」(同

    KDDI高橋社長が通信障害を陳謝、原因はコアルーター交換時の不具合とアクセス集中
  • みずほ銀行システム障害に学ぶ

    みずほ銀行システム障害の調査報告書が公開されたのがニュースになって、Twitterなどで色々な人がコメントをしているのを見た。140文字しか書けない空間で他人の失敗談の揚げ足取りをするのは簡単だが、そこからは一時の爽快感以外に何も得るものがないので、僕はそういうのはカッコ悪いと思っている。 そこで、ちゃんと読んでみたら全く他人事でない部分も沢山あるし、非常に面白く勉強になったので、ブログにまとめてみる。 技術的な話 銀行のシステムがどのようになっているのか、全然イメージが湧いていなかったので、それがまず勉強になった(p.29)。 トラフィックのソースに応じて用意された色々なシステムから基幹システム「MINORI」の取引メインバスにトラフィックが流れ、そこから各種システムへとリクエストが送られていく。この辺はService Oriented Architectureらしい。開発当時としては(

    みずほ銀行システム障害に学ぶ
  • Google、12月14日の約45分間ダウンの原因と対策を詳解

    Googleは12月18日(現地時間)、12月14日の約45分間にわたる多数のサービスダウンの原因と今後の対策について、ステータスダッシュボードで説明した。 この障害は、14日の午前3時46分(日時間では14日の午後8時46分)から47分間続き、Googleのログイン認証サービス「OAuth」を採用するGmailやWorkspaceなどの一連のサービスが影響を受けた。 大まかに要約すると、根的な原因は、10月にユーザーIDサービスを新しいクォータシステムに登録するための変更を行ったが、その際に古いクォータシステムの一部が残ってしまい、誤った報告があったことという。ユーザーIDサービスの使用量が誤って0と報告されたため、クォータ制限が続いて最終的に期限切れになり、自動クォータシステムがトリガーされてユーザーIDサービスのクォータが減少した。 意図しないクォータ変更を防止するための安全性

    Google、12月14日の約45分間ダウンの原因と対策を詳解
  • 三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障

    マスターデータから中間加工ファイルを作成するバッチ処理のシステムでHDDが故障し、障害が発生した。三菱UFJニコスによれば、HDD15個で一連の機能を果たしており、そのうち3個が同時に故障した。「2個までの同時障害は自動復旧可能な仕組みを設けていたが、3個の故障は想定外だった」(広報)。同社はシステムやHDDの開発企業を明らかにしていないものの、「発生確率は極めて低いとの報告を受けている」という。 故障したHDDは、障害が発生した2017年12月26日中に交換したが、利用会員の売上データ処理などに遅れが発生した。一部の利用会員に2重請求が発生したほか、請求が遅れるなどの事態につながった。同社はシステム機器の監視体制を強化するなどして対策を講じるという。

    三菱UFJニコスのシステム障害の原因が判明、3個のHDDが同時に故障
  • [速報]mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了

    8月10日の17時20分頃から12日未明までの長時間にわたり、サービスが利用不能もしくは利用しにくい状況になっていた「mixi」。数度の断続的な復旧ののちに、日12日午前1時50分頃には復旧が完了し、現時点で全面的に復旧しているようです。 その障害の経緯について株式会社ミクシィの広報からプレスリリース「『mixi』のアクセス障害のお詫び及び復旧に関するお知らせ」として発表されました。 原因はアクセスの急増ではなかった プレスリリースの中で、今回の障害の原因は以下のように説明されています。 『mixi』のデータベースへの負荷軽減のために導入しているデータキャッシュシステムが複数同時に異常終了したことに伴い、データベースへの負荷が急増したため『mixi』を閲覧しづらい状態となりました。 高負荷かつ特殊な状態でのみデータキャッシュシステムの異常終了が発生していたため、根的な原因の究明に時間が

    [速報]mixiが障害の経緯を発表。原因はお盆のアクセス急増ではなく、memcachedの異常終了
    lackofxx
    lackofxx 2010/08/12
    こういう運用ノウハウ的なのは貴重ですね。
  • 1