タグ

障害に関するionisのブックマーク (8)

  • ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

    同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。 1台での縮退運転を決断 4台の完全停止から37分後、ANAは1台のDBサーバー

    ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン
  • 実践!ヌーラボサービスでの CloudFront の障害対策 | 株式会社ヌーラボ(Nulab inc.)

    CDNが単一障害点にならないようにするために ヌーラボでは 2010 年 Cacoo の商用サービスの開始に合わせて AWS における運用を開始しました。当時、運用環境として AWS を採択する決め手の一つになったのが CloudFront でした。その後も着々とエッジロケーションは増え、独自ドメインのサポートなど魅力的な機能も提供され、今ではヌーラボの全サービスの静的ファイルの配信で利用している、無くてはならないサービスとなっています。 その魅力の反面、CloudFront の障害は、アプリケーションそのものに問題がなくても、以下のような表示が崩れた画面が表示されて、ユーザが全くサービスを使えなくなるという、その影響が非常に大きいものです。また障害の原因が DNS やネットワークの経路における問題といった、私たちが直接解決しにくい領域にあることもしばしばです。 ただ、どんな事情であれ、障

    実践!ヌーラボサービスでの CloudFront の障害対策 | 株式会社ヌーラボ(Nulab inc.)
  • 1/25のドコモ通信障害 原因は制御信号増加による交換機のオーバーフロー  - WirelessWire News(ワイヤレスワイヤーニュース)

    1月26日、NTTドコモは、1月25日午前中に発生したFOMA網の通信障害(参考記事:ドコモ 都心14区で通信障害、一時通話もできない状態に)について、詳細を発表した。 今回の障害の原因となったのはパケット交換機。同社では、スマートフォンによるトラフィック増大に対応するため、37台の無線制御装置について、現行パケット交換機から新型パケット交換機への切り替えを1月24日深夜から25日未明にかけて実施したが、25日午前8時26分頃から、トラフィックの増加により、この新型パケット交換機の状態が不安定な状態となった。 その後、午前9時頃からトラフィックがさらに上昇したため、ネットワークにおいて輻輳状態が発生し、ネットワークの自動規制によりパケットサービスおよび音声がつながりにくい状況となった。 ネットワークの輻輳状態改善のために、同社では午前10時56分頃から、パケット交換機を切替前の状態に戻す作

    ionis
    ionis 2012/02/23
    少数精鋭にしたら死んだ。
  • 制御信号とトラフィック – ドコモの障害に見るスマートフォンの影響 | 無線にゃん

    先日のドコモの通信障害で一躍時のキーワードとなった「制御信号」なのですが、これに関して、具体的に何を指しているのか、そしてなぜスマホではそれが増えるのか、というご質問をいただきました。 発表されたレベルだと具体的にどの「信号」を指しているのかあまり明らかではないのですが、おそらくは一般的には「シグナリング」と呼ばれているものを日語訳したところの「信号」ということであろうと仮定して話を進めます。 ドコモの発表では、「チャットやVoIPなど」と、あたかも特定のアプリケーションがこの「信号」を発生させるかのように書かれていますが、基的には、アプリケーションそのものは(一部の例外を除き)信号を発生させることはありません。あくまでアプリケーションはIPネットワーク上で通常のIPトラフィックを発生させるのみです。 では、実際の障害の原因となった制御信号とは一体何で、どんな時に発生するのか。できるだ

    ionis
    ionis 2012/02/23
    つまりコネクションをまめに切るなって事?電池ごりごり減らない?パケット待ちもするなってこと??アプリの層からだとそれぐらいしか出来ないような?
  • 調査報告書(全文)(PDF/510KB)

    調査報告書 2011 年 5 月 20 日 システム障害特別調査委員会 2011 年 5 月 20 日 株式会社みずほ銀行 御中 シ ス テ ム 障 害 特 別 調 査 委 員 会 委 員 長 甲 斐 中 辰 夫 委 員 門 口 正 人 委 員 後 藤 順 子 委 員 武 田 安 正 目次 1 調査報告書目次 第 1 調査の概要 ..........................................................................................................................1 1. 委員会設置の経緯..................................................................................................

  • Amazonクラウドの大規模障害、そのときに内部で何が起きていたのか? 日本語での要約

    4月21日から23日のあいだ、Foursquare、Quora、Herokuなど多くのサービスに影響を与えたAmazonクラウドの大規模障害。このとき実際にどのような障害が発生していて、どう対応したのか、詳しい日語での資料がAmazonから公開されています。 この資料は非常に詳細に記されているため、短時間で内容を把握できるものではありません。そこで記事では資料からポイントを引用し、要約してみました。 以下からの記事はあくまで独自に内容を要約したものです。正確な情報は原文をご覧ください。 今回発生した障害とは何だったのか? 今回発生した障害を手短にまとめると、米国東 (US East) リージョンにおける一部のアベイラビリティゾーンにおいて、Amazon Elastic Block Store (EBS) で読み込み、書き込み操作が行えなくなる、という現象でした。 そして障害の影響は一部

    Amazonクラウドの大規模障害、そのときに内部で何が起きていたのか? 日本語での要約
    ionis
    ionis 2011/06/08
    そういえば、まだ読んでなかった。おうちでよも〜。
  • Seagate製ハードディスクのファームウェアに致命的な不具合、起動不能・アクセス不能になることが判明

    Seagate製ハードディスクである「Barracuda 7200.11」「DiamondMax 22」「Barracuda ES.2 SATA」「SV35」の該当モデルにおいて、起動できなくなるという致命的な不具合が確認されたとのこと。一度起動できなくなり、認識できなくなると、中に保存されたデータにアクセスする方法はほぼ皆無になるものの、データが消滅したわけではないので、ファームウェアアップデートで対処できるようです。とは言っても、起動不能・アクセス不能になるというのはまさに致命的な問題です。 これは2008年12月以前に製造されたファームウェアを搭載しているモデルについて発生する問題であり、Seagateから配布されているツールを使うことによって問題のあるモデルかどうかを特定することが可能。 自分のハードディスクが該当するものかどうかチェックする方法は以下から。 Seagate Kno

    Seagate製ハードディスクのファームウェアに致命的な不具合、起動不能・アクセス不能になることが判明
    ionis
    ionis 2009/01/19
    seagate製のHDDの不具合。調べ方へのリンクもある。
  • こせきの技術日記 - Rails + MySQL (+ Mongrel?) でDB接続の通信が無い状態が続くとデッドロックする。

    (追記) この問題について、原因はRubyの側にあるのではないかと考えています。特定の条件下でTCPSocket#flushを実行すると、スレッドが停止したまま処理が戻ってこなくなります。以下の投稿で、Railsを使わず再現する方法を説明しました。 http://blade.nagaokaut.ac.jp/cgi-bin/scat.rb/ruby/ruby-list/43356 (追記おわり) 開発サーバが翌日になるとデッドロックする、という現象が続いていて悩みました。 解決方法は、MongrelのFAQに上がっていました。 http://mongrel.rubyforge.org/faq.html Q: Mongrel stops working if it’s left alone for a long time. If you find that Mongrel stops work

    こせきの技術日記 - Rails + MySQL (+ Mongrel?) でDB接続の通信が無い状態が続くとデッドロックする。
  • 1