タグ

障害に関するinnnervisionのブックマーク (62)

  • Googleのサービス障害、原因はルーティングのエラー

    Googleは5月14日、同社ユーザーの14%に影響したサービス障害について、ルーティングのエラーが原因だったと説明した。 システムのエラーが原因で一部のトラフィックがアジアに転送され、輻輳が起きたことが原因という。これによりGoogle検索、Gmail、YouTube、Google Analyticsなど複数のサービスで遅延や停止が起きた。 同社はこれを飛行機に例えて、このように説明している。「ニューヨークからサンフランシスコへ行くのに、飛行機がアジアの空港を経由したらどうなるか想像してほしい。しかも、ほかにもたくさんの飛行機がその経路を通ったために渋滞が起き、目的地に着くまで想定以上の時間がかかった。14日に当社の一部ユーザーに起きたことは、基的にはそういうことだ」 「われわれはサービスを超高速かつ『常時接続』にするべく取り組んできた。このような問題が起きるのは恥ずかしい」とGoo

    Googleのサービス障害、原因はルーティングのエラー
  • グーグル、ネットワーク接続障害を謝罪

    UPDATE Google検索、Google Docs、Gmailなどを含む、いくつかのGoogleの提供サービスが、社内で実施されたアップグレードに起因する大規模な障害に見舞われたことを、複数エンジニアが明らかにした。 McAfeeのセキュリティ脅威研究部門バイスプレジデントであるDmitri Alperovitch氏は、Googleが米国時間5月14日、これまでの標準ネットワークだったIPv4から、新たにIPv6へと移行を続ける中で、AS番号(Autonomous System Number)としても知られる、主要なインターネットルーティング番号の変更を試みたことを指摘している。その際、ある種のハードウェア障害や不具合が関係した、未確認のGoogleネットワーク内の「バグ」によって、インターネットサービスプロバイダー(ISP)の中には、インターネット上のGoogleの新たなAS番号を見

    グーグル、ネットワーク接続障害を謝罪
  • 三つの障害が連続発生、気象データ配信システムのダウンの経緯が判明

    2009年3月9日にダウンした気象データの配信システムが正常稼働までに17時間20分かかったのは、三つの障害が連続発生したからであることが分かった。ハードの二重化といった信頼性向上策を講じていたが、三つの障害が続いたことで、ダウンを回避できなかった。 一つめの障害は富士通製UNIXサーバー(OSはSolaris)のCPUボードの故障だ。電文形式データ配信システムでは、2台のサーバーによるホットスタンバイ構成を採用している。このうち番系サーバーが故障した。 すぐに待機系が稼働するはずが動かなかった。引き継ぎ情報を格納した制御系ファイルが壊れていた。これが二つめの障害だ。制御系ファイルは富士通製の共用ディスク上にあり、番系と待機系の双方からアクセスできる。サーバーの起動に不可欠だが壊れていたために引き継ぎ情報が読み込めなかった。 「電文形式データ配信システム」を管理する気象業務支援センター

    三つの障害が連続発生、気象データ配信システムのダウンの経緯が判明
  • JR東が新幹線システム障害の原因発表、前日のダイヤ乱れで修正が限界超え:ITpro

  • [速報]JR東の新幹線がシステム障害で始発から全面停止、復旧は午前8時に延期:ITpro

  • [続報]JR東の新幹線がシステム障害から復旧、前日データの反映に問題か:ITpro

  • JCBでシステム障害、キャッシング利用できず : 社会 : YOMIURI ONLINE(読売新聞)

  • りそな3行で週明けからネットバンク障害、収束も原因は究明中

    りそな銀行、埼玉りそな銀行、近畿大阪銀行の3行のインターネットバンキングのサービスで2008年10月13日から断続的に発生していたシステム障害が収まりつつある。同じシステムを利用する3行が週明け13日の午前9時、サービスを同時にリニューアルしていた。 インターネットバンキングを利用するには各銀行のホームページを経由する必要があるが、特に13日と14日の両日はそのホームページへアクセスしづらい状態が続いた。結果として、りそな銀行と埼玉りそな銀行の「りそなダイレクト」、近畿大阪銀行の「近畿大阪ダイレクト」の利用者に大きな影響が出た。 3行はインターネットバンキングだけでなくホームページもシステムを共有しているという。りそなグループと構築したベンダーはシステムを増強したり設定を変えるなどで対処。利用しにくい状態は16日午後1時の時点で解消している。ただし、「原因は究明している段階で、現時点で分か

    りそな3行で週明けからネットバンク障害、収束も原因は究明中
  • 全日空のCIO、搭乗システム障害について会見、「担当者の会話が不十分だったためのごく初歩的なミス」と反省の弁

    全日空幹部は2008年9月18日会見を開き、14日に発生したシステム不具合の原因を公表し反省を語った。払い戻しなど直接的な損失額は、全日空グループ全体で2億円。 原因は、既報されているように、チェックイン端末を管理するサーバー内の暗号化機能の有効期限の設定ミスによるもの。今回のトラブルについて、同社のCIO(最高情報責任者)である上席執行役員の佐藤透IT推進室長は、2点を挙げた。 1点目は、初動の対応のまずさ。発生当初、データセンターのシステムやネットワークに異常が無いことを確認したあと、北九州空港内の端末に問題があると勘違いして、現地の保守要員に修理を依頼していた。「ローカルな障害だと認識してしまい、(主要空港である)羽田は大丈夫かという発想がなかった」(佐藤室長)と話す。 2点目は、暗号化認証機能ソフトの有効期限切れを見逃した担当者の確認ミスについてである。「有効期限切れを2回防げるチ

    全日空のCIO、搭乗システム障害について会見、「担当者の会話が不十分だったためのごく初歩的なミス」と反省の弁
  • ANAのシステムトラブルに“さらに”改めて思うこと

    全日空の社長が1カ月分の報酬の50%を返上するそうだ。そのほか幹部10人を減俸処分。いったい、どんなとんでもない不祥事を引き起こしたのかと思ったら、9月14日のシステム・トラブルで多くの便が欠航したことに責任を取るとのこと。えっ、そんなことで・・・。「システム・トラブルが二度目なので重く受け止める」とのことだが、何か違和感がある。 確かに昨年に続き二度目で、影響も広範に及んだのから、たいしたことでないとは言わない。トラブルの原因も、チェックイン端末を管理するサーバーの設定ミスだそうで、かなりトホホな話。いわゆる“うっかりミス”というやつだ。だけど、「またもや社会に大迷惑をかけたシステム・トラブル」みたいに騒ぎ立てられる話なのかと思ってしまう。 このように書くと、間違いなく怒られるだろう。「ITは今や重要な社会インフラだ。実際、二度のトラブルで多くの人が迷惑をこうむった。いい加減なこと言うの

    ANAのシステムトラブルに“さらに”改めて思うこと
  • ANAのシステム障害、原因は「認証機能の有効期限切れ」

    全日空輸(ANA)は9月18日、14日に起きた大規模なシステム障害の原因は、空港のカウンターで係員が操作する端末を認証する際、認証サーバの暗号化認証機能の有効期限が切れていたためと発表した。 システム障害は14日未明に発生。端末に旅客データを取り込むことができなくなり、計63便が欠航、357便が遅延。約7万人に影響が出た。 原因は、端末認証管理サーバの暗号化認証機能の有効期限が9月14日1時44分までに設定されていたこと。空港のカウンターに設置された端末を係員が使おうとした際、暗号化処理でエラーが出た。 同サーバは2005年9月に導入した。当初は暗号化認証機能を使用するシステムがなく、有効期限を初期設定の3年(08年9月14日まで)のままにしていた。07年に認証機能を使い始めたが、有効期限の確認を怠っていた。 15日、16日は暫定的なシステムで運用し、原因を究明。有効期限が原因と特定し、

    ANAのシステム障害、原因は「認証機能の有効期限切れ」
  • 〔続報〕全日空の搭乗システムが暫定復旧、日付処理の問題が濃厚

    全日空輸で9月14日の始発便から発生していたチェックインシステムの障害による影響が解消に向かっている(写真1)。同日正午、全日空は羽田空港で報道陣に対して状況を説明した。 問題を起こしたのは「able-D」と呼ばれる国内旅客の搭乗手続きや手荷物管理を行うチェックインシステム。全日空はable-Dの端末と端末管理サーバーの間で行っている日付処理が問題と見極めて対処。午前11時から各空港の端末が順次利用できるようになった。 もっとも完全な復旧ではない。現段階では端末と管理サーバー間で日付を確認する機能を使わないように回避したもので「あくまでも暫定的な措置」(全日空 IT推進室)。ソフトウエアのバグやロジックなどのエラー、数値の設定ミスなどの根原因を特定できていない。「できるだけ早く突き止めて修正したい」(同)としている。なお、チケットレスの旅客が使う自動チェックインは別システムで、通常通り

    〔続報〕全日空の搭乗システムが暫定復旧、日付処理の問題が濃厚
  • 〔速報〕全日空の国内空港システムで障害、復旧のメド立たず欠航便も

    全日空輸の空港システムで障害が発生し、9月14日の始発便から国内線の一部で欠航や遅延が出ている。全日空によると午前9時の時点で国内の14便が欠航したか欠航を決めている。 トラブルは旅客の予約・搭乗手続きや手荷物の管理をするチェックインシステムで起こった。「able-D」と呼ばれるシステムで、国内空港の限定した範囲でチェックイン用の端末が利用できなくなっているという。乗客が搭乗の手続きをできないため、「飛行機が出発できない」「機材がないので折り返せない」という状況が出ている。 午前9時の時点でシステム復旧の見通しは立っていない。able-Dのシステムが起動しない状況で、自動チェックイン機は通常通り稼働している。昨年5月に大規模な障害を起こしたネットワーク関連のトラブルではないという。

    〔速報〕全日空の国内空港システムで障害、復旧のメド立たず欠航便も
  • 大和証券でシステム障害、取引所との接続に不具合で注文通らず

    大和証券は2008年9月12日、午前9時5分から9時41分まで株式注文システムに障害が発生したと発表した。すでに復旧し、正常に稼働している。障害原因は現在調査中。 障害の内容は大和証券のシステムから取引所のシステムへ注文を送信できなくなるというもの。大和証券の顧客からは正常に注文を受け付けているように見える。しかし、実際にはその注文が取引所まで届いていなかった。

    大和証券でシステム障害、取引所との接続に不具合で注文通らず
  • [情報システム]大規模システムを巡るトラブルや案件に関心

    2008年3月,新経営システムの開発中止を巡り,スルガ銀行が日IBMを相手に111億700万円の損害賠償を求める訴訟を東京地方裁判所に提起した。日経コンピュータの記者が,その経緯を追跡。関連ニュース2が「情報システム」サイトの2008年上半期(1~7月)のアクセスランキング上位を占めた(1位「【速報】スルガ銀が日IBMを提訴、システム開発の債務不履行による損害など111億円超を賠償請求」,3位「スルガ銀と日IBMの「動かないコンピュータ」裁判の訴状内容が判明、要件定義を3回繰り返す」,6位「スルガ銀行と日IBMのシステム開発失敗を巡る裁判がスタート」)。 東京証券取引所の株誤発注裁判の動向も,注目を集めている(2位「「富士通の開発ミスの全責任は東証にある」とみずほ証券、株誤発注裁判」)。これは,2005年12月にジェイコム株の誤発注により400億円を超える損失を出したみずほ証券が

    [情報システム]大規模システムを巡るトラブルや案件に関心
  • 「うっかり」ミスは無くせる

    あっ、と気づいたときは手遅れだ。 運用操作を間違えた、パラメータの変更を忘れた、障害対応を誤った――。 作業者の「うっかりミス」によるシステム障害が止まらない。 誌が過去3年に発生したトラブルの原因を調べたところ、全体の半分に達した。 作業者を責めたり責任者を処罰したりしても、ミスは減らない。 ミスを誘発する根的な原因を突き止めて対策を講じることが不可欠だ。 うっかりミスを無くす方策を探る。 (大和田 尚孝) 記事は日経コンピュータ7月15日号からの抜粋です。そのため図や表が一部割愛されていることをあらかじめご了承ください。「特集1」の全文をお読みいただける【無料】サンプル版を差し上げます。お申込みはこちらでお受けしています。 なお号のご購入はバックナンバーをご利用ください。 「ミサイル発射情報、当地域にミサイルが着弾する恐れがあります」。6月30日午後4時37分、福井県美浜町全

    「うっかり」ミスは無くせる
  • 東証システム障害 信頼性に大きな疑問符:ニュース - CNET Japan

  • 東証のシステム障害、設定ミスをテストでも見抜けず

    東京証券取引所は7月22日午後3時半から緊急会見を開き、同日午前に発生した派生売買システムの障害について説明した(関連記事1、関連記事2)。説明に当たった鈴木義伯常務取締役CIO(最高情報責任者=写真)によると「プログラムが使用するメモリー領域の設定ミスにより、取引の注文状況を表示する板の情報が配信できなくなった」という。ベンダーである富士通の作業ミスをテストでも発見できなかった。 板情報を配信するプログラムは来、1銘柄当たり1280バイトの作業用メモリー領域を2万8000銘柄分、合計3万5000Kバイト確保するよう記述しなければならない。だが、1銘柄当たりのメモリー領域を誤って4バイトとしてしまったため、プログラムは来の320分の1の109.375Kバイトしか確保しなかった。結果として89銘柄以上の板情報の問い合わせが同時に発生すると、作業用メモリーが足りなくなり、情報配信システムが

    東証のシステム障害、設定ミスをテストでも見抜けず
  • http://www.yomiuri.co.jp/atmoney/news/20080722-OYT1T00247.htm?from=rss&ref=newsrss

  • 米アマゾン・ドット・コムが再びダウン

    米国時間6月9日,Amazon.comのウェブサイトが再びオフライン状態になった。同サイトでは6日にも2時間にわたりサービスが停止した。 米国太平洋夏時間9日午前10時8分現在,Amazonのメインサイトには,「Http/1.1 Service Unavailable」というエラーメッセージが表示されている。このエラーメッセージは,6日にも表示されていた。 6日に機能停止に陥ったのは,米国のユーザーが利用するAmazon.comサイトだったが,9日には同社の英国サイトも機能停止に陥ったようだ。 太平洋夏時間午前10時59分:Amazonにコメントを求めたが,まだ回答はない。しかし,Amazonは販売者向けのフォーラムで一連の問題を認めた。以下は同社のコメントだ。「現在,ある問題が発生し,サイトパフォーマンスに問題が生じている。われわれのエンジニアが懸命に問題解決に取り組んでおり,今後もサー

    米アマゾン・ドット・コムが再びダウン