タグ

障害とITproに関するobata9のブックマーク (11)

  • IP電話の大規模障害を食い止めよ(2)IP電話障害長期化の三つの理由

    東西NTTのひかり電話の障害だけでなく,IP電話サービスはこれまで数々の障害を起こしてきた。そしてその障害は長時間,広範囲に及びやすい傾向がある。 長期間に及びやすい理由は次の三つ。(1)機器の性能評価の難しさ,(2)他の機器に障害が波及しやすいこと,(3)サーバー再起動が安易にできないこと,である(図3)。これらを克服しないと,IP電話が固定電話並みの信頼性を勝ち取ることはできない。 図3●IP電話のトラブルが長期化する要因 ノウハウの不足や汎用的なサーバー機を組み合わせたシステム構成ならではの障害切り分けの難しさ,さらに緊急通報を担う「ライフライン」として安易なサーバー再起動が難しいことなどがトラブルを長期化している。 性能評価の「考えが甘かった」 2002年4月に商用IP電話サービス「BBフォン」を開始したソフトバンクBBは,サービスを開始した矢先の同年6月,サービス停止にまで至る障

    IP電話の大規模障害を食い止めよ(2)IP電話障害長期化の三つの理由
  • NTT東のフレッツ・トラブル,「ルート再計算により・・・」の真相:ITpro

    NTT東日/西日のひかり電話サービスやフレッツ・サービスはトラブルが続く。その都度、原因を明らかにしてきたが、5月15日に発生したNTT東日のBフレッツのトラブルについてはその原因の説明に納得できなかった。「IP伝送装置のパッケージ交換をきっかけに、ルート再計算の負荷が増え、14都道県のフレッツ網がダウン」。装置が故障するのはよくあること。それに伴うルート再計算で大半のフレッツ網がダウンするとは・・・。やはり、その真相は単純ではなかった。 14都道府県のフレッツ・サービスなどがダウン 5月15日20時、NTT東日は18時44分ごろから「フレッツ・サービス」および「ひかり電話」の一部ユーザーがサービスを利用できなくなっていると発表した。神奈川、千葉、埼玉を除く東日のサービス・エリア14都道県でサービスが利用できなくなった。東京は23区以外の一部のユーザーに影響が出た。 その後、IP

    NTT東のフレッツ・トラブル,「ルート再計算により・・・」の真相:ITpro
  • 相次ぐシステム障害の真因を追う:ITpro

    全日空輸(ANA)の空港システムで障害が発生し,2008年9月14日の始発便から国内線の一部で欠航や遅延が出た。旅客の予約・搭乗手続きや手荷物を管理するチェックインシステム「able-D」に異常が発生し,国内空港の限定した範囲でチェックイン用端末が利用できなくなった。 全日空のCIO,搭乗システム障害について会見,「担当者の会話が不十分だったためのごく初歩的なミス」と反省の弁 [2008/09/18] [速報]全日空が搭乗システム障害の原因特定,接続の有効期限を設定ミス [2008/09/18] 国交省が全日空に指導,「5・27」の教訓を生かせたか [2008/09/17] 〔続報〕全日空の搭乗システムが暫定復旧,日付処理の問題が濃厚 [2008/09/14] 〔速報〕全日空の国内空港システムで障害,復旧のメド立たず欠航便も [2008/09/14] 東京証券取引所で2008年7月22日

  • 【ANA障害】システム対策に3億円投資、欠航の減収は4億円

    全日空輸(ANA)は5月末の大規模障害を受けて、システムの増強や改善の対策に2億~3億円の資金を投じる。また、欠航による減収は約4億円であることが分かった。6月13日の会見でANAが明らかにした(関連記事)。合計で約7億円となり、ブランド・イメージの低下とともに、大規模障害の影響の大きさを裏付けた。 システムについては、問題となったスイッチ間の経路を2重化から4重化に、ゲートウエイ・サーバーの能力増強、スイッチやサーバーにおけるフェイルセーフ機能の実装など全面的に対策を実施する。これを含めて全体で2億~3億円の投資を見込んでいる。 減収部分の内訳は、5月27日の当日を中心とした旅客の搭乗キャンセルが約4億円だった。このほか、現時点で顧客の利用したタクシーやホテルの代金として4000万~5000万円を拠出している。今後、全国の空港での集計が終わっていないため、額は増える見通しだ。 なお、A

    【ANA障害】システム対策に3億円投資、欠航の減収は4億円
  • 【続々報】年金システム障害の原因はミドルウエアのバグ、6年を経て顕在化

    社会保険庁は6月12日、年金システムで先週日曜日に障害が発生した問題について、原因はオンライン・システムを制御するミドルウエアの不具合だったと発表した。障害が発生したのは年金オンライン・システムが稼働する9台のメインフレームのうち3台。10日午前8時30分から最長で2時間半、この3台につながる全国23県合計130の社会保険事務所で端末が起動せず、年金の照会業務ができなかった(関連記事)。 年金オンライン・システムの開発と運用を担当するNTTデータによれば、ミドルウエアの不具合は「01年3月の稼働以来、潜んでいたもの」(広報)という。このミドルウエアは、各事業所がオンライン・システムを何時から何時まで使うかという情報をテーブルで管理する。しかしテーブル領域が不足すると何らかの理由でミドルウエアが起動しない不具合があった。 今回、3台のメインフレームでは、金曜日に延長稼働させ土日も連続運転さ

    【続々報】年金システム障害の原因はミドルウエアのバグ、6年を経て顕在化
  • やりきれない“動かないコンピュータ”

    年金問題に関する報道が連日繰り広げられている。昨日の日経朝刊1面には「年金番号 重複なお2万件」という見出しが躍った。来,公的年金の加入者1人ひとりに割り振られるはずの「基礎年金番号」が同一人物に重複して付けられているケースが,昨年10月時点で2万件も残っていることが明らかになった,というのだ。 ここで,年金問題の解決に向けた今後のシステム化の行方について議論することは,先日の記者のつぶやき『謎が謎を呼ぶ「IT年金問題」』と重複するので控えたい。ただ,この問題で露呈した数々の事実は,企業情報システムの構築・運用や,そのマネジメントにかかわる人々にとって大きな示唆と問題を投げかけていると思うので,この観点から改めて考えてみたいと思う(6月10日に起きた年金システムの障害については関連ニュースを参照)。 「元々が紙データ(非電子データ)であった名前を電子化するということは,とても大変な作業な

    やりきれない“動かないコンピュータ”
  • NTTのひかり電話障害はコマンド間違いが原因、待機系は稼働せず

    NTT東日NTT西日は5月24日、昨日午前にIP電話サービス「ひかり電話」が両社の間で不通になったトラブルについて詳細を発表した。問題を起こしたのは、両社のひかり電話網をつなぐ中継網内の呼制御サーバー。入札によって、NTT東子会社のNTT-MEが提供している。 NTT-MEは5月21日深夜から22日早朝にかけて、呼制御サーバーのハードディスクを予防的な保全作業で交換。この際に作業員が入力したコマンドに誤りがあり、ハードディスク内の一部データが損壊した。そして23日午前6時25分、損壊したデータが呼制御サーバーのメモリに読み出されダウンしてしまった。 問題となった呼制御サーバーには、待機系のサーバーとハードディスクも用意されていた。ただ、待機系に切り替わるのはサーバーのハードウエア故障の場合で、今回のようなソフトウエアに起因するものはそれ以外のケースとなる。手動で待機系に切り替えること

    NTTのひかり電話障害はコマンド間違いが原因、待機系は稼働せず
  • 利用者にスキルを求める?“ひかり電話”

    順調に契約者数を伸ばすNTTのBフレッツ。その牽引役の1つになっているのが,IP電話サービス「ひかり電話」だろう。私もすでに2年近くひかり電話を利用しているのだが,ここ半年に3度ほど,トラブルに遭遇した。1回目は2006年9月に発生した,ひかり電話がつながりにくいというトラブルだ。これについては過渡的なトラブルととらえていた。だが,2回目,3回目のトラブルでは,その対応にやや疑問を感じた。 ルーターの電源を入れ直すとひかり電話がつながらない 2回目と3回目に発生したトラブルの要因は共通で,ひかり電話対応ルーター「WBC V110M」の電源を入れ直すと,ひかり電話が利用できないというものだ。 2回目のトラブルは2006年12月の深夜0時すぎに起きた。インターネット接続ができなくなったので仕方なくひかり電話対応ルーターなどの電源を入れ直して回復を試みたことがきっかけだった。インターネット接続は

    利用者にスキルを求める?“ひかり電話”
  • 郵貯、最大1万691件が引き落とし不能に

    郵政公社は1月12日、1月4日から10日にかけて、システム障害により、郵便貯金口座で一部の自動引き落としができなかったと発表した。引き落としができなかった事業者は最大で1243社、1万691件にのぼる可能性がある。 障害の原因は、誤った引き落としを防止するためのシステム変更だ。収納事業者の口座番号と固有の顧客番号をチェック項目として追加した。これを1月4日から適用した。詳細については現在調査中。11日からは旧システムに戻すことで、正常に引き落としができているという。 同公社は引き落としができなかった事業者や利用者にお詫びするとともに、事業者とは再引き落としの方法などについて、今後協議するとしている。

    郵貯、最大1万691件が引き落とし不能に
  • ひかり電話はなぜトラブルが続くのか:ITpro

    9月に3日間連続でひかり電話の障害を起こしたNTT東日に続き,NTT西日でも10月23日からの3日間にわたり,ひかり電話で障害が続いている。日経コミュニケーションでは9月の障害を受けて11月1日号に緊急特集「ひかり電話が明らかにしたIP電話運用の危うさ」を掲載したが,その取材で判明した事実などから今回の障害を考察したい。 ひかり電話のシステム構成はNTT東日と西日でほとんど違いはない。どちらも端末と直接やり取りする加入者系の呼制御サーバー(以下,こちらを単に呼制御サーバーと記す)と,固定電話などとのゲートウエイとして働く中継系の呼制御サーバー(以下,こちらを中継系サーバーと記す)から成る。加入者系の呼制御サーバーが,コンシューマ向けひかり電話と中小企業向けのオフィスタイプをつかさどるものと,ビジネスタイプ向けに分かれているのも同じである。呼制御サーバーはそれぞれ担当するユーザーが決

    ひかり電話はなぜトラブルが続くのか:ITpro
  • 【続報】NTT東のひかり電話,トラブル原因の詳細が判明

    NTT東日は9月25日,19日から21日まで続いたひかり電話のトラブル原因を特定し,報告した。 同社によれば今回大きく二つの部分で不具合があった。一つはひかり電話ビジネスタイプ用の呼制御サーバー。毎秒100コール以上を処理できる設計になっていたが,実装のミスによりある機能を使っているユーザーでは10コール程度で遅延が発生。輻輳(ふくそう)がおこり,つながりにくくなった。 具体的には,「複数ゲートウエイスリップ機能」の実装に問題があった。複数ゲートウエイスリップ機能とは,アナログ回線用のPBX装置にIP網とのゲートウエイ装置を複数接続し,あるゲートウエイ装置につながる回線がすべて話中の場合,残りのゲートウエイに順番に切り替えていくもの。ひかり電話ビジネスタイプのうち,約30のユーザーがこの機能を使っていたが,19日に新規利用を初めたユーザーに多くの呼が集まり,不具合が表面化した。23日にソ

    【続報】NTT東のひかり電話,トラブル原因の詳細が判明
  • 1