タグ

トラブルに関するhiragisanのブックマーク (199)

  • 9月20日に発生したAmazonクラウドのDynamoDB障害。原因はセカンダリインデックス増大によるメタデータ処理のパンク

    9月20日に発生したAmazonクラウドのDynamoDB障害。原因はセカンダリインデックス増大によるメタデータ処理のパンク Amazonクラウドが提供しているDynamoDBは、キーバリュー型のNoSQLデータベースサービスです。運用管理はクラウドに任せられて簡単に利用でき、高速かつ非常に大規模なスケールで展開できることなどを特長とする、クラウドならではのサービスの1つです。 そのDynamoDBで、米東リージョンにおいて9月20日午前2時頃(太平洋夏時間)から午前7時頃まで障害が発生。DynamoDBを利用しているEC2 Auto Scaling、Simple Queue Service、CloudWatch、そしてコンソールなどにも一時的な障害が発生していました。 また、この障害はAmazonクラウドを利用している他社のさまざまなサービスにも影響を与えたと報じられています。 Amaz

    9月20日に発生したAmazonクラウドのDynamoDB障害。原因はセカンダリインデックス増大によるメタデータ処理のパンク
    hiragisan
    hiragisan 2015/09/29
    「障害からの復旧時に行われるメタデータの処理時間が予想以上にかかるようになり、メタデータの処理がパンク」
  • 技術評論社のウェブサイト改ざん被害、詳細な経緯が公表される | スラド セキュリティ

    技術評論社のWebサイト(gihyo.jp)が、12月6日11時から14時のあいだ、改ざんされていた件について、技術評論社がその詳細を発表した。 これによると、gihyo.jp上のコンテンツが入れ替えられ、アクセスしたユーザーが外部サイトにリダイレクトされるようになっていたという。経緯としてはフィッシングサイトに引っかかり、Webサーバーの管理用コントロールパネルに不正アクセスされてしまったのが発端のようだ。また、サーバーを管理しているさくらインターネットとの認識の違いにより攻撃者がログインできるルートをふさいでいなかったためサイト改ざんに至ったとも報告されている。 gihyo.jpはさくらのVPSを使って運用されていたとのことで、管理コントロールパネルへのアクセス権限を奪取した攻撃者はOSの入れ替えを行うことでサーバーを乗っ取ろうとしたようだ(技術評論社が公開している経緯詳細)。 経緯詳

    hiragisan
    hiragisan 2015/09/13
    「一時攻撃者とサーバの取り合いを演じていました」とかギャグみたいだ
  • データセンターに落雷を受けてデータ消失したGoogle Comput Engine、詳細な報告公開。原因はバックアップバッテリーの不備など

    ヨーロッパにあるGoogleデータセンターが落雷を受け、ごく一部ではあるものの顧客がクラウドに保存していたデータを失ったことが報告されています。 これはどのようなインシデントだったのか。詳細が「Google Compute Engine Incident #15056」で報告されていますので、Publickeyが翻訳したものを引用しつつ紹介しましょう。 落雷により、全体の0.000001%以下のデータを消失 インシデントの最終報告は8月18日付けの「Google Compute Engine Incident #15056」で行われています。 それによると、落雷による一時的な電力の消失により、ヨーロッパ西1bゾーン全体の物理容量の0.000001%以下(一千万分の一以下)のデータが失われたとのことです。 2015年8月13日木曜日から8月17日月曜日まで、ヨーロッパ西1bゾーンにおけるG

    データセンターに落雷を受けてデータ消失したGoogle Comput Engine、詳細な報告公開。原因はバックアップバッテリーの不備など
    hiragisan
    hiragisan 2015/09/13
    「ストレージシステムの電力が一時的に失なわれた」「最新の書き込みとしてストレージに保存されたデータの一部は、…電力喪失の影響を受けやすい場所にあった」よくわからない
  • [続報]CAFIS障害はFEPサーバーのダウンが原因、3割のクレカ決済に影響

    NTTデータは9月6日、5日にクレジットカード決済インフラ「CAFIS(キャフィス)」に障害が発生した原因について、ハードウエア障害によるサーバーダウンだったことを公表した(画面)。5日の午後4時6分ころから午後5時39分までCAFIS経由でのクレジットカード取引に影響が生じた(関連記事:CAFISに障害、全国的にクレカ決済が2時間ほど利用できず)。「障害中は3割の取り引きを処置できなかったり遅延したりした」(NTTデータ広報)という。 障害の直接原因はFEP(フロントエンドプロセッサ)サーバーと呼ぶ、大量の処理を振り分けるサーバーがダウンしたこと。ハードウエアが不安定になり、それをコントロールするミドルウエアも制御しきれず、ダウンしたという。 FEPサーバーは複数台あるが、そのうちの1台がタウンした。SEが状況を把握、判断した上で待機系のサーバーに切り替えて復旧させたという。サーバーが不

    [続報]CAFIS障害はFEPサーバーのダウンが原因、3割のクレカ決済に影響
    hiragisan
    hiragisan 2015/09/13
    「大量の処理を振り分けるサーバーがダウンした」自動切り替えじゃないのか
  • [続報]「Yahoo!メール」障害で258万通のメールが消失

    2015年9月6日、ヤフーは同年8月28日に発生した「Yahoo!メール」の障害に伴って、顧客メールの一部が消失したと発表した(関連記事:「Yahoo!メール」260万ユーザーが使えず、ストレージのソフト障害が原因)。消失したのは、同障害の影響を受けた約260万ユーザーのうち、約97万ユーザーの受信メール約258万通。ヤフーは8月28日の障害復旧時点で「メールの消失はない」と告知していたが、それを訂正し、「改めておわび申しあげる」(ヤフーのWebサイト)としている(図)。 「Yahoo!メール」の障害は2015年8月28日午前10時20分ころに発生、同日の午後8時ころに復旧した。障害発生中の受信メールについても、翌29日午前1時ころには復旧。ところが2015年9月3日に顧客からの問い合わせで調査したところ、受信メールの消失が判明。影響範囲やメール復旧の可能性などを調べてきた結果、約258万

    [続報]「Yahoo!メール」障害で258万通のメールが消失
    hiragisan
    hiragisan 2015/09/13
    「バックアップシステムを準備しているが、これに不具合があった。障害発生中の受信メールをバックアップシステムから本番系システムにリストアする作業中に、一部のメールを消失させてしまった」
  • 住信SBIネット銀がシステム障害、現在は通常通り回復

    住信SBIネット銀行は2015年9月8日、7日午後10時過ぎにシステム障害が発生し、Webサイトへのアクセスやログイン、各種取引のほか、ATMの利用ができなくなったと発表した。順次復旧して8日午前3時ごろまでに全て回復し、現在は通常通りサービスを利用できるという。 発表によると、システム障害は7日午後10時11分ごろ発生した。勘定系システムのサーバーで起きたハードウエア障害が原因とみられるという。この障害で残高照会や振替、定期預金、外貨預金の取引のほか、他行振り込みやATMでの取引、SBIカードからの口座振替申し込み、SBIカードへの入出金、SBI証券連携サービスが利用できなくなった。同行は今後速やかに原因を究明して再発防止に努めるとしている。 同行は2011年9月にシスコシステムズのスイッチである「Catalyst 6500」の故障を引き金に全サービスが10時間停止する障害が起きた経緯が

    住信SBIネット銀がシステム障害、現在は通常通り回復
    hiragisan
    hiragisan 2015/09/13
    ハードウエア障害
  • 外為どっとコムで約8時間ログインできず、原因はネットワーク障害

    外国為替証拠金取引(FX)大手の外為どっとコムで2015年7月13日、ネット取引システムにおいて断続的にシステム障害が発生した(画面)。同日午後1時20分ごろから3時ごろにかけて、全サービスに全くログインできない状況になった。午後3時すぎにいったん復旧させたが、動作が不安定だったため、3時半ごろから再び全面停止してメンテナンスを実施した。 その後同日午後9時50分ごろにシステムを復旧させた。翌14日午前中の時点では正常に稼働しているという。 同社経営企画部の説明によれば、13日午後に内部のシステム監視でログインできない事象を把握し、1時20分ごろにサービスを停止させた。直接の原因はネットワーク機器の故障だという。これをシステムから切り離すと共に、複数のデータベースサーバーの不整合を回避するための措置を取ったうえで、午後3時すぎにサービスを再開させた。 だが、再開後もログインはできるものの取

    外為どっとコムで約8時間ログインできず、原因はネットワーク障害
    hiragisan
    hiragisan 2015/07/20
    「ネットワーク機器の故障」
  • 12日夕方からauでメール障害

    hiragisan
    hiragisan 2015/07/20
    「予備系統の設備で小規模な発火が起きた。…消火設備が作動、フロアを遮断し、空調設備を止めたところ、室内の気温が上昇した。…同じ室内にあった本系統のメールサーバーが設備保護のため自動的に停止」
  • Engadget | Technology News & Reviews

    Research indicates that carbon dioxide removal plans will not be enough to meet Paris treaty goals

    Engadget | Technology News & Reviews
    hiragisan
    hiragisan 2015/07/12
    「フライバイに関するコマンドを送信したタイミング」
  • 富士火災のシステム障害、原因はバッチ積み残し 復旧後も申込書の滞留続く

    AIG傘下の富士火災海上保険は2015年5月18日朝、システム障害の抜的解決のために15日から全面停止していた基幹情報システムを再稼働させたと発表した(画面)。19日夕方の時点では正常に稼働しており、保険契約者への直接の影響はない。ただし、保険代理店向けのアクセス制限は続いており、制限解除のメドは立っていないとしている。 同社経営企画部の説明によれば、システム障害の発端は5月11日に実施したプログラム変更だったという。このプログラムに不具合があったため、営業時間外に予定していた夜間バッチ処理が中断してしまい、処理を積み残した。 翌日以降、積み残したバッチ処理を実行し並行してプログラムの修正を試みたものの失敗。処理が重なってシステムの処理能力に余裕がなくなり、14日まで保険申込書の新規登録や事故の受付といったオンライン処理が断続的に停止する事態になった。 15日に抜的な問題解決のため、

    富士火災のシステム障害、原因はバッチ積み残し 復旧後も申込書の滞留続く
    hiragisan
    hiragisan 2015/05/23
    「プログラムに不具合があった」「処理が重なってシステムの処理能力に余裕がなくなり」
  • [続報]大阪市のシステムでまた不具合、誤った日付の住民票写し約700件発行

    大阪市は2015年1月6日、システムの不具合のために、区役所など市の窓口で発行した「住民票の写し(世帯連記式)」のうち約700件で、日付を誤って記載していたことが判明したと発表した(画面)。 1月5日から稼働した新システムへのデータ移行時にミスがあったためだという。誤りがあるのは1月5日発行分で、同日の業務終了後に修正処理を施したため、1月6日以降の発行分には誤りはないとしている。 大阪市の説明によれば、誤って記載されたのは、住民票の写しの中の「住所を定めた年月日(住定日)」の項目である。住定日には「個人の住定日」と「世帯の住定日」があり、ある世帯に別の人が引っ越してきた場合などは、両者の日付は異なる。誤りが判明した約700件の住民票の写しでは、来「個人の住定日」を記載するべき位置に、「世帯の住定日」が記載されていた。市職員が証明書交付時に内容確認を行った際に誤りに気づき、システム部門に

    [続報]大阪市のシステムでまた不具合、誤った日付の住民票写し約700件発行
    hiragisan
    hiragisan 2015/05/06
    「データを移行する際に、「個人の住定日」と「世帯の住定日」を取り違えるミスがあり」
  • Engadget | Technology News & Reviews

    Research indicates that carbon dioxide removal plans will not be enough to meet Paris treaty goals

    Engadget | Technology News & Reviews
    hiragisan
    hiragisan 2015/05/06
    「電源系を少なくとも248日ごとに再起動することを求める耐空性改善指令」もうちょっと余裕見たほうがいいんじゃなかろうか
  • 東京の119番受信障害、原因は制御装置のバッファーオーバーフロー

    東京消防庁は2015年4月21日、14日に約4時間にわたって続いた東京23区からの119番通報に関するシステム障害(関連記事:東京で119番通報が切れるシステム障害、折り返しのうち11件は応答なし)について、「受付指令制御装置」の設定ミスと不具合が原因だったと発表した。 受付指令制御装置は、一般からの119番通報や出動現場からの電話連絡を受け付けて、「特別区災救センター」「特別区救急相談センター」へと自動接続する役割を担う。この制御装置の設定に不備があり、システム障害が発生した。 東京消防庁の説明によれば、障害発生より前に、携帯電話からの119番通報が急増したことに対応し、制御装置の設定を変更した。具体的には、固定電話からの119番通報を受け付ける回線の一部を廃止し、携帯電話からの119番通報を受け付ける回線を増設する設定にしたという。 「回線試験」の制御メッセージが異常蓄積 これらの回線

    hiragisan
    hiragisan 2015/04/26
    「固定電話からの119番通報を受け付ける回線の一部を廃止」「除外設定をしていなかった」「バッファーオーバーフローを引き起こした」日立
  • JR東日本の券売機でまたシステム障害、Suica関連の一部機能が利用不可に

    東日旅客鉄道(JR東日)は2015年4月3日、同社のSuicaエリア内535駅にある「みどりの窓口」と自動券売機(紫色の「指定席券売機」、画面)で、Suicaに関連する一部機能が利用できなくなるシステム障害があったことを発表した。原因は調査中としている。 障害が起こったのは同日午後2時20分ごろから3時35分ごろまで。みどりの窓口では「Suica定期券の継続発売」「Suicaの紛失再発行・障害再発行」ができなくなった。指定席券売機では「Suica定期券の継続発売」「Suicaチャージを利用した乗車券類の購入」ができなくなった。 JR東日では2月27日にも券売機のシステム障害が起こっている(関連記事:JR東日の多機能券売機925台で障害、ダイヤ改正前のプログラム更新が原因か)。当時不具合が起こった黒色の「多機能券売機」は、4月3日は正常に稼働していた。駅では、この多機能券売機の利用を

    JR東日本の券売機でまたシステム障害、Suica関連の一部機能が利用不可に
    hiragisan
    hiragisan 2015/04/12
    最近、ITProがトラブル原因を後報してくれなくなった。そっちのほうが役に立つのに
  • 三菱製液晶テレビ168万台障害の原因はソフト不具合、電波で“パッチ”配信へ

    三菱電機は2015年4月9日、同社製液晶テレビ「REAL」シリーズで3月29日に一斉に不具合が発生した事象について、製品の内蔵ソフトウエアに不具合があったことを認め、謝罪する文書をWebサイトに掲載した。4月10日の新聞広告でも同様の「お詫びとソフトウエア更新のお知らせ」を掲載する。4月13日以降に地上・BSデジタル放送の電波を使ってソフトウエア更新を実施し、不具合を修正する。 対象製品は三菱電機が2010年から2015年3月までに製造した120機種、約168万台である。対象機種名や体での確認方法なども「お知らせ」に掲載している(図1、図2)。これらの製品では、3月29日に電源が勝手にオフ/オンを繰り返す不具合が起こっていた(関連記事:三菱テレビ「REAL」で電源OFF/ONを繰り返す不具合、配信データに原因)。 不具合発生の原因は、対象製品の内蔵ソフトウエアにあると判明した。このソフト

    三菱製液晶テレビ168万台障害の原因はソフト不具合、電波で“パッチ”配信へ
    hiragisan
    hiragisan 2015/04/11
    「「特定放送データ」を正常に処理できなかった」修正パッチを出すたびに他社のテレビに影響与えないかの確認を全機種分やらないといけなくて大変そう
  • 三菱テレビ「REAL」約162万台で電源OFF/ONを繰り返す不具合、配信データに原因

    三菱電機は2015年3月29日、同社の液晶テレビ「REAL」シリーズで3月29日0時から「視聴中または録画予約中に電源がOFF/ONを繰り返す」という障害が発生していたと発表した。原因は「特定放送データ」の配信で、同日12時(正午)ごろに配信内容を変更したところ、障害が発生しなくなったとしている。 障害が発生したのは、2010年以降に製造された液晶テレビ「REAL」シリーズで、出荷済みの約162万台のほぼ全数が該当するという(図)。三菱電機広報部によれば、該当機種には「オンエアダウンロード」という仕組みがある。放送電波に機器のソフトウエア更新のためのデータを乗せた「特定放送データ」を配信し、機器側で自動更新する仕組みだ。この特定放送データが障害の原因となったという。 三菱電機は業界団体のデジタル放送推進協会(Dpa)に更新データを提供し、Dpaが他社分をまとめて放送電波に乗せる運用をしてい

    三菱テレビ「REAL」約162万台で電源OFF/ONを繰り返す不具合、配信データに原因
    hiragisan
    hiragisan 2015/04/05
    「他社が提供したデータが不具合の原因になった」なんで他社のデータ捨てずに読み込むの?
  • Appleの11時間にわたった大規模障害、原因は内部DNSエラー

    AppleのApp Storeをはじめとする複数のオンラインストアが日時間の3月11日午後6時ごろから広い地域で利用できなくなっていた問題が、12日の午前5時すぎにようやく解決した。 Appleのステータスページは「App Store、iTunes Store、iBooks Store、またはMac App Storeでアイテムを購入できなかった可能性がありました」となっている。 ステータスページによると、11日の午後6時ごろから障害が発生したのは一連のストアサービスだけでなく、すべてのユーザーに影響するiCloudアカウントとサインインの問題も発生していた。こちらは約4時間後に解決している。

    Appleの11時間にわたった大規模障害、原因は内部DNSエラー
    hiragisan
    hiragisan 2015/04/05
    「原因は内部のDNSサーバエラー」これだけだと何とも。当然二重化三重化はしてるだろうし
  • 東京23区内からの119番通報が一時不通に、制御装置の不具合 | スラド IT

    3月4日の11時23分から9分間、東京23区内からの119番通報が一時不通になっていたとのこと。原因は制御装置のシステムエラーだったようだ(日経新聞、産経新聞)。 この装置は日立製作所製で、先月にシステム更新が行われて導入されたばかりだったとのこと。通報状態を監視するシステムと障害情報を監視するシステムが同時に制御装置にアクセスし、ログインとログアウトが同時に行われたために障害情報を監視するシステムがログインを繰り返すループが発生し、機能が停止したという。すでにプログラムは更新され、問題は修正されているという。 東京消防庁は日立製作所に損害賠償を求めることも検討しているようだ。

    hiragisan
    hiragisan 2015/03/15
    「東京消防庁は日立製作所に損害賠償を求めることも検討している」こういうのが増えていくのかな
  • シャープのBD/DVDレコーダーでうるう年に関連するバグ | スラド IT

    シャープのブルーレイディスクレコーダー/ハイビジョンレコーダー一部機種において、うるう年に関連するバグがあるとのこと(シャープの発表、NAVERまとめ)。 問題のバグは、「番組の録画予約を行った場合、予約ができないことを意味する『×』マークが表示される」というもの。残りHDD容量に余裕がある場合でも、容量不足で録画できないという旨が表示されるという。ただし、このように表示されても実際には予約録画は実行されるという。対象機種は上記のページで確認できる。

    hiragisan
    hiragisan 2012/03/04
    閏年はいろいろあるな
  • 「うるう年」の処理ミスでWindows Azureにサービス障害

    米マイクロソフトが運営するクラウドサービス「Windows Azure Platform」で2012年2月29日、複数地域にまたがるサービス障害が発生した。Windows Azureの仮想マシンの一部で半日近く通信ができなくなった。Windows Azureの管理コンソールやデータベース連携サービスなどは、3月1日13時現在(日時間)も復旧していない。同社は障害の原因を調査中だが、うるう年に関連する計算エラーがあった模様だと公式ブログで説明している。 マイクロソフトが提供するWindows Azureのサービスダッシュボードの情報によれば、米国にある「North Central US」リージョンと「South Central US」リージョン、アイルランドにある「North Europe」リージョンという三つのデータセンターにおいて、Windows Azureの仮想マシン(Windows

    「うるう年」の処理ミスでWindows Azureにサービス障害
    hiragisan
    hiragisan 2012/03/04
    「うるう年に関連する計算エラーがあった」