タグ

障害に関するitboyのブックマーク (15)

  • 9月2日木曜日に発生したAWS東京リージョンの大規模障害、原因はネットワークデバイスの新プロトコル処理に潜在的なバグがあったこと。AWSが報告書を公開

    9月2日木曜日に発生したAWS東京リージョンの大規模障害、原因はネットワークデバイスの新プロトコル処理に潜在的なバグがあったこと。AWSが報告書を公開 2021年9月2日木曜日午前7時半ごろに、Amazon Web Services(AWS)の東京リージョンで大規模な障害が発生しました。 NHKニュースの報道によると、三菱UFJ銀行やみずほ銀行のスマートフォン用アプリやSBI証券などネット証券のWebサイト、KDDIのau Payなど金融系サービスが影響を受けたほか、全日空では羽田空港などでチェックインを行うシステムに障害が発生、日航空では貨物の情報に関わる一部のシステムに影響が出るなど、幅広い社会サービスが影響を受け、大きな問題となりました。 障害が発生したのは、企業のデータセンターなどからAWSへ専用線で接続するためのネットワーク接続サービス「AWS Direct Connect」。

    9月2日木曜日に発生したAWS東京リージョンの大規模障害、原因はネットワークデバイスの新プロトコル処理に潜在的なバグがあったこと。AWSが報告書を公開
    itboy
    itboy 2021/09/09
    8か月間見えなかったバグが突然噴出したとかかなり怖いな
  • AWS障害、5時間でほぼ復旧 気象庁Webサイトなどに影響【各サービス復旧状況を追記】

    Amazon Web Services(米AWS)が提供するクラウドサービス「AWS」の東京リージョンで、2月20日午前0時ごろに障害が発生した。発生から約5時間がたった午前5時9分に同社は、障害の大部分を解消したと発表した。この影響でAWSを利用するオンラインゲームの一部などが利用しづらい状態に。また、気象庁の公式サイトが一時接続できない状態になり、同庁は復旧作業や関連性の調査を急いでいる。 追記 2021年2月20日午後4時 気象庁Webサイトは完全復旧 気象庁は、午前10時50分ごろに公式サイトの全ページが正常に閲覧できるようになったと発表した。原因は「同庁が利用しているクラウドシステムの障害」としており、同庁の担当者はこのクラウドシステムがAWSであることを認めている。 暗号資産取引所を運営するコインチェックは午前11時24分、同社の全てのサービスが通常通り利用できるようになった

    AWS障害、5時間でほぼ復旧 気象庁Webサイトなどに影響【各サービス復旧状況を追記】
    itboy
    itboy 2021/02/22
    土曜日に連絡があったのこれか。
  • グーグルが大規模障害の原因など説明

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます Googleは、米国時間6月2日に発生した大規模障害についての詳しい情報を一部明らかにした。この障害では、米国東部などで「Google Cloud」を利用する大手IT企業が提供するサービスや、「YouTube」「Gmail」「Google検索」「G Suite」「Google Drive」「Google Docs」などの同社が提供するサービスが影響を受けた。 Googleエンジニアリング担当バイスプレジデントBenjamin Treynor Sloss氏はブログ記事を公開し、同日に発生した障害の根的な原因は、特定のリージョンの小規模なサーバーグループに適用するはずだった設定の変更が、誤っていくつかの隣接するリージョンの多数のサーバー

    グーグルが大規模障害の原因など説明
    itboy
    itboy 2019/06/05
    サーバーが高負荷になってそのせいで問題に対処できないとかってあるあるだよね。
  • ファーストサーバで障害続く--復旧のめど立たず

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます ファーストサーバは7月9日、レンタルサーバサービス「Zenlogic」で6月19日から続いている障害についての状況を発表した。7月6日午後8時から全サービスを停止してメンテナンスを行っているが、9日午後3時の段階でも復旧のめどが立っていない。 同社によると、障害はZenlogicの提供基盤の1つとして利用しているヤフーのIaaS環境で、6月19日の午前9時15分ごろに発生。ストレージシステムに高負荷が発生してサービスが断続的に利用できなくなっており、7月9日午後1時の時点でも高負荷状態が続いているという。 障害発生時から7月6日までは、ヤフーがストレージシステムの増設やパラメータ変更などを実施して問題の解決を試みたが障害が解消されず、同

    ファーストサーバで障害続く--復旧のめど立たず
    itboy
    itboy 2018/07/10
    何年か前に見たような・・・。
  • 「グーグル、6分間のサービス障害」が与えた影響

    itboy
    itboy 2012/11/05
    しらんかった。
  • TechCrunch | Startup and Technology News

    Meta has been banned from launching features on Facebook and Instagram that would have collected data on voters in Spain using the social networks ahead of next month’s European Elections.…

    TechCrunch | Startup and Technology News
  • 担当者が長年マニュアル無視、上長も容認──ファーストサーバ障害、調査報告書を公開

    ファーストサーバが6月に起こした大規模障害で、第三者委員会による調査報告書が公開された。担当者がマニュアルを無視し、独自プログラムでシステム更新を行なった際に事故が起きたという。 ヤフー子会社でレンタルサーバを手がけるファーストサーバが6月に起こした大規模障害について、同社は7月31日、第三者委員会による最終調査報告書の要約版(PDF)を公開した。報告書によると、担当者がマニュアルを無視し、独自方式でシステムメンテナンスを行った際に使用した自作プログラムにミスがあり、顧客データの消失につながったという。「軽過失の枠内ではあるものの、比較的重度の過失」と報告書は判断している。 報告書は、弁護士2人とセキュリティコンサルタント1人の計3人で構成する第三者委員会が作成した。フル版は同社の業務機密や、従業員の氏名などプライバシー情報が含まれるため、要約版のみを公開。「事故の原因究明に必要な情報は全

    担当者が長年マニュアル無視、上長も容認──ファーストサーバ障害、調査報告書を公開
    itboy
    itboy 2012/08/02
    環境の慣れって一番怖いですよね。
  • Twitterでアクセス障害--原因は「インフラ上のダブルパンチ」

    マイクロブログサービスのTwitterで米国時間7月26日、膨大な数のユーザーが数時間にわたりサービスを利用できなくなる障害が発生した。同社はこの障害について、2カ所のデータセンターで同時に問題が発生する「インフラ上のダブルパンチ」が原因と説明した。 Twitterのサイトは太平洋時間午前8時20分から9時までの間にダウンし、復旧するまで約2時間にわたって利用できなかった。 通常、データセンターは1カ所がダウンしても、緊急事態やバックアップ用に確保している別の場所を利用できるようになっている。だがTwitterはブログ投稿で、並列的なシステムがほぼ同時にダウンしたと述べた。 Twitterは投稿で次のように説明している。「日の障害がオリンピックか、せめて連鎖的なバグで説明できるものだったら良かったのにと思う。だがそうではなく、原因はこのインフラ上のダブルパンチだ。今後こうした状況にならな

    Twitterでアクセス障害--原因は「インフラ上のダブルパンチ」
  • ドコモスマホで障害、PWなど変更できる状態に : 経済ニュース : マネー・経済 : YOMIURI ONLINE(読売新聞)

    NTTドコモは25日、スマートフォン(高機能携帯電話)でインターネットを閲覧できるサービス「spモード」に障害が発生し、一時的に、メールアドレスやパスワードを第三者が変更できる状態になったと発表した。 約1000人のパスワードが書き換えられるなどの影響が出た。 ドコモによると、25日午前1時41分から9時14分にかけて、アドレスの設定情報に他人の情報が表示され、変更できる状態となった。ドコモは、影響を受けた利用者に連絡して対応を急いでいる。 ドコモのspモードは昨年末も障害が起きた。

  • うるう秒の挿入で複数のサイトに障害が発生

    インターネットに大混乱を引き起こすには、ほんの1秒あれば十分だ。 グリニッジ標準時(GMT)7月1日午前0時、協定世界時にうるう秒が追加されたことで、複数の人気ウェブサイトやソフトウェアプラットフォームでサイトの混乱が発生したようだ。 国際地球回転及び基準座標系事業(International Earth Rotation and Reference Systems Service)が行うこの時間調整は、原子時計をムラのある地球の自転速度と一致させるために必要だ。1972年に時間調整が導入されて以来、何度となくうるう秒が追加されてきた。 うるう秒が引き起こした障害の影響を受けたサイトには、人気のリンク共有サイトRedditが含まれる。Redditは、Javaで構築されたオープンソースデータベース「Apache Cassandra」に問題が発生したのはうるう秒が原因、とTwitterで述べた

    うるう秒の挿入で複数のサイトに障害が発生
    itboy
    itboy 2012/07/02
  • ファーストサーバ社の障害に関して - naoyaのはてなダイアリー

    あまりまとめられないので箇条書きで。 「クラウド (IaaS)」と「レンタルサーバ」の区別 技術的には「クラウド (における IaaS)」と「レンタルサーバー」は明確に異なるものなので、そこは混同されないことをおすすめしたい 今回障害が起こったファーストサーバのサービスはレンタルサーバであって、クラウドサービスではないだろう クラウド = Amazon Web Services (AWS) や Heroku がその代表例だと思ってもらえばいい *1 具体的には、日経新聞の当該記事のこと → http://www.nikkei.com/article/DGXNASFK2600L_W2A620C1000000/ 意図は不明だが「クラウド」のような目新しいものと今回の事件とを結びつけて何かしらの印象を与えようとするのは、個人的には感心しない 業者が「クラウド」と謳っていたかどうかは知らない。例え

    ファーストサーバ社の障害に関して - naoyaのはてなダイアリー
  • 「さくらのクラウド」で続いていたストレージ障害、報告書をさくらインターネットが公開

    昨年11月にさくらインターネットが開始したクラウドサービス「さくらのクラウド」は、開始直後の12月からストレージまわりにトラブルが発生し、ストレージ性能の著しい低下や不安定な動作、一部データの消失などが起きていました。トラブルは完全に解決してはおらず、3月に新規申し込みの受付を停止したまま現在に至っていました。 さくらインターネットは今日15時に、さくらのクラウドのストレージ障害についての詳細な報告「さくらのクラウド・ストレージに関する報告書」を公開するとともに、トラブルが発生していたストレージに代えて自社開発したストレージでの再スタートを発表しました。 接続の問題や性能問題、監視ツールの問題などが発生 トラブルは同社が採用したストレージ装置で発生したものが中心でした。サーバとストレージ間はInfinibandで接続され、IP over InfiniBandでTCP/IPプロトコルを用い、

    「さくらのクラウド」で続いていたストレージ障害、報告書をさくらインターネットが公開
  • 株式会社IDCフロンティア

    IDCフロンティアのクラウドサービスが政府情報システムのためのセキュリティ評価制度(ISMAP... データセンター 2024年01月10日 【接続先追加】「バーチャルブリッジ」に主要IX事業者などの他事業者接続が追加 データセンター 2024年01月10日 令和6年能登半島地震の影響により、被災された地域のお客さまがご利用中のサービスについて支援措置を実施します。 サービス 2024年01月05日 新年のご挨拶 代表取締役社長 鈴木 勝久 その他 2024年01月04日 1月17日~19日に福岡で開催される「JANOG53 in Hakata」にブース出展します その他 2023年12月20日 ZDNET Japan Business&IT ClassWork supported by ... その他 2023年12月15日 IDCフロンティア、「AIサービスのためのデジタルインフラ」を

    株式会社IDCフロンティア
    itboy
    itboy 2012/06/25
    結局はオペレーションミスなんだな。
  • Geekなぺーじ : Skype大規模障害が収束。その規模と原因は?

    24日午前7時頃(日時間)にSkypeから「9割回復した」という発表が行われました。 これによると、今回の障害は外部の攻撃によるものではなさそうであるとのことでした。 「Another update: Skype stabilized」 原因の詳細は述べられていませんが、各種有料サービス利用者に無料通話サービス券を提供することが述べられています。 Skype社CEOのTony Bates氏による発表の動画も掲載されています。 しかし、障害からの復旧は2007年に発生した大規模障害よりも2倍早かったとされています。 大規模障害の原因? まず、前回の大規模障害である2007年8月16日の事例を見てみます。 「INTERNET Watch: Skype、障害はスーパーノード関連のバグと一斉ログインの負荷が原因」 INTERNET Watchの記事では、2007年の障害はWindows Upda

  • Yahoo! Japanのアクセス障害、原因はロードバランサーの物理障害

    10月13日深夜から10月14日にかけて起きたポータルサイト「Yahoo!Japan」のアクセス障害について、ヤフーはCNET Japanの電話取材に応じ、原因を説明した。 Yahoo!Japanでは、10月13日午後11時33分から10月14日午前0時56分の約1時間半の間にアクセスした際、サイトが表示されない、もしくはサイトの一部が表示されても画像が表示されないという障害が発生していた。 ヤフーによると、原因は負荷分散用サーバの一部に物理障害が起きたためだという。「同時期に他社でもアクセス障害があったようだが、調査したところ外部からの攻撃は認められなかった」(ヤフー)。その後、同社では14日1時から約2時間、トップページにてアクセス障害についての謝罪文を掲載していた。今後は広告主などにむけて、個別に状況を説明するとしている。

    Yahoo! Japanのアクセス障害、原因はロードバランサーの物理障害
    itboy
    itboy 2010/10/14
    "不可分散装置の一部に"って書いてるから元々分散出来ない装置だったわけですね。
  • 1