タグ

障害に関するthaimのブックマーク (10)

  • 【1月23日追記】12月23日、24日に発生しました障害に関するご報告

    いつもSkebをご利用いただき、誠にありがとうございます。 12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。 みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。 障害につきまして詳細をご報告させていただきます。 概要日時: 12月23日12時22分〜12月24日7時00分 (JST) ダウンタイム: 18時間38分 内容: skeb.jpにアクセスできない不具合 原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。 解決: Herokuの一切の利用を中止し、すべてのサーバとシステ

    thaim
    thaim 2022/12/25
  • April 2022 outage update

    As of Apr 18, 2022, 23:57 UTC, all customers impacted by the outage have been restored. On Monday, April 4th, 2022 PT approximately 400 Atlassian Cloud customers experienced a full outage across their Atlassian products. As of April 18th, 2022, we have now restored our customers impacted by the outage and have reached out to key contacts for each affected site. Our support teams are working with i

    April 2022 outage update
    thaim
    thaim 2022/04/13
  • 「0回目のポストモーテム」としてのプレモーテムのすすめ - スタディサプリ Product Team Blog

    こんにちは。SREの@kyontanです。スタディサプリのSREチームにジョインしてから初のブログ記事となります。 つい先日、スタディサプリ 中学講座が大幅リニューアルされました。*1 今回は、そのリリースを自信を持ってユーザーの皆様へお届けするために実施した、プレモーテムという取り組みについてご紹介したいと思います。 背景 今回のスタディサプリ 中学講座のリニューアルは、バックエンド、フロントエンド(Web/iOS/Android)の開発をフルスクラッチで行ったため、大規模なリリースとなりました。 すでにユーザーへ提供しているサービスを、段階的にリニューアルされたものへ切り替えていく複雑なリリースということもあり、リリースにあたっては予期しないトラブルが起きる可能性が推測できます。 通常、さまざまなトラブル(障害)が起きた際には、私たちはあらかじめ定めた障害対応フローに沿って対応を行い、

    「0回目のポストモーテム」としてのプレモーテムのすすめ - スタディサプリ Product Team Blog
    thaim
    thaim 2022/03/06
    大幅リニューアルのようなタイミングでないとプレモーテムまで行うのは大変だけど、ここまで準備できればかなり安心できそう
  • Googleの45分間ダウンの原因は認証ツールのストレージクォータの問題

    Googleの「Workspace」を含む同社の多くのサービスが12月14日の午後9時ごろから約45分間使えなくなっていた障害の原因は、各種サービスにログインするための認証ツールのストレージクォータの問題だったと、Googleが同日、英Guardianなどのメディアに声明文を送った。 Googleの広報担当者によると、このダウンの原因は、Googleとサードパーティのサービスへのログイン方法を管理する認証ツールの障害だったという。認証を処理するサービスのためのストレージが不足すると自動的に割当を増やす(ストレージクォータ)ツールが正常に動作しなかった。 この問題により、GmailやGoogleカレンダーなど、利用するためにログインが必要なサービスが利用できなくなった。また、Googleの認証プラットフォームを利用するサードパーティのサービスでも、ユーザーがログインできなくなっていた。Go

    Googleの45分間ダウンの原因は認証ツールのストレージクォータの問題
  • 東証がシステム障害の原因公表、メリルリンチがIPアドレスを重複使用 | 日経 xTECH(クロステック)

    取引所グループ傘下の東京証券取引所は2018年10月23日、9日に株式売買システム「arrowhead」で起こったシステム障害のより詳しい原因や再発防止策などを公表した。合わせて東証の宮原幸一郎社長に月額報酬の10%を1カ月間減額するなどの経営幹部の処分も発表した。

    東証がシステム障害の原因公表、メリルリンチがIPアドレスを重複使用 | 日経 xTECH(クロステック)
  • 経済産業省の旅費等システムのデータ消失について : 富士通

    2017年9月15日 富士通株式会社 経済産業省の旅費等システムのデータ消失について このたび弊社が、経済産業省と契約を締結している「旅費等内部管理業務共通システムの運用業務」に関し、9月8日(金曜日)に実施したシステムの定期メンテナンス作業において、弊社の作業ミスにより旅費精算業務に関するデータの一部を消失する事態となりました。 現在、弊社から同システムを管理・運営する経済産業省および関係府省庁等の職員様に電話・電子メール等で問い合わせをするなどして、消失したデータの再登録と正常処理に向けた対応を進めております。 弊社は、このような事態を招いた事実を厳粛に受け止め、消失したデータの正常な処理が完了するまで体制を強化して対応を行うとともに、早期の信頼回復を目指して再発防止の徹底に努めて参ります。 同システムを管理・運営する経済産業省および関係府省庁等の皆様に多大なるご迷惑をおかけしましたこ

    thaim
    thaim 2017/09/16
    ケーススタディとして詳細公開して欲しいとこだけど、さすがに無理だろうなぁ
  • Azureの大規模障害、原因は「ネットワーク機器のバグ」:MSが改善策を発表

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 米Microsoftは日時間9月18日、9月15日に発生したAzureのDNSに関連するサービスの大規模障害について(第一報、続報)、障害の根原因と今後の改善策をまとめたレポートを発表した。障害発生当初、同社が「ネットワークトラフィックへのスパイクアクセスが発生した」と報告したことからDDoS攻撃などの可能性も憶測されていたが、レポートによれば、今回の障害原因は「ネットワークデバイスのソフトウェアのバグ」だという。 DNSの接続障害は1時間40分で復旧 今回の問題は、ネットワークデバイスのバグにより、ネットワーク管理ポリシーで適切に処理されなかったネットワークトラフィックのスパイクにより引き起こされた。この問題によって、Azureの

    Azureの大規模障害、原因は「ネットワーク機器のバグ」:MSが改善策を発表
  • Dropboxが2日以上ダウン。原因はメンテナンス用スクリプトのミス

    オンラインストレージサービスのDropboxが、米国時間1月10日の午後から約2日間にわたって障害を引き起こしていました。直接の原因は、OSをバージョンアップするために実行したメンテナンス用スクリプトにバグがあったことです。 障害の状況を時系列で追いつつ、原因についての報告を見てみましょう。 約48時間続いた復旧作業 障害の状況報告については、Dropbox Tech Blogの「Dropbox Status Update」でまとめられています。ポイントごとに引用し、訳しました。 障害発生が認識されたのは、米太平洋時間の午後6時40分です。後になって分かるのですが、この日の5時半に障害の原因となったメンテナンスが始まっています。それから1時間後にDropboxのダウンが発覚します。 1/10 at 6:40pm PT: We are aware that the Dropbox site

    Dropboxが2日以上ダウン。原因はメンテナンス用スクリプトのミス
  • 「さくらのクラウド」で続いていたストレージ障害、報告書をさくらインターネットが公開

    昨年11月にさくらインターネットが開始したクラウドサービス「さくらのクラウド」は、開始直後の12月からストレージまわりにトラブルが発生し、ストレージ性能の著しい低下や不安定な動作、一部データの消失などが起きていました。トラブルは完全に解決してはおらず、3月に新規申し込みの受付を停止したまま現在に至っていました。 さくらインターネットは今日15時に、さくらのクラウドのストレージ障害についての詳細な報告「さくらのクラウド・ストレージに関する報告書」を公開するとともに、トラブルが発生していたストレージに代えて自社開発したストレージでの再スタートを発表しました。 接続の問題や性能問題、監視ツールの問題などが発生 トラブルは同社が採用したストレージ装置で発生したものが中心でした。サーバとストレージ間はInfinibandで接続され、IP over InfiniBandでTCP/IPプロトコルを用い、

    「さくらのクラウド」で続いていたストレージ障害、報告書をさくらインターネットが公開
  • 「さくらのクラウド」障害多発で無償化、課金できる品質に達していないため

    「弊社としても、お客様が安心してご利用頂けない現状を痛切に感じており、一日も早く正常化を目指しておりますが、現在は課金をさせて頂ける状況ではないと判断致しました。つきましては3月1日に遡り、当面の間は「さくらのクラウド利用料」について無償化させて頂くことをご報告致します」ということで、なんと「さくらのクラウド」が無償化されてしまいました。 さくらのクラウドの現状報告および課金対応について | IaaS型パブリッククラウド「さくらのクラウド」 http://cloud.sakura.ad.jp/news/sakurainfo/newsentry.php?id=622 無償化せざるを得なくなってしまった経緯は以下のように説明されています。 既に掲載のとおり、データを格納するストレージのパフォーマンス低下により、 頻繁に負荷が増大する状況が続いております。 その為、改善を図ることを目的としたファ

    「さくらのクラウド」障害多発で無償化、課金できる品質に達していないため
  • 1