タグ

障害に関するf-sugerのブックマーク (9)

  • Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに

    Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに CDNプロバイダーのCloudflareは、日時間の昨日(2022年6月21日)午後に発生したネットワーク障害についての報告を公開しました。 障害は日時間の午後3時半頃に顕在化し、国内ではDiscordPixiv、Nortionなどさまざまなサービスにおいて影響が報告されましたが、午後5時から6時頃にはおおむね復旧が見られたようです。 Cloudflareの報告によると障害はBGPの設定ミスが原因で、これにより東京データセンターを含む同社の主要な19のデータセンターで障害が発生したとのことです。 Today, June 21, 2022, Cloudflare suffered an outage that affected tra

    Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに
  • 一部のお客様へ影響しているアトラシアンサービスの停止について | Atlassian Japan 公式ブログ | アトラシアン株式会社

    ブログは、こちらに掲載されている英文ブログの意訳です。万が一内容に相違がある場合は、原文が優先されます。 2022年4月18日 23:57 UTC時点で、サービス停止の影響を受けたお客様サイトの復旧を完了しました。 2022年4月4日(月) PTに、アトラシアンクラウドをご利用の約400社のお客様が、アトラシアン製品全体を通してサービスの停止を経験されました。2022年4月18日現在、影響のあったお客様サイトの復旧を完了し、各サイトの窓口ご担当者宛てにご連絡申し上げました。 当社のサポートチームは現在、個々のお客様に合わせたサイト特有のニーズに対応しています。支援を必要とする事象のあるお客様は、当該サポートチケットへその旨ご返信ください。至急エンジニアリングチームより対応させていただきます。 今回のインシデントはサイバー攻撃や、システムの拡張に問題があったものではありません。また、一部の

    一部のお客様へ影響しているアトラシアンサービスの停止について | Atlassian Japan 公式ブログ | アトラシアン株式会社
  • Webサービスの障害対応のときの思考過程 - ぱいぱいにっき

    起こってほしくはないのですが、あらゆるWebサービスは完璧に動作する状態を維持することは難しく、やはり障害対応・トラブルシューティングといった作業が発生します。 筆者は普段仕事で障害対応を不幸なことによくやるのですが、障害対応のスキルというのはスピードや判断の正確さが求められるせいか、今までやったことがある人・ノウハウがある人に集中し、それ以外の人は眺めるだけ・あとからログを見返すだけの状態によく陥ることがあります。 これはWebサービスを開発・運用するチームとしてみたときにそういった苦労が特定の人に集中するのは良くないので、それを緩和する目的として、筆者が障害対応時に考えていることを記述してみます。なお、これが唯一の正解ではないとは思っているので、ツッコミや、自分はこう考えているよというのを教えていただければ幸いです。 具体的な手法を避けて思考の方法を述べているのは、障害というのはパター

    Webサービスの障害対応のときの思考過程 - ぱいぱいにっき
  • 【お詫び】IPアドレスが他者からも確認できてしまう不具合について|note株式会社

    経緯と再発防止策について追加のご報告をいたしました。くわしくはこちらをご覧ください。https://note.jp/n/naf3775e93a58 (2020年8月14日 22:33追記)noteサービスにおいて、記事投稿者のIPアドレスが記事詳細ページのソースコードから確認できてしまう不具合が存在していました。 なお、一般的なIPアドレスから、個人情報を特定することはできません。 現在は、該当部分を修正し問題なくご利用いただける状態です。ご迷惑をおかけして、大変申し訳ありませんでした。 今回の不具合により、名誉毀損などの被害をこうむったクリエイターに対しては、ご人と連携して法的措置を含めてnote社がサポートいたします。 以下、発生内容と今後の対策についてご報告します。 IPアドレスとは? インターネットでの通信先の情報です。一般的にはIPアドレスは地域や建物、組織で同一の値が共有され

    【お詫び】IPアドレスが他者からも確認できてしまう不具合について|note株式会社
  • AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告

    AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告 2019年8月23日金曜日の午後に発生したAWS東京リージョンの大規模障害について、AWSは追加の報告を行い、複数のアベイラビリティゾーンで稼働していたアプリケーションでも障害の影響があったことを認めました。 下記は大規模障害の報告ページです。赤枠で囲った部分が、8月28日付けで追記されました。 当初の報告は、障害の原因が空調装置のバグであり、それが引き金となってサーバーのオーバーヒートが発生したことなどが説明されていました。 そして障害の影響範囲は単一のアベイラビリティゾーンに閉じており、 複数のアベイラビリティゾーンでアプリケーションを稼働させていたお客様は、事象発生中も可用性を確保できている状況でした。 と説明されていました。 複数のアベイ

    AWS、複数のアベイラビリティゾーンで稼働していたアプリケーションでも大規模障害の影響があったと説明を修正。東京リージョンの大規模障害で追加報告
  • AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず

    AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず 報告によると直接の原因は東京リージョンのデータセンターで使用されている冷却制御システムにバグがあったこと。これにより、緊急時の手動操作にも冷却制御システムの一部が反応しないなどでサーバが過熱し、障害に至ったと説明されています。 8月23日午後に約6時間の障害。EC2だけでなくRDSも 報告によると、障害は日時間2019年8月23日金曜日の昼過ぎに発生。影響範囲は仮想マシンを提供するAmazon EC2とブロックストレージを提供するAmazon EBSのそれぞれ一部。以下、AWSの報告を引用します。 日時間 2019年8月23日 12:36 より、東京リージョン (AP-NORTHEAST-1) の単一のアベイラビリティゾーンで、オーバーヒートにより一

    AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず
  • 重大事故の時にどうするか?|miyasaka

    ヤフー時代の部下から突然メッセンジャーが。 「以前宮坂さんが緊急対応時に残して頂いた言葉を今度セミナーで使っていいですか?」 と。 リーダーの仕事はいっぱいあるけどなかでも大きな仕事の一つは重大事故の発生の時の陣頭指揮。平時は部下で回せるようにするのがマネジメントだけど、危機の時まで部下にまかせるわけにはいかない。 お恥ずかしながらヤフー在職中の22年で何度か重大事故を起こし関係者の人に多大な迷惑をかけてしまった。その度にその陣頭指揮をとった。 結果的にヤフーのなかでもっとも深刻な事故対策をやった人の一人じゃなかろうか。そのなかからノウハウ的なものがたまってきたものを部下にメモしておくってあげたものを彼は覚えていてくれたらしい。 彼いわく危機対応の時にすっごく役にたって指針になったといってくれて送ってくれた。 ひょっとしたら他の人にも参考になるかとおもって(若干訂正してますが)ここに残して

    重大事故の時にどうするか?|miyasaka
  • システム障害のおわびとまなび - freee Developers Blog

    はじめに こんにちは、freee株式会社でCDO(最高開発責任者)をしている平栗です。 2018年10月31日に、freeeで起こしてしまったシステム障害について、その原因と対策、障害からの学びについて共有したいと思います。 この記事はfreee Developers Advent Calendarの22日目になります。 おわび まず、約2時間半にわたりfreeeの全サービスを停止し、皆様に多大なるご迷惑をおかけしましたことを、改めてお詫び申し上げます。 今回の障害を大きな学びと成長の機会とし、今後の再発防止と業務改善に取り組んでまいります。 障害の経緯 2018年10月31日12時34分~15時00分の2時間26分の間、freeeの全サービスを一時停止し、すべてのサービスがご利用できなくなりました。 以下、復旧までの経緯です。 11時24分 特定の機能が利用できなくなっていると、社内から

    システム障害のおわびとまなび - freee Developers Blog
  • TechCrunch

    Apple seems to be finally getting serious about infusing generative AI into its products — both internal and external — after announcing a solitary “Transformer” model-based autocorrec

    TechCrunch
  • 1