タグ

障害に関するymm1xのブックマーク (56)

  • サーバダウンしたニコニコ漫画に何が起きていたのか - BOOK☆WALKER inside

    こんにちは。メディアサービス開発部Webアプリケーション開発課の奥川です。ニコニコ漫画のバックエンド開発を担当しています。 2021年初頭、ニコニコ漫画である作品の連載が開始されました。それに端を発する数カ月間のサーバ障害により、ユーザーの皆様には大変ご迷惑をおかけしました。 少し前の話にはなりますが、当時ニコニコ漫画のサーバでは何が起こっていたのか、どのような対応を行ったのかを振り返ってみたいと思います。 1号棟(事の起こり) 2021/01/08 問題の作品(以後、「作品I」*1と記述します)の第1話が投稿されます。その過激な内容からSNSなどでは一部で話題になりましたが、まだニコニコ漫画へのアクセスも穏やかなものでした。 2021/01/22 その2週間後、「第2話(前編)」の公開から事件が起こります。 ピークタイム最中の12:22頃から、まずmemcachedがCPU Utiliz

    サーバダウンしたニコニコ漫画に何が起きていたのか - BOOK☆WALKER inside
    ymm1x
    ymm1x 2022/10/28
    “障害告知のお知らせをあらかじめ書いておくと障害が発生しないというオカルトが稀に発生するため、念のため用意しておきます。頼れるものは何でも使っていく姿勢”
  • Cloudflare outage on June 21, 2022

    IntroductionToday, June 21, 2022, Cloudflare suffered an outage that affected traffic in 19 of our data centers. Unfortunately, these 19 locations handle a significant proportion of our global traffic. This outage was caused by a change that was part of a long-running project to increase resilience in our busiest locations. A change to the network configuration in those locations caused an outage

    Cloudflare outage on June 21, 2022
    ymm1x
    ymm1x 2022/06/21
  • ポストモーテムを理解する - Qiita

    はじめに こんにちは、webエンジニアの@an_sonyです。 最近、障害対応の振り返りをしていた時に「ポストモーテム」という手法を初めて知りました。これまで「どうやったら良い振り返りができるのか?」と悩んでいた自分にとって目から鱗の知識ばかりでしたので、整理のためにまとめてみます。 ポストモーテムとは? SRE サイトリライアビリティエンジニアリング1によると、インシデントとそのインパクト、その緩和や解消のために行われたアクション、根原因(群)、インシデントの再発を避けるためのフォローアップのアクションを記録するために書かれるドキュメントを指します。 言い換えると、失敗(障害)から学び、再発防止策を決める活動です。 障害報告書との違い 障害報告書と内容が似ていますが、ポストモーテムは読者と目的が違います。 障害報告書は、障害発生によって不利益が生じたユーザーに対して、その説明をするため

    ポストモーテムを理解する - Qiita
    ymm1x
    ymm1x 2021/10/18
  • Summary of June 8 outage

    Summary of June 8 outageWe experienced a global outage due to an undiscovered software bug that surfaced on June 8 when it was triggered by a valid customer configuration change. We detected the disruption within one minute, then identified and isolated the cause, and disabled the configuration. Within 49 minutes, 95% of our network was operating as normal. This outage was broad and severe, and we

    Summary of June 8 outage
    ymm1x
    ymm1x 2021/06/09
  • NTTドコモ スマホ決済「d払い」システム障害すべて復旧 | NHKニュース

    NTTドコモが提供するスマホ決済の「d払い」は、システム障害のため正午ごろから決済ができなくなっていましたが、午後10時半ごろまでにすべて復旧しました。 NTTドコモによりますと、スマホ決済の「d払い」でシステムに障害が発生し、1日正午ごろから、バーコードを利用した決済ができなくなったほか、「d払い」のアプリを通じて飲店に料理を注文しテイクアウトするサービスや、タクシーを予約するサービスも利用できなくなりました。 会社が復旧作業を進めた結果、午後10時半ごろまでにすべて復旧しましたが、10時間あまりにわたって決済ができない状況が続きました。 障害の原因について会社はアプリの画面にバーコードを表示するシステムに不具合が生じたためとしています。 また、会社によりますと、今回のシステム障害の影響でアプリを起動してもバーコードが表示されない場合があるということで、こうした場合にはアプリを再起動す

    NTTドコモ スマホ決済「d払い」システム障害すべて復旧 | NHKニュース
  • ニコニコ動画で障害発生 動画再生しづらい状態に【追記あり】

    「ニコニコ動画」や「ニコニコ生放送」で障害が発生し、12月14日午後9時ごろから動画を再生しにくくなっている。運営元のドワンゴによれば、原因は不明で現在は復旧作業中という。同じ時間帯に「YouTube」など米Googleが提供するサービスで障害が発生していた。 ドワンゴによれば他にも、検索結果やランキングが正しく表示できない、ページの表示に時間がかかるといった不具合が発生しているという。同社の栗田穣崇COO(最高執行責任者)は自身のTwitterアカウントで「異常な量のアクセスで動画に影響が出ている」と投稿している。 この状況を受け、Twitterでは発表直後に「ニコニコ」がトレンド入り。午後9時55分現在、YouTubeは復旧しているが、ニコニコ動画はつながりにくい状態が続いている。 追記:14日午後10時20分に復旧 ドワンゴは12月14日午後10時20分、ニコニコ動画やニコニコ生放送

    ニコニコ動画で障害発生 動画再生しづらい状態に【追記あり】
    ymm1x
    ymm1x 2020/12/15
  • 本番環境でsudo yum updateしてサービスが動かなくなった - Qiita

    EC2 (Amazon Linux) Apache php7.1 私がやってしまったこと この事件が起きたのは2020年6月。既に稼働しているWebサービスでとあるデータ取得の処理が止まってしまっているので調査してほしいと頼まれました。また、サービスに影響が出るものだからなるべく早めに対処してほしいと言われました。 マネージャー 「今日の夕方までにはお願いね。もし難しそうだったら午後イチで一旦MTGしよう。14時までに連絡をください。」 わたし 「任せてください!」 ・・・・ とは言ったものの、番サーバーで起きている障害の調査は今までやったことがありませんでした(もちろん番サーバーにログインしたこともない)し、進め方も全く思いつきませんでした。しかも、対応するサービスの開発には携わったことがなく、sshログインの設定から行う次第でした。 まあ、今まで頼まれたタスクを期限内に終えられなか

    本番環境でsudo yum updateしてサービスが動かなくなった - Qiita
    ymm1x
    ymm1x 2020/12/03
  • ドリコムのポストモーテム放出 - Tech Inside Drecom

    「ポスモ」って呼んでます こんにちは、 Smith (@do_low) です。 ドリコムの一部のプロジェクトでは、障害や深刻な不具合が発生した場合、そのポストモーテムを書いています。 ポストモーテム自体については様々なサイトで説明がなされているので詳細は省きますが、おおよその説明通り、発生してしまった問題から教訓を得て今後に活かすためのチームの取り組みとして実施しています。 テックブログは普通、イケてる技術的取り組みだったり、登壇報告だったりと、良いことばっかり書くものですが、 Tech Inside Drecom では、ドリコムの等身大のエンジニアリングをお伝えするため、また、ドリコムだけでなく読者の皆様も教訓を得られる機会を提供するため、共有できそうなポストモーテムは公開することにしました。 資料は可能な限り原文のまま記載していますが、人物名、プロジェクトコード、日付や時刻、仕様に関す

    ドリコムのポストモーテム放出 - Tech Inside Drecom
    ymm1x
    ymm1x 2020/10/21
  • 東証、障害の原因を特定 設定値に不備、切り替え失敗

    取引所グループは同日、調査結果を踏まえ、再発防止策などを検討する調査委員会を設置した。委員長の久保利英明弁護士をはじめ、4人の社外取締役で構成する。 関連記事 東証、10月2日は通常通りの売買へ システム障害を起こし全銘柄の売買を停止していた東京証券取引所は、明日、10月2日は通常通り売買を行うと発表した。 東証のシステム障害、解消は「明日以降」 「バックアップへの切り替え」で異常 東京証券取引所が、システム障害について「明日以降、正常な売買ができるよう対応している」と発表した。 東証にシステム障害 終日、全銘柄売買停止に【更新】 東京証券取引所は10月1日、相場情報に障害が発生したため、朝から全銘柄の売買を停止している。1日は終日売買停止となる。復旧については未定。 “東証を変えた男”が語る、金融業界の伝説「arrowhead」誕生の舞台裏――“決して落としてはならないシステム”がで

    東証、障害の原因を特定 設定値に不備、切り替え失敗
  • arrowhead の障害に関する原因と対策について | 日本取引所グループ

    2020年10月1日に株式売買システム「arrowhead」で発生した障害により、投資家の方々をはじめ、多くの市場関係者の皆様に御迷惑をお掛けしましたことを深くお詫び申し上げます。 今回発生した事象に関し、障害を引き起こした直接的な原因が特定できたため、システム面での対応を実施しました。 詳細につきましては、添付PDFファイルを御参照ください。

    arrowhead の障害に関する原因と対策について | 日本取引所グループ
    ymm1x
    ymm1x 2020/10/05
  • 【ノーカット】システム障害で終日取引停止 東証が会見(2020年10月1日)

    東京証券取引所は1日、相場情報の配信に障害が発生したことを受け、東証における全銘柄の売買を終日停止した。宮原幸一郎社長らが午後4時半から記者会見を開き、明日以降の予定などについて説明する。 ※中継内容等は予告なく変更になる場合がございます。予めご了承ください。 ■チャンネル登録:https://yahoo.jp/zaoidV ■THE PAGEの記事一覧:https://yahoo.jp/g2tIKq #thepage_jp #記者会見 #経済

    【ノーカット】システム障害で終日取引停止 東証が会見(2020年10月1日)
    ymm1x
    ymm1x 2020/10/01
  • 日本取引所、売買停止「ハードの故障」 - 日本経済新聞

    取引所グループ(8697)の広報・IR部は1日、同日の東京証券取引所の全銘柄の売買停止の原因について「ハード(設備)の故障」である

    日本取引所、売買停止「ハードの故障」 - 日本経済新聞
  • Webアプリケーションの障害対応について改めて意識すべき点ややれると良いことをまとめる - stefafafan の fa は3つです

    Webアプリケーションエンジニアをやっていると時たま障害が発生し復旧作業にあたるのだが、人によって「障害対応が得意」だったり「苦手」だったりする。ただ、障害対応時の「良い動き」というのが実際どういうものなのかというのが自分の中でふんわりしていたので、ざっくりはてブで「障害対応」で検索していくつかのエントリーを読んでみたり、自分の仕事での経験を振り返ってみたりして考えたことをまとめてみた。 障害にはフェーズがある 障害対応には複数の役割がある 障害対応をスムーズに進めるための目的は複数ある スキルも必要なので練習していけると良い 初心者でもやれることはある 実際やってみると良さそうなこと 障害対応時にやることをテンプレート化する スムーズに対応に入れる仕組みを整える 障害対応避難訓練 おわり 障害にはフェーズがある 障害対応したことないと、障害には「障害中」「障害中でない」の二つの状態しかな

    Webアプリケーションの障害対応について改めて意識すべき点ややれると良いことをまとめる - stefafafan の fa は3つです
    ymm1x
    ymm1x 2020/09/07
  • Googleサービスでの8月20日の大規模障害について、Googleが原因と対策を説明

    この障害は、19日の午後8時55分~20日の午前3時30日に、複数のG SuiteおよびGoogle Cloud Platform製品でエラー、利用不可、配信の遅延が発生したというもの。日でもGmailにファイルを添付しようとするとエラーが表示されるなどの不具合が数時間にわたって報告された。 問題は、小規模なものも含めると、Gmail、GoogleドライブGoogle Docs、New Google Sites、Chat、Meet、Keep、Google Voice、Jamboard、Admin Console、App Engine、Cloud Logging、Cloud Storageなど多岐にわたった。 根的な原因は、Googleの多様なサービスで使っている、BLOB(Binary Large OBject)と呼ばれる非構造化データに共通の内部分散システムでの過負荷。このBLOB

    Googleサービスでの8月20日の大規模障害について、Googleが原因と対策を説明
    ymm1x
    ymm1x 2020/08/25
  • Downdetector との正しい付き合い方 - Qiita

    この記事について Downdetector (ダウンディテクター) について勘違いしている人が多数見受けられるので、正しい使い方(?)をまとめたものです。 AWS東京リージョンの大障害 2019/08/23にAWS東京リージョンで大障害が発生しました。 サービスが停止して阿鼻叫喚した方、仕事にならないと諦めて帰った方、など、悲喜こもごもだったのではないかと思います。 そんな障害発生している際、主にSNS界隈で以下のような地図をよく見かけませんでしたでしょうか? この地図は Downdetector ( ttps://downdetector.jp/ ←あえてリンクにはしません ) が提供している障害発生マップです。 上の画像は8/23の実際のAWS障害時にスクリーンショットを撮ったものです。 この地図をパッと見て、どのように感じるでしょうか。 「 『Amazon Web Service の

    Downdetector との正しい付き合い方 - Qiita
  • yama//ZSignal (影ノゆう) on Twitter: "SHARPがマスクを販売する ↓ SHARPの会員サイト COCORO MEMBERSがアクセス集中する ↓ 503エラーで落ちる ↓ ログインができないためか、SHARP製すべてのIoT機能が使えなくなる ↓ うちのエアコンが付かない←イマココ"

    SHARPがマスクを販売する ↓ SHARPの会員サイト COCORO MEMBERSがアクセス集中する ↓ 503エラーで落ちる ↓ ログインができないためか、SHARP製すべてのIoT機能が使えなくなる ↓ うちのエアコンが付かない←イマココ

    yama//ZSignal (影ノゆう) on Twitter: "SHARPがマスクを販売する ↓ SHARPの会員サイト COCORO MEMBERSがアクセス集中する ↓ 503エラーで落ちる ↓ ログインができないためか、SHARP製すべてのIoT機能が使えなくなる ↓ うちのエアコンが付かない←イマココ"
  • オミカレにおけるAWS SQS/Lambda/CloudWatchの障害対応|uedy

    2020年4月20日18:58頃に発生したSQS/Lambda/CloudWatchの障害への対応 20時12分に対応を開始。それからリリース、動作確認が取れたのが21時25分でした。 オミカレでもAWSのSQS/Lambda/CloudWatchを利用している。主にメールやPush通知を送信しており、これが止まれば 会員登録・予約 などの様々なユーザー体験が損なわれる。 なので対応を議論していたところ 天才的ひらめきですぐに移すことに取り掛かった。 結果から行くとSQSとLambdaのリージョンを移行するという手で解決できた。 移行先は近場、白羽の矢は香港か、シンガポールでした 距離で行くと香港だというはなしでしたが、香港に行くとリージョンの有効化から始めないといけないしなにかのwarningが出ているのでシンガポールにすることにした。 SQSの障害だけ察知していたのでSQSのリージョン

  • 障害の対策というゲーム その進め方 - 虎の穴開発室ブログ

    初めましての方は初めまして。お久しぶりの方はお久しぶりです。虎の穴のY.Mです。 このブログが始まった頃に、よく記事を書いていました。 月日は流れて、現在はEC開発のリーダーをやっております。 今回は技術的な内容というよりは、開発プロセスの内容を少し書きます。 書こうと思ったワケ 弊社のブログを眺めていたところ、これまで虎の穴の開発文化を紹介したことがなかったなと感じました。 チームでの開発をする上では、技術力はもちろん大事ですが、そのチームの開発文化が品質に大きく影響してきます。 ブログを読んでいただいている皆さんに、少しでも「こんな仕事のやり方をしてるよ」というのを知ってもらうべく、久しぶりに筆をとりました。 今回はそのとっかかりとして、一番エンジニアが頭と心を痛めるであろう『障害の事後対応』について書きます。 せっかくオタクエンジニアとして書くので、ちょっとゲーム仕立てにしてみます。

    障害の対策というゲーム その進め方 - 虎の穴開発室ブログ
  • 住信SBIネット銀行、日本IBMのせいで7時間のシステム障害とお詫び : 市況かぶ全力2階建

    住友不動産の高級賃貸タワマン「中野ステーションレジデンス」、20代女性が竣工7ヶ月で事故物件にしてしまう

    住信SBIネット銀行、日本IBMのせいで7時間のシステム障害とお詫び : 市況かぶ全力2階建
  • Uber Eatsの障害についての事実をReact Nativeの観点から確認する - ナカザンドットネット

    公式アナウンス ユーザーの声 React Nativeっぽい 2つの事実を確認する RedBoxが表示されている Textコンポーネントについてのエラーが出ている 追記 感想と邪推 追記:Textコンポーネントのエラーが起きるパターン おわりに 日、Uber Eatsで大規模障害がありました。React Native絡みのようなので、今わかっている範囲の事実だけメモしておこうと思います。 公式アナウンス 【システム障害に関するお知らせ】 現在、Uber Eatsアプリのシステム障害の為、サービスを一時停止しております。 ご迷惑をおかけしますが、復旧までしばらくお待ちください。— Uber Eats Japan(ウーバーイーツ) (@UberEats_JP) 2020年1月16日 【サービス再開のお知らせ】 サービスを再開いたしました。 ご注文に影響のあった注文者の皆様には個別にメールにて

    Uber Eatsの障害についての事実をReact Nativeの観点から確認する - ナカザンドットネット
    ymm1x
    ymm1x 2020/01/17