タグ

障害に関するkoemuのブックマーク (24)

  • インシデント指揮官トレーニングの手引き | Yakst

    [SRE]原文 An Incident Command Training Handbook – Dan Slimmon (English) 原文著者 Dan Slimmon 原文公開日 2019-06-24 翻訳依頼者 翻訳者 meiq 翻訳レビュアー doublemarket 原著者への翻訳報告 1723日前 Twitterで報告済み 編集 私が Hashicorp で担った最初の仕事のひとつは、社内向けのインシデント指揮官のトレーニング資料を作ることでした。 これは私自身がインシデントへの対処にあたりながら何年ものあいだ肌身に感じてきた、あらゆる類の考えをまとめ上げる良い機会となり、最高に面白いタスクでした。 以下は私の書いたトレーニング資料、ほぼそのままです。 あなたがインシデントレスポンスのポリシーを定義するにせよ、即興でインシデントレスポンスを行うにせよ、お役に立てたら幸いです。

    koemu
    koemu 2019/09/06
    訓練できるなら訓練したほうが良い。やれるんだったら進んでやったほうが良い。数をこなさないと慣れない。
  • 重大事故の時にどうするか?|miyasaka

    ヤフー時代の部下から突然メッセンジャーが。 「以前宮坂さんが緊急対応時に残して頂いた言葉を今度セミナーで使っていいですか?」 と。 リーダーの仕事はいっぱいあるけどなかでも大きな仕事の一つは重大事故の発生の時の陣頭指揮。平時は部下で回せるようにするのがマネジメントだけど、危機の時まで部下にまかせるわけにはいかない。 お恥ずかしながらヤフー在職中の22年で何度か重大事故を起こし関係者の人に多大な迷惑をかけてしまった。その度にその陣頭指揮をとった。 結果的にヤフーのなかでもっとも深刻な事故対策をやった人の一人じゃなかろうか。そのなかからノウハウ的なものがたまってきたものを部下にメモしておくってあげたものを彼は覚えていてくれたらしい。 彼いわく危機対応の時にすっごく役にたって指針になったといってくれて送ってくれた。 ひょっとしたら他の人にも参考になるかとおもって(若干訂正してますが)ここに残して

    重大事故の時にどうするか?|miyasaka
  • 本当は恐ろしい分散システムの話

    分散システムのFault Injectionの話 NTTデータテクノロジーカンファレンス2017で発表する際に用いたプレゼン資料 https://oss.nttdata.com/hadoop/event/201710/index.html Read less

    本当は恐ろしい分散システムの話
  • 2017年8月25日の大規模インターネット障害:Geekなぺーじ

    先週の金曜日、Googleが誤った経路をインターネットに流したことによって、大規模な通信障害が発生しました。 大きな影響を受けたのが日のOCNとKDDIだったとされていますが、様々な事業者が影響を受けたようです。 ネットワーク障害 グーグルが設定誤りで謝罪 グーグルが謝罪 大規模ネット障害、装置の誤操作が原因 ニュース解説 - 米グーグルの設定ミス、なぜ日の大規模ネット障害を引き起こしたのか?:ITpro BGP leak causing Internet outages in Japan and beyond 8月25日に発生した大規模通信障害をまとめてみた 今回の障害は、世界中の組織とBGP(Border Gateway Protocol)で繋がっている巨大なネットワークを持つ「Googleだからこそ」の事例と言えそうです。 ここでは、その理由を紹介します。 ネットワークのネットワ

  • Summary of the Amazon S3 Service Disruption in the Northern Virginia (US-EAST-1) Region

    We’d like to give you some additional information about the service disruption that occurred in the Northern Virginia (US-EAST-1) Region on the morning of February 28th, 2017. The Amazon Simple Storage Service (S3) team was debugging an issue causing the S3 billing system to progress more slowly than expected. At 9:37AM PST, an authorized S3 team member using an established playbook executed a com

    Summary of the Amazon S3 Service Disruption in the Northern Virginia (US-EAST-1) Region
    koemu
    koemu 2017/03/03
    "larger set of servers was removed than intended." 操作ミスか…身につまされる
  • Downdetector

    © 2012-2024 Ookla, LLC., a Ziff Davis company. All Rights Reserved. Downdetector® is among the federally registered trademarks of Ookla® and may not be used by third parties without express written permission.

    Downdetector
  • Reactioリアクティオ

    Reactioは、システム障害の対応に特化したインシデント管理ツールです。障害発生時に、電話とメールで一斉通知。その後、インシデント管理や対応履歴のタイムラインが残るので、障害報告書の作成に便利です。

    Reactioリアクティオ
    koemu
    koemu 2015/01/19
    Gaiaxさんだ
  • 実践!ヌーラボサービスでの CloudFront の障害対策 | 株式会社ヌーラボ(Nulab inc.)

    CDNが単一障害点にならないようにするために ヌーラボでは 2010 年 Cacoo の商用サービスの開始に合わせて AWS における運用を開始しました。当時、運用環境として AWS を採択する決め手の一つになったのが CloudFront でした。その後も着々とエッジロケーションは増え、独自ドメインのサポートなど魅力的な機能も提供され、今ではヌーラボの全サービスの静的ファイルの配信で利用している、無くてはならないサービスとなっています。 その魅力の反面、CloudFront の障害は、アプリケーションそのものに問題がなくても、以下のような表示が崩れた画面が表示されて、ユーザが全くサービスを使えなくなるという、その影響が非常に大きいものです。また障害の原因が DNS やネットワークの経路における問題といった、私たちが直接解決しにくい領域にあることもしばしばです。 ただ、どんな事情であれ、障

    実践!ヌーラボサービスでの CloudFront の障害対策 | 株式会社ヌーラボ(Nulab inc.)
    koemu
    koemu 2014/11/28
    Cacooってアプリ側でもヘルスチェックしているのか。すごいな。
  • 文科省が食育のプログラム開発へ 「スーパー校」指定し「教科書」も‐斎藤剛史‐【Benesse(ベネッセ)教育情報サイト】

    世界の15歳はどんな学力を身に付けている?日の15歳は世界と比べてどんな強み・弱みがあって、ランキングでいうと世界で何位?——そんなことがわかる国際調査「PISA」の結果が12月5日*に発表されます。世界中がその結果を注目する「PISA」とはどのような調査なのでしょうか。

    文科省が食育のプログラム開発へ 「スーパー校」指定し「教科書」も‐斎藤剛史‐【Benesse(ベネッセ)教育情報サイト】
    koemu
    koemu 2014/08/05
    LDについて
  • データセンター移転とDRBD - Cybozu Inside Out | サイボウズエンジニアのブログ

    @ymmt2005 こと山泰宇です。今回は去る 5 月から 6 月にかけて行った、cybozu.com のデータセンター移転作業について、失敗してしまったことを中心に解説します。 失敗と書いたのは、移転作業中に何度か、一部のお客様環境でストレージ高負荷による障害を起こしてしまったためです。移転作業自体はスケジュール通り進行し、6 月第二週に完了しています。障害に関しては、こちら(PDF)でお詫びとご報告をしていますが、この記事では技術面ならびに障害を引き起こすにいたった背景について詳述します。 移転に至った背景 移転方式の検討 ストレージ同期の方法 DRBD による同期の詳細 まずは自社環境を移転、成功 そして障害は発生した なぜ障害につながったのか まとめ 移転に至った背景 まず、なぜデータセンターを移転することにしたかを説明します。 端的に言うと、当時のデータセンターが手狭になり拡張

    データセンター移転とDRBD - Cybozu Inside Out | サイボウズエンジニアのブログ
  • 木村正人のロンドンでつぶやいたろう 乙武さんの責任と心のバリアフリー

    予約していた人気レストランで入店を拒否された乙武洋匡(おとたけ・ひろただ)さん(37)がレストラン名を入れて「銀座での屈辱」とツイートしたことをきっかけに、「レストランの対応が悪い」「いや、障害を告げずに予約した乙武さんが常識はずれ」と大論争が起きている。 ロンドンのバリアフリー度 東京都は2020年五輪・パラリンピックを招致している。今やパラリンピックは五輪以上の意義を持つ。12年にパラリンピックを大成功させたロンドンのバリアフリー度が気になって、調べてみた。 僕は、パラリンピックで金メダル11個を獲得した車いすの英国人女性タニー・グレイ=トムプソンさん(43)が大好きだ。昨年、ロンドン・パラリンピックの聖火リレーに参加したときは、ひと目見ようと応援にはせ参じた。 地下鉄ウエストミンスター駅近くで、鉄柵を自分で押しのけている姿を見たときは、その力強さに感激した。タニーさんが娘を身ごもった

  • Eメールリアルタイム送受信システムの通信障害について | 2013年 | KDDI株式会社

    2013年4月16日から19日、au携帯電話サービスでEメールのリアルタイム送受信を設定している一部のお客さまにおいて、Eメールがご利用いただけない、または、しづらい状況が発生しました。 対象となりましたお客さまは、4月19日2:54より通常どおりサービスをご利用いただける状況となっております。 お客さまに多大なご迷惑をお掛けしましたことを深くお詫び申し上げます。 今回の障害の内容と対策は、別紙のとおりです。 当社は、今回の障害発生を真摯に受け止めて電気通信事業者として深く反省し、再発防止の徹底に努めてまいります。 別紙: Eメールリアルタイム送受信システムの障害について (2.1MB) なお、障害にともない、「メールが表示されない」あるいは「連絡先が表示されない」場合は、再同期を行うことで表示されます。 以下の再同期方法をご確認ください。 メールが表示できない場合はこちら 連絡先が表示

  • 矢辺卓哉のブログ

    さんいんキラリ Instagramでいつもおいしそうな投稿をされているのでフォローさせてもらっているさんいんキラリさんの投稿で、米子市出身の経済学者が「社会的共通資」を提唱していたことを知った。 米子市出身の経済学者がいて、しかも「共通資」となるものを提唱していたとなると、これはとてもおもしろいのではないかと思い、さんいんキラリという雑誌を購入してみた。 結果的には大満足であった。「社会的共通資」に関して、わたしの思うところを書いてみたい。 “社会的共通資という希望” の続きを読む

    矢辺卓哉のブログ
    koemu
    koemu 2010/10/29
  • https://support.microsoft.com/gp/cd_dvd_drive_problems/ja

    All Microsoft Microsoft 365 Office Windows Surface Xbox Deals Support Software Windows Apps OneDrive Outlook Skype OneNote Microsoft Teams Microsoft Edge PCs & Devices Computers Shop Xbox Accessories VR & mixed reality Phones Entertainment Xbox Game Pass Ultimate Xbox Live Gold Xbox games PC games Windows digital games Movies & TV Business Microsoft Azure Microsoft Dynamics 365 Microsoft 365 Windo

    koemu
    koemu 2010/04/18
    Windowsからしか見られないので要注意
  • Rauru Blog» Blog Archive » YouTube ダウンと経路問題

  • 肥え続けるTomcatと胃を痛めるトラブルハッカー (1/3) - @IT

    肥え続けるTomcatと胃を痛めるトラブルハッカー:現場から学ぶWebアプリ開発のトラブルハック(8)(1/3 ページ) 連載は、現場でのエンジニアの経験から得られた、APサーバをベースとしたWebアプリ開発における注意点やノウハウについて解説するハック集である。現在起きているトラブルの解決や、今後の開発の参考として大いに活用していただきたい。(編集部) メモリリークと聞いて、良いイメージを思い浮かべる開発者は少ないだろう。経験したことのある人にとっては、思い出したくない過去の記憶がよみがえるかもしれない。もしかしたら、その単語を聞くだけで胃が痛くなる人もいるかもしれない。筆者もかつてはその1人であった。 前々回の記事では、WebサーバとTomcatの間の接続において、スレッド数の不整合により発生したトラブル事例を、前回はTomcatとDBサーバの間のトラブル事例を紹介した。今回もTom

    肥え続けるTomcatと胃を痛めるトラブルハッカー (1/3) - @IT
    koemu
    koemu 2007/11/30
    低負荷時も要注意
  • 管理者必携! 最強のデータ・サルベージ・ツールを自作する - @IT

    システムに突然トラブルが発生。ハードディスクは生きているのだが、Windowsがセーフ・モードでも起動しなくなってしまった……。そんなとき管理者は、ユーザーから「Windowsを直すのは後回しでいいから、今日のミーティングに必要なファイルを今すぐ取り出してくれ」などと頼まれることも多いのではないだろうか。 だが、ネジを外してケースを開け、ハードディスクを取り出して、別のPCに接続し……ああ、変換アダプタが必要だった……、などとやっていてはそれなりに時間がかかる。もし、CD/DVDからすぐに別のWindowsを起動して、必要なファイルをハードディスクからUSBメモリやファイル・サーバへコピーできれば、ユーザーも管理者も大いに助かるだろう。 また格的に修復をする場合でも、もしすぐに別のWindowsを起動できれば、ファイルやレジストリを調査・修正しやすく、トラブルシューティングの役にも立つ。

    管理者必携! 最強のデータ・サルベージ・ツールを自作する - @IT
    koemu
    koemu 2007/10/25
    WindowsのためのWindows復旧環境 Windows PE
  • WordPress で トラックバック Ping が飛ばない

    WordPress でトラックバックできません。この問題はいろいろなところで報告されていますが、複数の原因があること、環境依存、再現性が不明のようです。 私のところでも、このブログのサーバは送れませんが、他のサーバに置いた WordPress では問題ないなど、サーバによるところが大きいようです。以下に私が行なった対策を書いてみます。 スパム判定されている可能性があるので、自分自身に送るときには Akismet をオフにしてみる。 ひとつの URL だけでなく複数の URL にトラックバックしてみる。1つ目だけできなかったということがあった。 サーバのファイアウォールをオフにして試してみる サーバの php ライブラリなどが、他のサーバと同じかどうか確認する php.ini での mbstring.internal_encoding の文字コード指定を確認する。 php.ini での mb

    koemu
    koemu 2007/07/11
    マジ勘弁してよ
  • 【コラム】Yet Another 仕事のツール (27) pgpoolの障害検出と縮退運転 | エンタープライズ | マイコミジャーナル

    koemu
    koemu 2007/03/12
    pgpool障害復旧手順
  • Kozupon.com - クラックされちゃった(でも落ち着いて対処しよう)!

    Preface ”クラックされちゃったぁ。”と言うと笑い事ではない。俺自身経験があるが、あるサーバでどうもパフォーマンスが落ちたから調べてみよう。と思いリモートでサーバにアクセスしてlogを調べていたところ、侵入者と”ご対面〜!”なんて言う間抜けな経験があった。びっくりである。何処から、どういう具合に進入してきたかは解らない。えてして、足跡を残さないのが侵入者である。そんなときは、直ぐさまネットワークケーブルを抜いて以下の事柄をチェックされたい。 1) 踏み台にされていないか? 2) ファイルを改ざんされていないか? 3) バックドアを仕掛けられてないか? 4) システムファイルが消されてないか? 5) アカウントを作成されていないか? 6) コマンドモジュール達が改竄されていないか? そんでもって、一応現在のシステムを捨ててHDDをFormatし直して再インストールを実行。そし

    koemu
    koemu 2007/02/26
    困ったときは落ち着いてこれを見よう