タグ

障害に関するcad-sanのブックマーク (13)

  • NASAの「ボイジャー1号」でシステム障害 エンジニアが「数十年前に書かれた資料」と格闘中

    NASAは12月12日(現地時間)、惑星探査機「ボイジャー1号」のコンピュータに問題が発生していると発表した。探査機に搭載された3つのオンボードコンピュータのうち、「FDS」(フライトデータシステム)で発生したもので、エンジニアが解決に動いているという。 FDSは、観測装置といった科学機器からのデータと探査機の状態に関するデータを収集するもので、ボイジャー1号では、これらを1つのパッケージにまとめて「TMU」(テレメトリ変調ユニット)経由で地球に送信している。 NASAによると、最近TMUが「行き詰まった」かのように、1と0の繰り返しパターンを送信するようになったという。ボイジャーチームの調査により、探査機は地球から送られたコマンドを受信して実行しているものの、FDSがTMUと正しく通信できていないことが判明。チームはFDSを再起動し、問題発生前の状態に戻そうと試みたが、依然として有用な

    NASAの「ボイジャー1号」でシステム障害 エンジニアが「数十年前に書かれた資料」と格闘中
  • すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ、全銀システム通信障害の詳細を説明 | gihyo.jp

    すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ⁠⁠、全銀システム通信障害の詳細を説明 全国銀行資金決済ネットワーク(以下、全銀ネット)とNTTデータは12月1日、2023年10月10日~11日にかけて全国銀行データ通信システム(以下、全銀システム)で発生した通信障害に関する報道関係者向けの説明会を開催しました。件についてはNTTデータが11月6日に行った途中経過報告の内容をもとにレポートしましたが、今回、全銀ネットとNTTデータが揃って会見を行ったことで、より詳細な障害の原因が判明したので、あらためてその内容を検証してみたいと思います。 説明会の登壇者。左から、全銀ネット 企画部長 千葉雄一氏、事務局長兼業務部長 小林健一氏、理事長 辻松雄氏、NTTデータ 代表取締役社長佐々木 裕氏、取締役副社長執行役員 鈴木正範氏 なお、全銀ネットとNTTデータは、今回の障害に関して金融

    すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ、全銀システム通信障害の詳細を説明 | gihyo.jp
    cad-san
    cad-san 2023/12/06
    mallocがsizeofじゃなくて固定値になっていて、実際のサイズとズレてバッファオーバーランしてた感じか。組込ではあるあるだけど…。ファジングテスト的な実環境を想定したシステムテストをしてたら発覚してたかな。
  • 本番サーバー60台のホスト名を全部 cat にしてしまった話 - Qiita

    この記事は、番環境などでやらかしちゃった人 Advent Calendar 2023 の4日目です。年末進行、いかがお過ごしでしょうか?みなさま無事に仕事が納まることを願っております… 新人インフラエンジニアが、番ウェブサーバー60台のホスト名を全部 cat にしてしまった話について、ここに供養させていただきたいと思います 背景 おそらく今から7年くらい前、インフラエンジニアとして転職してきて1年ほどが経ち、番環境での作業もこなれてきたなというバッチリのタイミングで事を起こしてしまいました。サーバーは CentOS 6 だったと思います。 職場としてはまだまだベンチャー感にあふれ大きな裁量が与えられスピード感のある環境ながら、サービスの登録ユーザー数は1,000万を超え、番環境の規模としては既になかなかの大きさがあり、ウェブサーバーだけでも60台くらいあったと思います。ひと山につき

    本番サーバー60台のホスト名を全部 cat にしてしまった話 - Qiita
  • ルーター不具合による韓国行政ネットワークの大規模なシステム障害についてまとめてみた - piyolog

    2023年11月17日、韓国の地方行政システムで3日にわたる大規模なシステム障害が発生し、韓国内の多くの行政機関の業務に支障が生じ、手続きが行えないなど市民の生活にも大きな影響が及びました。その後の調査を経て、韓国政府はネットワーク機器の異常によるものだったと原因について明らかにしています。ここでは関連する情報をまとめます。 56時間にわたり行政ネットワーク使えず システム障害は認証基盤である行政電子署名証明書(GPKI)システムで発生。韓国では公務員はシステム接続を行う際にGPKIシステムで認証を行っているため、全国の自治体で業務システムを利用できない事態となった。GPKIシステムと接続していた、閉域ネットワーク運用されている韓国内のすべての自治体が利用する「市道セオル行政システム」や行政プラットフォームの「政府24(정부24)」が利用できなくなった。 GPKIシステムは物理サーバー15

    ルーター不具合による韓国行政ネットワークの大規模なシステム障害についてまとめてみた - piyolog
  • 【1月23日追記】12月23日、24日に発生しました障害に関するご報告

    いつもSkebをご利用いただき、誠にありがとうございます。 12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。 みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。 障害につきまして詳細をご報告させていただきます。 概要日時: 12月23日12時22分〜12月24日7時00分 (JST) ダウンタイム: 18時間38分 内容: skeb.jpにアクセスできない不具合 原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。 解決: Herokuの一切の利用を中止し、すべてのサーバとシステ

  • 障害発生!全員集合? - オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ

    8月だというのに涼しい日が続きますね。 kintone.comのDevOpsをしている@ueokandeです。 もうすぐAWSkintoneのローンチからから2年が経過しようとしています。 この2年間、DevOpsチームではkintone.comのサービス安定化やスケーラビリティに注力してきました。 時には番環境の障害で休日や深夜に障害対応することもあります。 kintone.comの障害の一次対応は、我々DevOpsメンバーが実施しています。 サービスローンチ直後は、メンバーの多くがオンコールに不慣れで、慌てて障害対応したりうまく進められないことが何度もありました。 そこでメンバー全員が効率的・効果的な障害対応を目指すべく、チームでPagerDuty社のIncident Response(非公式日語訳版)を読むことにしました。 この記事ではAWSkintoneで実際に体験した障害

    障害発生!全員集合? - オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ
  • ワクチン予約接種関連のシステムトラブルについてまとめてみた - piyolog

    2021年3月以降、政府や各自治体による新型コロナウイルス感染症のワクチン接種予約や管理を行うシステムが稼働を始め、住民への予約受付が開始されています。しかし、アクセス過多による接続障害など複数の自治体でトラブルが発生しています。ここではこれまでに発表や報道されたトラブルについて関連する情報をまとめます。 1.複数の自治体で起きた予約システムのトラブル 事例① アクセス過多による接続障害 予約開始直後など、急増するアクセスに耐え切れずにシステムに接続できない、しにくくなるなどの事象が発生した(あるいは関連性のある)事例は以下の通り。 自治体 発生/報道日 概要 沖縄県糸満市 4月15日 市が利用する予約受付システムが全国複数の自治体で利用されており、同日複数から大量アクセスを受けたことで受付不可となった。 兵庫県神戸市 4月21日 20日に不適切な設定によるものとみられる内部起因の障害によ

    ワクチン予約接種関連のシステムトラブルについてまとめてみた - piyolog
  • データ移行で発生したみずほ銀行のシステム障害についてまとめてみた - piyolog

    2021年2月28日、みずほ銀行でシステム障害が発生し、全国で同行のATMが利用できなくなる、キャッシュカードが取り込まれたまま戻ってこないなどのトラブルが発生しました。ここでは関連する情報をまとめます。 取り込まれ戻ってこないキャッシュカード みずほ銀行サイト上に掲載されたシステム障害発生の案内障害が発生したのは2021年2月28日11時頃。障害により各地で生じた影響は以下が報じられるなどしている。なお、法人向けに提供されるサービスでは今回のシステム障害による不具合は確認されていない。*1 障害発生から30時間後に全面復旧をした。 みずほ銀行の自行ATM5,395台の内、54%にあたる2,956台が停止し(2月28日19時40分頃時点)、預金引き落とし等が出来なくなった。*2 台数はその後訂正され、最大4,318台が停止していたことが明らかにされた。 *3 障害発生中は、ATMよりキャッ

    データ移行で発生したみずほ銀行のシステム障害についてまとめてみた - piyolog
  • 2020年10月に発生した東京証券取引所のシステム障害についてまとめてみた - piyolog

    2020年10月1日、東京証券取引所はアローヘッドの機器故障によりシステム障害が発生し、終日売買を停止すると発表しました。故障した機器は交換が行われ、取引は翌日再開されています。ここでは関連する情報をまとめます。 機器故障起きるも縮退運用に失敗 障害概要図 アローヘッド内の共有ディスク装置1号機で機器故障が発生した。実際故障したのはサーバー上のメモリ周辺機器とされる。 1号機故障により両現用で稼働していた2号機のみのフェールオーバー(縮退運用)が行われるはずだったが何らかの問題により行われなかった。 共有ディスク装置を使用する相場配信、売買監視のシステムで障害が発生。 障害復旧時に発生する注文データ消失による市場混乱を避けるため当日終日の取引停止の措置を実施。(遮断) フェールオーバー失敗原因は設定ミス フェールオーバーに失敗した理由が特定できたとして10月5日に発表。 障害発生時のフェー

    2020年10月に発生した東京証券取引所のシステム障害についてまとめてみた - piyolog
    cad-san
    cad-san 2020/10/02
    組み込みLinux屋だけど、ハードが壊れた時にソフト的に何が起こるかはman見て想像するけど、実際の所本当に何が起こるかはカーネルコードでも見ないと解らんからなぁ。
  • 障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳

    先日のAmazon SQSの障害には色々と肝を冷やした人も多いのではないでしょうか。 classmethod.jp 今回のようなケースとは別に障害は大小あれど、みなさん日々戦っていることだと思います。 障害対応はエンジニアの花形であるものの、サービスに対する知識やソフトウェアの知識など経験と技術の両方が必要です。 そのため、どうしてもトラブルシューティングはエースエンジニアなどの一部の人に依存してしまう…などの問題が発生しがちです。 そこで今日は私の経験から障害対応のいろはを書いて行きたいと思います。 今回のスコープの外 実際に障害時の具体的な対応、例えば障害切り分けやRDBMSのボトルネックの探し方などの話はしません。 まずissueを作ると良い 題です。 トラブルを認知したらまずはissueを作りましょう。 issueを作るときはtemplateが事前に設定されていると便利です。 g

    障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳
  • 「ただならぬ空気を感じる」年末年始の3日間でシステム更新予定だった無印良品ネットストア、サービス再開できず"2020年1月上旬"と未定に

    Miyahan @miyahancom MSP事業者で監視システムの運用や業務標準化・自動化をやっています。今後は運用設計をやっていきたいけど学がない。体重2桁死守。 / ex 大手通信会社で壊れたルーターを取り替えるだけの夜勤作業員 miyalog.hatenablog.jp Miyahan @miyahancom 無印良品ネットストア、年末年始の3日間でシステム更改する予定だったが未だにサービス再開できず、メンテ期間が "〜2020年1月上旬" と未定になり、ただならぬ空気を感じる。合掌。 pic.twitter.com/3OmUauoBuH 2020-01-06 15:45:30

    「ただならぬ空気を感じる」年末年始の3日間でシステム更新予定だった無印良品ネットストア、サービス再開できず"2020年1月上旬"と未定に
    cad-san
    cad-san 2020/01/07
    ビジネスサイドとテックサイドがかち合って、テックサイドが折れたら爆発四散した…ような
  • 図で技術的に何が起きたかを解説 スマホゲーム『偽りのアリス』の不具合報告がやたら丁寧と話題に「BtoBみたいな報告で草」「なんだこの説明量は」

    偽りのアリス 公式アカウント @itsuwari_alice 今回のサーバー障害に関する詳細情報をご報告致します。 ユーザーの皆様には大変ご迷惑をお掛け致しました事 改めてお詫び申し上げます。 今後とも偽りのアリスを何卒宜しくお願い致します。 #イツアリ pic.twitter.com/0KSXAEA0Ab 2019-12-18 22:24:27

    図で技術的に何が起きたかを解説 スマホゲーム『偽りのアリス』の不具合報告がやたら丁寧と話題に「BtoBみたいな報告で草」「なんだこの説明量は」
  • ソフトバンク大規模通信障害の原因:Geekなぺーじ

    2018年12月6日、ソフトバンクのネットワークにおいて、4時間25分にわたり約3060万回線の利用者に影響を及ぼす通信障害が発生しました。 ソフトバンクおよびワイモバイルの4G(LTE)携帯電話サービス、「おうちのでんわ」、Softbank Air、3Gサービスなどが影響を受けました。 この障害は、EricssonのMME内部にハードコーディングされた証明書が期限切れになったため、SGSN-MME(Serving GPRS Support Nodex - Mobility Management Entity)が再起動を繰り返してしまったのが原因です。 ただ、証明書が期限切れになることで、なぜ大規模な通信障害に繋がってしまうのかが良くわかりませんでした。 どのような設計をしたら、証明書が期限切れになったことで通信機器が再起動を繰り返すような状況になるのか、昨年段階では、いまいち理解できなか

  • 1