タグ

system failureに関するnoritadaのブックマーク (26)

  • GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット - Publickey

    果たしてGitLab.comで何が起きたのでしょうか? これまでの経緯をまとめました。 スパムによるトラフィックのスパイクからレプリケーションの不調へ GitLab.comは今回のインシデントについての詳細な経過を「GitLab.com Database Incident - 2017/01/31」で公開しています。また、もう少し整理された情報がブログ「GitLab.com Database Incident | GitLab」にも掲載されています。 これらのドキュメントを軸に、主なできごとを時系列に見ていきましょう。 1月31日16時(世界協定時。日時間2月1日午前8時)、YP氏(Yorick Peterse氏と思われる)はPostgreSQLのレプリケーションを設定するためにストレージの論理スナップショットを作成。これがあとで失われたデータを救う幸運につながります。 1月31日21時

    GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット - Publickey
  • システム運用とシステム構築、どちらが先か - orangeitems’s diary

    インフラエンジニアっぽい記事をたまには。 システムには、構築の時期があって、そして運用の時期が訪れる。 構築時期をあらかじめ顧客と決め、ある時期から顧客が使い続ける。使い続けている中でいろいろと変更対応は必要になるので、これを運用と言う。 構築、運用。 あまりにも相対している概念なので、システムに携わる人々は、必ず構築部門か、運用部門の二つに分けられる。 ちなみに、私は構築から運用まで全部やってきた。区切りなく全部。ただ、業務が増えていくに従い全部自分でやるのはかえって無責任ということになった。なぜなら、私がいなくなったら誰もできなくなるからだ。会社ならば、誰かが欠けても支え合えるようにしておかないと存亡の危機となる。だから、私は最近、運用を少し離れ気味になりつつある。 さて、あまり経験のない若手が、さて構築を先にやったほうがいいか。それとも運用から入った方がいいか。この議論は私が若い頃・

    システム運用とシステム構築、どちらが先か - orangeitems’s diary
    noritada
    noritada 2023/06/05
    自分も運用が先だった。同感。
  • 川崎市様における証明書誤交付ついて(お詫び)

    川崎市様における証明書誤交付ついて(お詫び)2023年5月2日に川崎市様において、証明書交付サービスと戸籍システムを連携させるために当社が開発した個別連携システムの通信連携プログラム(以下、当該プログラム)不具合により、証明書交付サービスで申請された方とは異なる住民の方の戸籍全部事項証明書が発行されるという事象が発生いたしました。 川崎市様ならびに証明書交付サービスをご利用の皆様に多大なるご迷惑ご心配をおかけいたしましたことを深くお詫び申し上げます。 事象の原因は、2か所のコンビニで、2名の住民の方が同一タイミング(時間間隔1秒以内)で証明書の交付申請を行った際に、後続の処理が先行する処理を上書きしてしまうことによるものです。事象の原因となった当該プログラムの不具合は、既に修正および入れ替えを完了しております。なお、当該プログラムは川崎市様以外では使用されておりません。 当社はこれまで

    川崎市様における証明書誤交付ついて(お詫び)
  • 川崎市のコンビニで他人の戸籍謄本誤発行 「2人同時に発行申請すると上書き」バグが原因 富士通

    富士通Japanは5月9日、神奈川県川崎市のコンビニの証明書交付サービスで、他人の戸籍謄が発行された問題について、原因を公表した。 「2カ所のコンビニで、2人の住民が同一タイミング(1秒以内)で交付申請した際に、後続の処理が先行する処理を上書きしてしまう」プログラムのバグが原因だったという。 このプログラムは川崎市以外では使われておらず、他の自治体で起きた問題と原因は異なる。バグは既に修正・入れ替えたとしている。 富士通Japanの証明書交付サービスは、全国200弱の自治体に導入されているが、川崎市の他、横浜市、東京都足立区で、他人の住民票の写しを誤って発行するなどの問題が発生。それぞれ別のプログラムが原因であることが分かっている。 河野太郎デジタル大臣は5月9日の記者会見で、同システムの一時停止を富士通Japanに要請したと発表。同社は9日付のニュースリリースで、「サービスの総点検は既

    川崎市のコンビニで他人の戸籍謄本誤発行 「2人同時に発行申請すると上書き」バグが原因 富士通
  • ANAシステム障害の発端はDB両系ダウン、原因特定へ「書き込み処理を絞り込み中」

    全日空輸(ANA)は2023年4月4日、4月3日午後に発生した旅客系基幹システム「able-D」の障害について記者会見を開いた。この中で同社は、障害の発端はable-Dに連なるデータベースが2系統同時にダウンしたことだと明らかにした。同社ではソフトウエアに何らかの原因があるとみて、引き続き原因の特定を進めている。 続報(2023年4月7日) ANAシステム障害の原因判明、DB並列参照時にパッチ未適用の既知バグでフリーズ ANAではable-Dについて、障害対策の観点で同一構成の「A系」「B系」の2系統を用意しており、番系と待機系を定期的に入れ替えている。またA系、B系のそれぞれについて、「DB1」「DB2」という2系統のデータベースを接続しており、DB1とDB2は常にデータが同期されている。 今回のシステム障害が発生した4月3日の午後2時16分ごろ、番運用中だったA系の基幹システムに

    ANAシステム障害の発端はDB両系ダウン、原因特定へ「書き込み処理を絞り込み中」
    noritada
    noritada 2023/04/05
    本番系と待機系を定期的に入れ替えているあたりは、さすが社会インフラを担う会社としてしっかりしているという印象。
  • ランサムウエア起因による大阪急性期・総合医療センターのシステム障害についてまとめてみた - piyolog

    2022年10月31日、大阪急性期・総合医療センターは電子カルテシステムの障害発生により、緊急以外の手術や外来診療を停止していると公表しました。障害はランサムウエア攻撃が原因と病院は明らかにしています。ここでは関連する情報をまとめます。 障害影響で通常診療が一時停止 システム障害が発生したのは、大阪府立病院機構 大阪急性期・総合医療センター。大阪市の総合病院で診療科36、病床数865床。高度救命救急センター、地域がん診療連携拠点病院にも指定されている。 ランサムウエアによる実被害及び被害拡大防止措置による影響を受け2022年10月31日20時時点で電子カルテシステム及び関連するネットワークが完全に停止中。そのため、同センター内で電子カルテが閲覧できない状況となった。*1 障害の影響を受け、緊急的対応を要するものを除いた、外来診療、予定手術、新規救急受入の一時的な停止を行っている。システム障

    ランサムウエア起因による大阪急性期・総合医療センターのシステム障害についてまとめてみた - piyolog
  • 障害報告書を書こう! - Qiita

    担当しているITサービスなどに何かしらのインシデントや障害が発生した時に、対処後のアクションとして報告書を提出して事象の内容を報告(レポート)する場合がある。 提出先は会社の偉い人だったりクライアントだったり。場合によってはユーザー向けに発表したり。事の顛末を報告して「今後同様のことを起こさないように努力します、ごめんなさい」をするのだ。どのように再発防止の努力するのかを書くものでもある。 主にクライアント向けのビジネス内容ではあるが、自分が使っているテンプレパターンを共有するので参考にしてもらえればと思う。1 全般的なポイント 心得のようなもの。次の点は留意してて欲しい。 淡々と冷静な説明をこころがける 当然のことながら事実は脚色しない。無駄な修飾も要らない。客観的な事実を簡潔に述べる。 例: ❌「一生懸命頑張って対応したが…」 ❌「寝ないで対応したが…」 ❌「当の原因は…」 できるだ

    障害報告書を書こう! - Qiita
  • auの障害、報告ページを見るだけで胃が痛い…一時間に一回、進展のない事を淡々と報告せざるを得ないリリース「ある意味これは誠意」

    たにぐち まこと/学ぶ。をちゃんと @seltzer 『よくわかるPHPの教科書』や『マンガでマスター プログラミング教室』の著者。 ともすたで、プログラミング教育やこども向けの講座などを Udemyや YouTubeで展開しています。チャンネル登録こちら ≫ 01w.me/tomo tomosta.jp たにぐち まこと/学ぶ。をちゃんと @seltzer auの障害、報告ページを見るだけで胃が痛い。1時間に1回、進展のないことを淡々と報告せざるをえないリリース。一見すると味気なく見えるが、これを毎時間エンジニアから「進展なし」と伝えられて、同じ文面をアップし続ける担当者さんもなかなかの試練。がんばれ。 pic.twitter.com/v3lLcLorNP 2022-07-02 21:44:05

    auの障害、報告ページを見るだけで胃が痛い…一時間に一回、進展のない事を淡々と報告せざるを得ないリリース「ある意味これは誠意」
  • KDDI高橋社長が通信障害を陳謝、原因はコアルーター交換時の不具合とアクセス集中

    今回の通信障害では、音声電話やSMSが一時つながらなくなったほか、データ通信がつながりにくかったり途切れたりといった状態になった。影響を受けた回線数は7月3日午前11時時点の概算で最大約3915万回線。内訳はスマートフォン・携帯電話が同約3580万回線、MVNO(仮想移動体通信事業者)向け回線が同約140万回線、IoT(インターネット・オブ・シングズ)回線が同約150万回線、「ホームプラス電話」回線が同約45万回線。 通信障害のきっかけとなったのは、メンテナンスの一環としてモバイルコア網と全国各地の中継網をつなぐコアルーターのうち、1拠点で旧製品から新製品へ交換する作業。これに伴い通信トラフィックのルート変更を実施している際に「VoLTE交換機でアラームが発生した」(高橋社長)。確認したところ「ルーターのところで何らかの不具合が起き、一部の音声トラフィックが不通になったことが判明した」(同

    KDDI高橋社長が通信障害を陳謝、原因はコアルーター交換時の不具合とアクセス集中
  • au通信障害の原因、設備故障に伴うVoLTE交換機におけるトラヒックの輻輳

    au通信障害の原因、設備故障に伴うVoLTE交換機におけるトラヒックの輻輳
  • KDDI通信障害 設備の一部に不具合 復旧メド立たず 影響広がる | NHK

    auなどを展開する携帯大手のKDDIで、2日未明から大規模な通信障害が起き、全国で携帯電話の通話やデータ通信がつながりにくい状況が続いています。設備の一部に不具合が起きたことによるもので復旧のメドは立っておらず、影響は個人の利用者だけでなく事業者のサービスにも広がっています。 KDDIによりますと、2日午前1時35分ごろから大規模な通信障害が起き、全国で▽auのほか、同じ回線を使っている▽UQモバイルと▽povoの通話やデータ通信がつながりにくい状況になっています。 3つのブランドの一般の利用者の契約数はことし3月末時点であわせておよそ3097万件で、このうち今回、どの程度影響が及んでいるかは分かっていません。 また、▽auの回線を利用している事業者のサービスにも影響が出ているとしています。 原因について会社では、音声通話に必要な機器に不具合が発生し、通話などが集中しないよう通信量を絞った

    KDDI通信障害 設備の一部に不具合 復旧メド立たず 影響広がる | NHK
  • 全国的に発生している通信障害の影響について(2022年7月4日07:00時点) | ヤマトホールディングス株式会社

    お客さま各位 いつもヤマト運輸をご利用いただき誠にありがとうございます。 7月2日未明から発生している通信障害の影響で、一部地域ではコールセンターにお電話が繋がりにくい、 セールスドライバーへのお電話が繋がらない、セールスドライバーからお客さまにお電話ができない、 オープン型宅配便ロッカーPUDOを利用した荷物の発送や受取ができない状況が発生しています。 また、コールセンターやホームページに非常に多くのお問い合わせをいただいており、 ご回答までにお時間をいただいています。 お客さまにはご不便、ご迷惑をおかけしてしまい、誠に申し訳ございません。 何卒ご理解いただきますよう、よろしくお願いいたします。

    全国的に発生している通信障害の影響について(2022年7月4日07:00時点) | ヤマトホールディングス株式会社
  • auで通信障害 全国で音声・データがつながりにくい状況続く【午後1時時点で未復旧、めど立たず】

    影響範囲は全国、対象となるのは音声通話とデータ通信の両方。auやUQ mobile、povo2.0などKDDI系の各モバイル通信サービスで影響が出ているとみられる。原因は明かしていない。 追記:午前8時50分 いまだ復旧めど立たず KDDIは2日午前8時に障害情報の第2報を公開した。引き続き、通信サービスがつながりにくい状況が続いているという。 同社は取材に対し「復旧に当たっているがめどは立っていない。原因は調査中」と回答した。 追記:午前9時10分 第3報公開、状況変わらず 同社は午前9時に障害情報の第3報を公開。午前9時時点でも状況は変わっていないとしている。 追記:午後1時 1時間ごとに情報更新も復旧の見通しなく 同社は第3報以降、午後1時まで1時間ごとに最新の状況を発表している。しかし、午後1時時点の発表でも復旧のめどは立っていない。正午以降、障害に伴ってKDDIお客さまセンターの

    auで通信障害 全国で音声・データがつながりにくい状況続く【午後1時時点で未復旧、めど立たず】
  • 知っておきたい!システム障害時に使う英語 Part2:ITpro

    皆さん,新年明けましておめでとうございます。英語圏ではこれに相当するのが「Happy New Year!」ですが,使用できる期限は要注意ですよ。 もう年内会うことがないと思われれば,クリスマス前から「よいお年をお迎えください」のつもりで“I wish you a happy new year”を使うことができます。 元旦は,「おはよう,こんにちは」の代わりに“Happy New Year!”(I wish youが無いことに注意)が連発されます。。 でも“Happy New Year!”の賞味期限もせいぜい3日まで。2日から平常に戻るアメリカでは,新年初めての顔合わせだからと「明けましておめでとうございます。今年もどうぞよろしく」のつもりで“Happy New Year!”と挨拶すると,きょとんとした顔が戻ってくることがあります。そういうときは,すばやく「How were your hol

    知っておきたい!システム障害時に使う英語 Part2:ITpro
  • 知っておきたい!システム障害時に使う英語:ITpro

    年の瀬も迫ってきました。クリスマスへのカウントダウンも始まりましたね。今年は電飾が流行りなのでしょうか,家々の飾りつけが例年よりも賑やかなようです。クリスマスショッピング狂想曲を避けるため,早くからプレゼントの買い置きを計画する私ですが,今年も計画倒れ。今になってインターネットで注文するも,「バックオーダー受付中」のメッセージにパニックになっています。 7年前,大晦日を返上して待機していたY2K問題は,もう遙か遠い記憶の彼方に遠のいてしまいましたが,それでも毎年,年末年始は,ソフトウェアの更新,ネットワークの切り替えなど大きな作業が計画されるが故にノンビリできません。 ネットワークのダウンは“Outage” さて,GWや年末年始など多くの人々が連休を謳歌する時に限ってシステムの「障害」が発生し,ITプロの皆さんは呼び出しを喰らうことが多いのではありませんか?しかも大きな障害では2次サポート

    知っておきたい!システム障害時に使う英語:ITpro
  • 京大のスパコンでファイル約77TB分が消失、実行中のスクリプト更新で誤動作

    2021年12月、京都大学のスーパーコンピューターがトラブルに見舞われた。学術論文に使う重要データなど、実に77テラバイト(TB)分のファイルが消失した。ITベンダーの担当者が実行中のスクリプトを不用意に更新したのが原因だった。来はログ削除の処理が利用者のファイルを削除する誤動作を引き起こした。ミスを犯したITベンダーも問題だが、監督不十分だった京都大学の責任も重い。 「弊社100%の責任によりLustreファイルシステムのファイル消失の重大障害を来し、多大なるご迷惑をお掛けしたことを深くお詫び申し上げます」 京都大学が2021年12月28日に公表した「スーパーコンピュータシステムのファイル消失のお詫び」のお知らせには、大規模なデータ消失を引き起こした日ヒューレット・パッカードが同大学宛てに提出した報告書がリンクされていた。「弊社100%の責任」という説明は、ITベンダー側の「完全降伏

    京大のスパコンでファイル約77TB分が消失、実行中のスクリプト更新で誤動作
  • みずほ銀行 法人向けネットバンキングに不具合 復旧めど立たず | NHKニュース

    みずほ銀行で、法人向けのインターネットバンキングのシステムに不具合が発生し、ログインしにくい状況になっています。 復旧のめどは今のところ立っていないということです。 発表によりますと、11日午前8時ごろから法人向けのインターネットバンキング「みずほeービジネスサイト」のシステムに不具合があり、ログインしにくい状況になっています。 このサービスは、振り込みのほか、海外への送金や為替に関連した取り引きなどができるものですが、利用している顧客数は公表しないとしています。 今のところ復旧のめどは立っていないということで、銀行では顧客に対して11日付けの振り込みなど、急ぎの取り引きを予定している場合はATM=現金自動預け払い機や店舗の利用を検討するよう呼びかけています。 みずほ銀行は「お客様に多大な迷惑をおかけしていることを深くおわびします」とコメントしています。 みずほ銀行は去年8回のシステム障害

    みずほ銀行 法人向けネットバンキングに不具合 復旧めど立たず | NHKニュース
  • スーパーコンピュータシステムのファイル消失のお詫び | お知らせ | 京都大学情報環境機構

    京都大学学術情報メディアセンター センター長 岡部 寿男 2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました. 皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます. 今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします. ファイル消失の影響範囲 ・対象ファイルシステム: /LARGE0 ・ファイル削除期間:2021年12月14日 17時32分 ~ 2021年12月16日 12時43分 ・消失対象ファイル:2021年12

  • スーパーコンピュータシステムのファイル消失のお詫び | お知らせ | 京都大学情報環境機構

    京都大学学術情報メディアセンター センター長 岡部 寿男 2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました. 皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます. 今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします. ファイル消失の影響範囲 ・対象ファイルシステム: /LARGE0 ・ファイル削除期間:2021年12月14日 17時32分 ~ 2021年12月16日 12時43分 ・消失対象ファイル:2021年12

    noritada
    noritada 2021/12/28
    シェルスクリプトにおける未定義変数の使用という直接原因は想像できるとして、テストやレビューなどのプロセス面が気になる。シェルスクリプトを生業としていそうだからちゃんとしていそうなんだけど。
  • 世界中のウェブサイトの一斉ダウンの引き金となったCDNサービス「Fastly」が「ある利用者の設定変更が原因」と釈明

    2021年6月8日、イギリスの公共放送BBCや画像共有サービスのPinterest、ソーシャルニュースサイト・Reddit、学術系サイトのThe Conversationなど、一見すると互いに無関係な大手ウェブサービス・ウェブサイトが一斉に停止しました。この一件は、これらがいずれも「Fastly」というコンテンツデリバリネットワーク(CDN)を用いていたことが原因だったと判明していますが、そのFastlyが新たに「ある利用者の設定変更よってサービス全体がダウンした」と釈明しました。 Summary of June 8 outage | Fastly https://www.fastly.com/blog/summary-of-june-8-outage 2021 年 6 月 8 日に発生した障害について | Fastly https://www.fastly.com/jp/blog/sum

    世界中のウェブサイトの一斉ダウンの引き金となったCDNサービス「Fastly」が「ある利用者の設定変更が原因」と釈明