タグ

関連タグで絞り込む (161)

タグの絞り込みを解除

障害に関するlocke-009のブックマーク (162)

  • データベースの値をちょっとだけ書き換えたら検索に数十分かかる様になって障害になった裏話 - STORES Product Blog

    はじめに 2024年1月にリテール(ネットショップ・レジ)部門からサービス(予約)部門に異動になった @ucks です。 異動してからはスマートリストという機能の開発を行っていて、5月6日に無事リリースできたのと、開発途中で障害に至ってしまった部分があるので、裏側を少し紹介しようかなと思います。 はじめに スマートリストとは スマートリストの設計 検索の仕様変更 高負荷時のハンドリング そして障害へ 見逃した点 DBの実行計画確認時の見逃し 動作確認時の漏れ 監視先の漏れ ログの損失 おわりに スマートリストとは スマートリストの開発についての話を行う前に、まずはスマートリストについて簡単に説明しておきます。 スマートリストとは、特定の条件の顧客をラベリングする機能です。 早い話、最終予約日がいつ、予約回数が何回以上等の顧客の検索条件を保存しておいて、閲覧時にラベリングして、視認しやすくし

    データベースの値をちょっとだけ書き換えたら検索に数十分かかる様になって障害になった裏話 - STORES Product Blog
  • 障害対応を楽しむ7つのコツ

    Cheating the UX When There Is Nothing More to Optimize - PixelPioneers

    障害対応を楽しむ7つのコツ
  • ニコニコ、復旧まで1カ月以上かかる見通し ランサムウェアを含む大規模なサイバー攻撃だった【追記あり】

    ドワンゴは6月14日、ニコニコのサービス全般が利用できない状況になっている障害について、「ランサムウェアを含む大規模なサイバー攻撃によるものであることが確認された」と明らかにした。今後は段階的な復旧を目指すが、1カ月以上かかる見通しだという。 今月8日、グループ企業のデータセンターがランサムウェアを含むサイバー攻撃を受け、相当数の仮想マシンが暗号化され、利用不能になった。その後も攻撃は繰り返し行われ、遠隔でプライベートクラウド内のサーバをシャットダウンしても、攻撃者が遠隔起動させて感染拡大を図るなど攻防が続いたという。 このため、サーバの電源ケーブルや通信ケーブルを物理的に抜いて封鎖したが、グループ企業が提供するデータセンターに設置されているサーバはすべて使用できなくなった。 「冗長構成とかバックアップというのは当然用意しておりましたし、セキュリティ対策というのも様々に実施してはいたのです

    ニコニコ、復旧まで1カ月以上かかる見通し ランサムウェアを含む大規模なサイバー攻撃だった【追記あり】
  • 年度初めの那覇市役所を襲った全庁規模の通信まひ、原因はたった1本のLANケーブル

    「業務システムにもインターネットにもつながらない」。始業直後に報告されたネットワーク障害は、瞬く間に庁舎全体に広がった。システム部員はすぐに原因究明に乗り出した。 どこにも挿さらず放置されているLAN(Local Area Network)ケーブルと、そのすぐそばにポートが余っているスイッチを、ネットワークに関する知識のない人が見つけたらどうするだろうか。「何かの拍子に抜けてしまったに違いない」と、挿してしまうかもしれない。こうした親切心からループが生じ、その影響でネットワーク全体がまひすることもある。 新年度が始まる2024年4月1日朝、那覇市役所全体が突然ネットワーク障害に襲われた。トラブル解決の陣頭指揮に当たったのは、ネットワーク機器の運用を担う情報政策課の伊覇太課長だ。トラブルをどう脱出したのか。経緯を詳しく見ていこう。 「何もできない」と職員が駆け込む 地上12階・地下2階建ての

    年度初めの那覇市役所を襲った全庁規模の通信まひ、原因はたった1本のLANケーブル
  • 【AWS】障害時の調査事項まとめ ~ELB・ECS・RDS~ - Qiita

    はじめに 現在はAWSで構築されたシステムの運用保守業務に携わっており、その一環として障害調査を行うことが多々あります。 少しは経験値が上がったため、障害が発生した際に初動で確認する事項をまとめてみました。 インフラ基盤観点で障害調査を行うさいの参考になれば幸いです。 前提条件 当システムの構成は以下となっているため、それに即した調査項目となっています。 ALB/NLB・ECS・RDSを利用している ECSはEC2上で実行している(Fargateでは利用していない) ECSクラスター(以下クラスター)の自動スケーリング設定をしている ECS サービス(以下サービス)の自動スケーリング設定をしている RDSはAuroraを利用している また、障害は予期せぬコンテナの停止を想定しています。 NLB/ALBの調査事項 メトリクス 初めにロードバランサーのメトリクスからターゲットの状態を確認します

    【AWS】障害時の調査事項まとめ ~ELB・ECS・RDS~ - Qiita
  • 3万2768時間が経過して発生した石巻市戸籍情報システムの障害についてまとめてみた - piyolog

    2024年2月14日、宮城県石巻市は2023年9月に発生したシステム障害について原因がSSDの重大なファームウエア不具合であったと公表しました。ここでは関連する情報をまとめます。 重大な不具合情報が共有されずシステム障害発生 2023年9月当時にシステム障害が発生したのは石巻市庁内で稼働する戸籍情報システム。システムが稼働するサーバー上で使用していたSSDの不具合によりバックアップサーバーを含めてシステム停止が起こり、市役所やコンビニなどで戸籍証明書の発行が行えない事態となった。2日後には最新の戸籍証明書の写しは発行できるようになった*1ものの、完全復旧(除籍や改製原戸籍の証明書発行)には約1か月(2023年9月20日~2023年10月18日)を要することとなった。 障害影響が長期化した理由として、市は当該システム上で取り扱うデータが戸籍にかかわるもので、復旧方法および突合などに万全を期

    3万2768時間が経過して発生した石巻市戸籍情報システムの障害についてまとめてみた - piyolog
  • ゼロから始めるシステム障害対応フロー - Qiita

    初めに 記事 『ゼロから始めるシステム障害対応フロー』 の内容について タイトルの「ゼロから始める」には二つの意味があります。プロダクトのリリースを間近に迎える中、チーム内での障害対応体制の枠組みがなかったこと。そして体制づくりを担当することとなった私の知識・知見が(ほぼ)ゼロだったこと。この二つです。 この状態から、リリース前〜リリース後の約2月間でなんとか形にすることができました。記事ではその過程でぶつかった問題とそれに対する課題、それらにどう対応したのか、何を学んだのか、の紹介。 そして、障害対応体制の策定・構築や改善の流れの中で私が起こした失敗から、人としてリーダーとして何を心がけなければいけなかったのかの反省を共有させてもらいたいと思います。 記事は以下の構成です。 0. 始まり ※ スクラムチームでの話。スクラムチームの登場人物は以下の三つ PO:プロダクトオーナー(Pd

    ゼロから始めるシステム障害対応フロー - Qiita
  • 僕が障害復旧対応時に考えていることを言語化してみる - Qiita

    これまで数多くのシステム障害を復旧してきました。 障害は無いに越したことは無いですし、起こらないように最善を尽くすのが我々エンジニアの使命です。 しかし、どれだけ最善を尽くしても起こる時には起こります。 今回は、これまで数多くの障害を復旧させてきたエンジニアが、復旧作業時に何を考えているのかを改めて言語化してみたいと思います。 こういう情報ってそれぞれのエンジニアの頭の中にあってあまり共有されないので、意外に参考になるかなと思います。 障害復旧対応の醍醐味 表現が適切かは分かりませんが、僕はシステム障害を復旧させるのが大好きです。目の前に起こっている事象からヒントを集め、地道に原因を切り分けてクリティカルヒットを見つけたときは名探偵になった爽快感があります。 加えて、動いているものを常に動かし続ける日頃の保守運用とは異なり、動いてないマイナスの状況を0まで戻すということで、復旧成功した際に

    僕が障害復旧対応時に考えていることを言語化してみる - Qiita
  • まだ日本ではWebアクセシビリティが義務化されません(2024年4月から6月の時点では)

    筆者は、より多くのWebサイトやWebサービスが、より高いアクセシビリティをもつものになることを強く願っています。 (2024/02/04追記)もう少しわかりやすく書き直したものを投稿しました Webアクセシビリティと合理的配慮 「2024年からWebアクセシビリティ対応が義務化される」というようなことが書かれたWeb上の記事が増えているようです。 しかし、2024年1月現在、日で「Webアクセシビリティ」について法的な義務が発生している・または2024年内に発生するようになる法的な根拠はおそらくありません。法律の改正が施行され、「やったほうがいい」度合いは高まっていると解釈できますが、「Webアクセシビリティは義務です」とまでは明言できないはずです。 ところが、「アクセシビリティ 義務化」などでWebを検索すると、「2024年にアクセシビリティが義務化します」と説明していたり、あるいは

    まだ日本ではWebアクセシビリティが義務化されません(2024年4月から6月の時点では)
  • 障害対応で大切だと感じていることのまとめ - Qiita

    私個人の障害対応の経験と 一昨日参加したIncident Response Meetup vol.1での学びから 障害対応において大切だと感じていることをまとめる。 障害とは リリース後のシステムにおいてシステムの不具合やユーザーの操作ミスによってユーザー業務に影響が出ているもしくは出る恐れがあるもの。 障害対応の目的 システムを直すことではなく、ユーザー影響の回避・低減・早期回復をすること。 障害対応に対する心構え システムの信頼性の要である 障害への対応の仕方でユーザー影響が大きく変わる いつ発生するかわからないため特定の人が常に障害対応をするということは不可能である 素早く適切に行動するための備えが重要である 役割分担 障害対応では復旧対応、原因調査、ユーザーへの説明、社内調整などたくさんのことをやる必要がある。 またそれぞれの作業の難易度が高いことも多い。 一人の人間にできることは

    障害対応で大切だと感じていることのまとめ - Qiita
  • 高校出願システム「Gmailに届かない」問題 一部で届くよう対応も、障害まだ解消せず 神奈川県

    神奈川県の公立高校入試のインターネット出願システムで、「@gmail.com」ドメインのアドレスにシステムからのメールが届かない問題が、1週間以上続いている。県は1月17日、条件を満たす一部の受験生について、@gmail.comアドレスでもメールが届くよう対応したと発表した。ただ、障害そのものは解消していないという。 このシステム(志願者用マニュアルPDF)では、受験生が中学校から受け取った書類の二次元コードを読み取って出願サイトにアクセスし、空メールを送ると、「志願者アカウント」作成用ページのURLがメールで届く。アカウント作成ページで個人情報を入力して「志願者登録申請」すると、担任が情報を確認後、出願に必要な「志願者アカウント」が作成される――という流れだ。 だが、多くの受験生が登録を試みた9日から、「@gmail.comのアドレスにシステムからメールが届かない」という問い合わせが相次

    高校出願システム「Gmailに届かない」問題 一部で届くよう対応も、障害まだ解消せず 神奈川県
  • すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ、全銀システム通信障害の詳細を説明 | gihyo.jp

    すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ⁠⁠、全銀システム通信障害の詳細を説明 全国銀行資金決済ネットワーク(以下、全銀ネット)とNTTデータは12月1日、2023年10月10日~11日にかけて全国銀行データ通信システム(以下、全銀システム)で発生した通信障害に関する報道関係者向けの説明会を開催しました。件についてはNTTデータが11月6日に行った途中経過報告の内容をもとにレポートしましたが、今回、全銀ネットとNTTデータが揃って会見を行ったことで、より詳細な障害の原因が判明したので、あらためてその内容を検証してみたいと思います。 説明会の登壇者。左から、全銀ネット 企画部長 千葉雄一氏、事務局長兼業務部長 小林健一氏、理事長 辻松雄氏、NTTデータ 代表取締役社長佐々木 裕氏、取締役副社長執行役員 鈴木正範氏 なお、全銀ネットとNTTデータは、今回の障害に関して金融

    すべてのフェーズでミスが重なった ―全銀ネットとNTTデータ、全銀システム通信障害の詳細を説明 | gihyo.jp
  • 全銀システムの大規模障害、「真の原因」明らかに--全銀ネットとNTTデータが発表

    全国銀行資金決済ネットワーク(全銀ネット)とNTTデータは12月1日、10月10日〜11日に発生した全銀システムの大規模障害の真の原因を明らかにした。 全銀システムは、日常の振込や送金をリアルタイムで処理するシステムで、国内のほぼすべての預金取扱金融機関が利用している。10月のシステム障害では三菱UFJ銀行、りそな銀行など10行で、他行宛の振り込みができないなどの障害が丸2日間継続した。 障害は、全銀システムの中継コンピューターを新機種「RC23シリーズ」へ交換し、その後営業運用を開始した直後に発生した。RC23シリーズ内の「銀行間手数料を処理するためのインデックステーブル」が破損しており、同テーブルを参照する際の処理でエラーが生じたためだ。 中継コンピューターは東京と大阪に1台ずつ、冗長化として設置されていたが、2台同時に新機種のRC23シリーズに切り替えたため、2台ともにソフトウェア障

    全銀システムの大規模障害、「真の原因」明らかに--全銀ネットとNTTデータが発表
  • ルーター不具合による韓国行政ネットワークの大規模なシステム障害についてまとめてみた - piyolog

    2023年11月17日、韓国の地方行政システムで3日にわたる大規模なシステム障害が発生し、韓国内の多くの行政機関の業務に支障が生じ、手続きが行えないなど市民の生活にも大きな影響が及びました。その後の調査を経て、韓国政府はネットワーク機器の異常によるものだったと原因について明らかにしています。ここでは関連する情報をまとめます。 56時間にわたり行政ネットワーク使えず システム障害は認証基盤である行政電子署名証明書(GPKI)システムで発生。韓国では公務員はシステム接続を行う際にGPKIシステムで認証を行っているため、全国の自治体で業務システムを利用できない事態となった。GPKIシステムと接続していた、閉域ネットワーク運用されている韓国内のすべての自治体が利用する「市道セオル行政システム」や行政プラットフォームの「政府24(정부24)」が利用できなくなった。 GPKIシステムは物理サーバー15

    ルーター不具合による韓国行政ネットワークの大規模なシステム障害についてまとめてみた - piyolog
  • テーブル生成プログラムのOS変更対応に不備か、全銀障害のNTTデータG見解

    NTTデータグループは2023年11月6日、銀行間送金を担う「全国銀行データ通信システム(全銀システム)」のシステム障害に関する会見で原因の見解や今後の対応について説明した。「ハードの物理メモリー不足によるものではない」(NTTデータの鈴木正範取締役副社長執行役員)とし、金融機関名テーブルなどのテーブルを生成するプログラムに原因があると見て調査しているという。 10月7日から9日にかけて実施した中継コンピューター(RC)の更改作業ではOSを32ビットから64ビットに変更した。鈴木副社長は「64ビットOSへの変更に当たり生成プログラムを64ビットに対応させなければならない箇所があったが、その部分に不具合があった」との見解を示した。不具合が混入した原因や試験で検出できなかった理由は「現在全銀ネットと共に検証している」(NTTデータの佐々木裕社長)とした。 今後は決済システムや勘定系システムなど

    テーブル生成プログラムのOS変更対応に不備か、全銀障害のNTTデータG見解
  • 全銀ネット障害、いまだ根本原因特定できず メモリ不足の指摘には「分からない」

    全国銀行協会(以下、全銀)は10月18日、銀行間の送金を行う「全国銀行データ通信システム」(全銀ネット)で10日から11日にかけて発生した障害について会見を行い、現状を説明した。未だに根的な原因は特定できず、暫定的な“代替対応”のまま運用しているという。 不具合はシステムのリプレース直後に発生した。全銀は7~9日の3連休を利用し、加盟14銀行の中継コンピュータを「23シリーズ」と呼ぶ新機種に更新した。それまでの「17シリーズ」は各機関に設置していたが、今回は全銀センターに集約して運用する形にした。 9日までに製品単体試験から相互運転試験までいくつもの試験を行っていたが、不具合は見られなかったという。 しかし10日午前8時30分。システムが通信を始めると、10行の中継コンピュータで電文の送受信ができなくなった。りそな銀行や三菱UFJ銀行などで他行宛の振込取引ができない状態になった。 バック

    全銀ネット障害、いまだ根本原因特定できず メモリ不足の指摘には「分からない」
  • 全銀システム障害で新事実、本番稼働前から参照テーブルが破損

    全国銀行資金決済ネットワーク(全銀ネット)は2023年10月18日に記者会見を開き、「全国銀行データ通信システム(全銀システム)」で発生した障害に関する原因調査の状況などを説明した。コアタイムシステムの中継コンピューター(RC)が保有するテーブルが破損しており、「内国為替制度運営費(旧銀行間手数料)」の入力・チェックをする際にエラーが発生していたことを明かした。一方でテーブルが破損した原因については調査中とした。 「今回の問題は当法人だけでなく、我が国の決済システム全体を揺るがす大きな問題と認識している」 全銀ネットの辻松雄理事長は記者会見の冒頭、このように述べて陳謝した。全銀システムは10月10日朝に障害が発生。三菱UFJ銀行やりそな銀行など10金融機関で他行宛ての振り込みに関するオンライン処理などが2日間にわたってストップし、仕向けと被仕向けを合わせて506万件の振込処理に影響が出た。

    全銀システム障害で新事実、本番稼働前から参照テーブルが破損
  • 【X(旧Twitter)】アカウント認証ができない技術的な問題が発生中(2023年9月7日)

    2023年9月7日頃から、X(旧Twitter)の認証「アカウントを認証する」で、エラー「問題が発生しました。技術的な問題が発生したため、リクエストを完了できませんでした。再度お試しください。」が発生しています。 認証でエラー「問題が発生しました。技術的な問題が発生したため、リクエストを完了できませんでした。」が発生中 2023年9月7日頃から、X(旧Twitter)で表示名やユーザー名の変更後、認証「アカウントを認証する」を行うと、エラー「問題が発生しました。技術的な問題が発生したため、リクエストを完了できませんでした。再度お試しください。」になる問題が発生しています。 アカウントを認証する あなたが実在の人物であることを確認する必要があります。 認証する 認証「アカウントを認証する」が完了できない状況 認証「アカウントを認証する」では、同じアイコンが2つ描かれたマスを1つ選ぶことで完了

    【X(旧Twitter)】アカウント認証ができない技術的な問題が発生中(2023年9月7日)
  • 発達障害由来の空気の読めなさから常時叱られ続け二次障害で「回避性」「演技性」パーソナリティ障害などをを併発しモンスター社員化した社員の対処法について考える話 - 頭の上にミカンをのせる

    【想定以上に多くの人に読まれているので追記】バズってるTwitterを見て「そんならどうすりゃいいねん」って思ってこの記事を読み来た人へ。全員「アスペル・カノジョ」と「Shrink!8巻 発達障害者の職場受け入れ編」を読んでくれ。君たちに必要な知識はこの2作品を読めば手に入る。かなり詳しく説明してくれているので、当につらいのであれば絶対に読んだほうがいい。以上。(追記。アスペル・カノジョでどういうことが描かれてるのか一部紹介した記事書いた) アスペル・カノジョ(1) (コミックDAYSコミックス) 作者:萩創八,森田蓮次講談社Amazonwww.tyoshiki.com Shrink!は1巻で「オープン採用」キャリアについても触れているのでこちらも参考にしてほしい。私は発達障害者であっても可能な限り普通の人として頑張りたいという人を応援する立場だが「職場が全く理解してくれなくてつらい」

    発達障害由来の空気の読めなさから常時叱られ続け二次障害で「回避性」「演技性」パーソナリティ障害などをを併発しモンスター社員化した社員の対処法について考える話 - 頭の上にミカンをのせる
  • 手順書の記載ミスで発生したJR東日本のシステム障害についてまとめてみた - piyolog

    2023年6月26日、JR東日は6月24日に発生したシステム障害の原因が電源工事の操作手順に誤りだったと公表しました。システム障害の影響により、Webページの閲覧不可やモバイルSuicaのアプリが利用できないなどが生じました。ここでは関連する情報をまとめます。 4つのシステムに最大半日の影響 システム障害は2023年6月24日0時37分頃発生。電源供給断により各システムのサーバーが停止しシステムの異常を知らせるアラートが相次ぎ発報。*1 夜間処理中に強制的な停止が生じたことで、ハード故障、データ不整合が発生。JR東日は次の4つのシステムに電源断の影響が及んだとしている。 影響を受けたシステム 障害発生時間 障害発生による具体的な影響 JR東日Webシステム 2023年6月24日0時37分~6時33分 Webサイトの閲覧不可 ビューカードシステム 2023年6月24日0時37分~9時2

    手順書の記載ミスで発生したJR東日本のシステム障害についてまとめてみた - piyolog