[B! 障害] buty4649のブックマーク

全銀システム障害、全銀ネットの対応で不足していたもの【鈴木淳也のPay Attention】

buty4649 2023/10/27

障害

リンク

オンライン DDL を期待して ALTER 文を実行したら障害になりかけた話 - カミナシエンジニアブログ

こんにちは。ソフトウェアエンジニアの坂井 (@manabusakai) です。カミナシではマルチプロダクト化に向けて、認証・認可の切り出しを進めています。その対応を進める中で、既存テーブルへのカラム追加が必要になりました。先日、そのリリースのために本番データベースにマイグレーションの ALTER 文を実行したところ、クエリが詰まって危うく障害になるところでした（幸いすぐにキャンセルして事なきを得ました）。原因を調べたところ、オンライン DDL は複数の条件が関係することがわかりました。オンライン DDL に対する知識不足と事前検証の甘さゆえのミスでしたが、結果的には良い学びが得られました。カミナシのバリューのひとつである「全開オープン」の気持ちで、事の顛末やそこから得た学びを公開します。なお、今回の話は MySQL 5.7 互換の Amazon Aurora MySQL 2 で確

buty4649 2023/10/23

mysql
障害

リンク

【1月23日追記】12月23日、24日に発生しました障害に関するご報告

いつもSkebをご利用いただき、誠にありがとうございます。 12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。本障害につきまして詳細をご報告させていただきます。概要日時: 12月23日12時22分〜12月24日7時00分 (JST) ダウンタイム: 18時間38分内容: skeb.jpにアクセスできない不具合原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。解決: Herokuの一切の利用を中止し、すべてのサーバとシステ

buty4649 2022/12/24

リンク

2020年10月に発生した東京証券取引所のシステム障害についてまとめてみた - piyolog

2020年10月1日、東京証券取引所はアローヘッドの機器故障によりシステム障害が発生し、終日売買を停止すると発表しました。故障した機器は交換が行われ、取引は翌日再開されています。ここでは関連する情報をまとめます。機器故障起きるも縮退運用に失敗障害概要図アローヘッド内の共有ディスク装置1号機で機器故障が発生した。実際故障したのはサーバー上のメモリ周辺機器とされる。 1号機故障により両現用で稼働していた2号機のみのフェールオーバー（縮退運用）が行われるはずだったが何らかの問題により行われなかった。共有ディスク装置を使用する相場配信、売買監視のシステムで障害が発生。障害復旧時に発生する注文データ消失による市場混乱を避けるため当日終日の取引停止の措置を実施。（遮断）フェールオーバー失敗原因は設定ミスフェールオーバーに失敗した理由が特定できたとして10月5日に発表。障害発生時のフェー

buty4649 2020/10/02

障害

リンク

エンジニアが重要なパッチを誤抜去、Cloudflareが停止

エンジニアが重要なパッチを誤抜去、Cloudflareが停止 Data Center Cafe 2020.04.171,723 views 現地エンジニアが2か所の基幹データセンターの内の1か所で、複数の冗長光ファイバ回線を抜去した事が原因で、Cloudflare(クラウドフレア)で大規模な障害・停止が発生しました。この事故は、計画メンテナンス中に発生し、同社はその原因を、エンジニアではなく、乱雑な作業指示、及び不十分なケーブルラベルによるものだったとしています。 Cloud flare-up(クラウド炎上) 「当社のコアデータセンターの1つで、計画メンテナンスの一環で、ある1ラックの全機器の撤去を現地エンジニアに指示した。」と同社のCTO John Graham-Cumming氏はブログに投稿しています。「そのラックには、撤去予定の古い非稼働機器が設置されており、ラック内には、ど

buty4649 2020/04/17

リンク

誰も教えてくれなかったMySQLの障害解析方法 - Qiita

それほどDBに詳しくないアプリエンジニアが何かトラブった時にすぐさま行動して問題把握できるようになる情報を列挙しておきます。開発時、障害時の対処療法やちょっとした定期監視方法などを対象にしています。抜本的な対策などはインフラエンジニアさんにお任せしたほうがいいと思います。 DBはいろんな意味でこわいんでできれば触りたくないです＞＜事前確認 MySQLサーバーのシステム設定値を確認しておく以下のようにサーバーのシステム設定値を確認できます。 mysql> SHOW GLOBAL VARIABLES; # ワイルドカード(%)を用いた絞り込み mysql> SHOW GLOBAL VARIABLES LIKE 'performance_schema%'

buty4649 2014/07/13

リンク

エンジニアなら知っておきたい障害報告&再発防止策の考え方 - Qiita

システムには障害がつきものです。どんなにしっかりと作られたサービスであっても思わぬところで、バグやミスが発覚して、トラブルになるものです。大事なのはこういった障害を次への糧にしていくこと。失敗というのは大事な資産なので、管理できるようにしましょうという話。あわせて読みたいあきらめるにはまだ早い！ソースコードの品質向上に効果的なアプローチメンタリングの方法について基礎をまとめました。内心でなく行動を変えることが障害報告とも共通します。新入社員が来てメンターになれって言われたけど、どうすればいいのかという対話テクニック半年で40kg痩せた！ダイエットでわかるリーンなプロジェクトマネジメント手法心理的安全性ガイドライン（あるいは権威勾配に関する一考察）障害の種類と障害報告について障害には、小さなもの、たとえば画面に表示されているテキストの乱れから、すべての画面で50xエラーが発生

buty4649 2014/01/19

リンク

データセンター移転とDRBD - Cybozu Inside Out | サイボウズエンジニアのブログ

@ymmt2005 こと山本泰宇です。今回は去る 5 月から 6 月にかけて行った、cybozu.com のデータセンター移転作業について、失敗してしまったことを中心に解説します。失敗と書いたのは、移転作業中に何度か、一部のお客様環境でストレージ高負荷による障害を起こしてしまったためです。移転作業自体はスケジュール通り進行し、6 月第二週に完了しています。障害に関しては、こちら（PDF）でお詫びとご報告をしていますが、この記事では技術面ならびに障害を引き起こすにいたった背景について詳述します。移転に至った背景移転方式の検討ストレージ同期の方法 DRBD による同期の詳細まずは自社環境を移転、成功そして障害は発生したなぜ障害につながったのかまとめ移転に至った背景まず、なぜデータセンターを移転することにしたかを説明します。端的に言うと、当時のデータセンターが手狭になり拡張

buty4649 2013/07/23

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

障害に関するbuty4649のブックマーク (8)

お知らせ

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス