タグ

supportとoperation managementに関するminotonのブックマーク (3)

  • みずほ銀行システム障害の原因に疑問、気になる「前日の運用」

    みずほ銀行で2021年2月28日に起きたシステム障害は、同行が保有する7割超のATMに不具合が出るなど、顧客に大きな影響を与えた。直接の原因は、同日に行った定期預金に関するデータ更新作業でシステムのキャパシティーを超えた負荷がかかり、処理に失敗したことだ。 「見積もりをした上でテストしたが、これが不十分。運用面で見積もりの甘さがあった」。3月1日に開いた記者会見で、みずほ銀行の藤原弘治頭取は、システム負荷が想定を超えた理由に言及した。 会見で質疑応答が進み、障害が発生した経緯、処理内容、データ量などが明らかになるにつれ、ある疑問が湧いてきた。もしかしたら障害を回避できる可能性があったのではないか。気になるのが「前日の運用」だ。 想定以上のデータ量でメモリー不足に まず2月28日の日曜日に何が起きたのかを会見内容を基に追っていこう。定期預金に関するデータ更新作業は2種類あった。1つは定期預金

    みずほ銀行システム障害の原因に疑問、気になる「前日の運用」
    minoton
    minoton 2021/03/09
    さすがにリソース監視がないとは思えないし、80%超えれば最低ワーニングは出てるだろう
  • GitLab.comはどうやって6TBのPostgreSQLを9.6から11にたった2時間で移行したのか? | DevelopersIO

    GitレポジトリのホスティングサービスGitLab.comは2020年の5月に 6TB あるPostgreSQL 9.6クラスターをたった2時間のメンテウィンドウ中に11.7へアップグレードしました。 GitLab.comのエンジニアブログに、このPostgreSQLのメジャーアップグレードプロジェクトが解説されていたので、かんたんにご紹介します。 How we upgraded PostgreSQL at GitLab.com | GitLab ポイント PostgreSQL 9.6から 11.7 へのメジャーアップグレード 2時間のメンテナンスウィンドウ内でアップグレード完了 データサイズは6TB DBクラスターは GCP 上の 12台の VM インスタンスで構成 クラスターはアップグレード用の8台とリカバリー用の4台に分割 pg_upgrade & ハードリンクでインプレースアップグ

    GitLab.comはどうやって6TBのPostgreSQLを9.6から11にたった2時間で移行したのか? | DevelopersIO
  • バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング

    こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。 バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。 過去の記事はこちらにあります。 運用に備えて バッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。 プリモーテム ポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSREの15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。 さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使

    バッチプログラムの運用と監視について検討しよう | メルカリエンジニアリング
  • 1