タグ

運用と障害に関するma7eのブックマーク (3)

  • [続報]マイナンバーシステムでまた障害、中継サーバー増設も不具合続く

    マイナンバー制度の関連システムを運用する地方公共団体情報システム機構(J-LIS)は2016年1月25日、同日まで断続的に「カード管理システム」で障害が発生し、一部の自治体(市区町村)で個人番号カード交付などの業務が滞ったと発表した。 J-LISは既に1月13日、18日、19日にもシステム障害が発生したことを明らかにしている。その後、21日、22日、25日にもそれぞれ10~40分程度障害が発生し、自治体からの処理要求の一部をこなせなくなった。 J-LISの説明によれば、21日以降の障害はいずれも「住基ネット中継サーバー2号機」の動作が不安定になったことが原因である(図)。2号機では18日と19日にも障害が発生したが、部品交換によっていったん収束した(関連記事:部品交換でマイナンバー「中継サーバー」障害解消、根原因はなお不明)。だがその後も再発を繰り返している。 根的な原因は今も分かって

    [続報]マイナンバーシステムでまた障害、中継サーバー増設も不具合続く
  • システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita

    IT界隈でエンジニアしていると、よく出くわすのが障害対応です。できれば会いたくないという人が多いと思うんですが、僕はけっこう好きです。障害対応。どこに原因があるのか調査をして、バランス良くベターな対応をしたときの楽しさは、プログラミングとはまた違ったものがあります。探偵っぽい感じが面白いですよね。もちろん、障害が発生しない状況を作るのが一番です 弊社では数多くのWebサービス/アプリを運営しているので、過去様々な障害対応をしてきました。その際に、解決までどんな道筋を僕がたどるのかを振り返ってまとめてみました。これが大正解なんてことはなく、人や事象によって違うとは思いますが。 なお、障害検知手法とか、サーバのコマンドとか、コードのデバッグ手法とか、具体的なことは一切出てきません。手続きと思考プロセス的な話です。 障害対応フローチャート 一般的な感じだと思いますが、障害報告から対応完了までのフ

    システム障害と僕達はいかにして戦えば良いのか、障害対応について考えた - Qiita
  • サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開

    サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開 米国でビデオオンデマンドサービスを提供しているNetflixは、Amazonクラウド上でわざとシステム障害を起こすためのツール、Chaos Monkeyをオープンソースで公開しました。 Chaos MonkeyはAmazonクラウド上で使うツール。Amazonクラウド上のインスタンスをランダムに落としまくることで、サービスに対して仮想的な障害を引き起こしてくれます。 NetflixはこのChaos Monkeyを実環境で使うことで、物の障害が起きたとしてもサービスが継続できることをテストし続けてきました。Netflixのブログ「Chaos Monkey released into the wild」から引用します。 There are many fail

    サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開
  • 1