タグ

障害・トラブルと管理・運用・操作に関するZeroFourのブックマーク (4)

  • 約60時間を非常用電源設備で乗り切った石狩データセンターの奇跡

    2018年9月6日に北海道を襲った震災により、停電状態に陥ったさくらインターネットの石狩データセンターに対し、9月8日ようやく電力供給が再開された。想定を超えた約60時間を非常用電源設備で乗り切り、インフラ事業者としての矜持を見せた石狩データセンターの「奇跡」について、改めてきちんと説明していきたいと思う。 卓越したオペレーション能力で「想定外」を「想定内」に 2011年11月に開設された石狩データセンターは、数多くのサーバーを収容するさくらインターネットの基幹データセンターになる。開設当時はソーシャルゲームの普及でサーバーの需要がうなぎ登りだったほか、環境に配慮したエコなデータセンターが求められていた。こうしたニーズに対応する石狩データセンターは、寒冷地のメリットを活かした外気冷却と東京ドーム1個分に相当する広大な敷地を用いたスケーラビリティが大きな売りだった。私も開設時と増設時で2回ほ

    約60時間を非常用電源設備で乗り切った石狩データセンターの奇跡
    ZeroFour
    ZeroFour 2018/09/11
    「普段あるべきモノが回る」よう運用する人員・部署・企業も手厚く見られるべきなのだが…少人数なら尚更に。「金払ってんだ、徹夜して死ぬ気で直せ」とか、先進化するほどに時間もユーザーや上役の気も短くなる…。
  • ファーストサーバ障害問題:原因はファイル削除コマンド停止の記述漏れ

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます レンタルサーバ事業者のファーストサーバが障害で顧客のメールおよびウェブデータを消失した問題で、同社は「データの復旧が困難」であると発表した。ファーストサーバはさらに中間報告として、障害の概要と原因を明らかにした。主な原因として、サーバに適用する更新プログラムに、ファイルを削除するコマンドを停止させるための記述が漏れていたことを挙げた。 同社は6月20日午後5時ごろ、脆弱性対策を特定のサーバ群に対して実施していた。対策は対象サーバ群に対して更新プログラムを一括して適用するもので、以前から実施してい手続きだったという。だが、今回は更新プログラム自体に不具合があったことに加え、検証環境下での確認による防止機能が十分に働かなかったことと、メンテ

    ファーストサーバ障害問題:原因はファイル削除コマンド停止の記述漏れ
  • DSET(Dell System E-support Tool)でサーバの故障箇所を特定してみた

    「できるだけ安く」「集積性は問題にしない」という方針のもと、GIGAZINEのサーバは何を血迷ったのかコスト重視で運営するために苦渋の決断としてタワー型をあたかも自宅サーバのようにずらずら並べているわけですが、「AmazonAWSだとコストが割に合わないけど、さくらのクラウドなら移行できるかも」とか夢想していると、エラー通知を出しているサーバを2台ほどシステムが検知。 「なんだなんだ?この年末に……」と思いながらサーバルームへ見に行くことに。 物理的にはこれらしい オレンジ色のランプが点灯中、こいつですね、確定 背面を見ると、2つある電源ユニットの内、右側のランプが消えています 左側は生きていますが、右側は死亡。冗長化電源なのでサーバ自体は動き続けていますが、もちろん早急に交換することに。 もう一方のサーバは電源ユニットは無事、見る限りでは何のエラーかは不明。詳しく調査する必要性がありま

    DSET(Dell System E-support Tool)でサーバの故障箇所を特定してみた
    ZeroFour
    ZeroFour 2011/12/28
    朝飯前なはてな村民も少なくなさそうではあるが…?>"……そう、この記事はサーバトラブルの復旧記録だと思わせておいて、その実態は求人記事だったのです、なんということでしょう!"
  • SankeiBiz(サンケイビズ):自分を磨く経済情報サイト

    サービス終了のお知らせ SankeiBizは、2022年12月26日をもちましてサービスを終了させていただきました。長らくのご愛読、誠にありがとうございました。 産経デジタルがお送りする経済ニュースは「iza! 経済ニュース」でお楽しみください。 このページは5秒後に「iza!経済ニュース」(https://www.iza.ne.jp/economy/)に転送されます。 ページが切り替わらない場合は以下のボタンから「iza! 経済ニュース」へ移動をお願いします。 iza! 経済ニュースへ

    ZeroFour
    ZeroFour 2011/03/23
    システム運用ではどれだけ自動化を進めようとどこかで人間の管理が必要だから…そこにヒューマンエラーというリスクは付き物ではある。突き詰めれば火消しの速度次第ということだが、今回のは大きい…。
  • 1