タグ

運用に関するEimelle555のブックマーク (2)

  • Linuxサーバにログインしたらいつもやっているオペレーション - ゆううきブログ

    主にアプリケーション開発者向けに、Linuxサーバ上の問題を調査するために、ウェブオペレーションエンジニアとして日常的にやっていることを紹介します。 とりあえず調べたことを羅列しているのではなく、当に自分が現場で使っているものだけに情報を絞っています。 普段使っているけれども、アプリケーション開発者向きではないものはあえて省いています。 MySQLNginxなど、個別のミドルウェアに限定したノウハウについては書いていません。 ログインしたらまず確認すること 他にログインしている人がいるか確認(w) サーバの稼働時間の確認 (uptime) プロセスツリーをみる (ps) NICやIPアドレスの確認 (ip) ファイルシステムの確認(df) 負荷状況確認 top iostat netstat / ss ログ調査 /var/log/messages or /var/log/syslog /

    Linuxサーバにログインしたらいつもやっているオペレーション - ゆううきブログ
  • ファーストサーバ最終報告書、ベテラン担当者のマニュアル無視を黙認

    ヤフー子会社のファーストサーバは2012年7月31日、6月20日に発生した大規模障害(関連記事)についての調査報告書(最終報告書)を公表した(写真)。報告書は、ファーストサーバに利害関係のない3人の委員による「第三者調査委員会」(関連記事)が作成した。同社Webサイトに「要約版」を掲載している。 報告書は調査対象とする事故を、6月20日に発生した「第1事故」と、第1事故で消失したデータが想定外の場所に復元された「第2事故」(関連記事)の2つとしている。 1人だけ自作プログラムでメンテナンス 報告書は、第1事故の事実関係について次のように言及している。ファーストサーバではシステム変更を実行する際、社内マニュアルに沿って実行することになっており、第1事故の原因となったシステム変更の担当者(A氏)以外は社内マニュアルに従っていた。 ところが、A氏だけはマニュアルに従わず、自作の「更新プログラム」

    ファーストサーバ最終報告書、ベテラン担当者のマニュアル無視を黙認
    Eimelle555
    Eimelle555 2012/08/01
    慣れってのはほんと怖いなぁ…
  • 1