タグ

システム管理に関するTakaoのブックマーク (31)

  • それ etckeeper でできるよ - /etc 以下を Git で自動的にバージョン管理 - おいちゃんと呼ばれています

    こんにちはこんにちは。一昨日、さくら VPS に Git をインストールするエントリーを書きましたが、実はバージョン管理は etckeeper にもお世話になっています。 etckeeper というのは、Git 等のバージョン管理ツールを用いて、/etc 以下をほぼ自動的に管理してくれる有り難いツールです。下記のタイミングで自動的にコミットしてくれます。手動で任意のタイミングでコミットすることもできます。 -yum コマンド実行の前後 -日付が新しくなったとき << 以下、さくら VPS(CentOS 5.5 -64bit)で etckeeper を使えるようになるまでの手順をまとめてみましたので、よろしければ参考にしてください。 *目次 Git のインストール etckeeper のダウンロード etckeeper の設定ファイルの編集 etckeeper のインストール etckeep

    それ etckeeper でできるよ - /etc 以下を Git で自動的にバージョン管理 - おいちゃんと呼ばれています
  • みずほ銀行の3月のシステム障害の調査報告pdfが超面白いのでマはみんな読むべき « おれせん。

    みずほ銀行:システム障害に関するお知らせおよびお問い合わせ先 http://www.mizuhobank.co.jp/oshirase.html 中段の「システム障害特別調査委員会の調査報告書について」のリンク 直リンクはこれ(5/20掲載) 前半しばらく「グダグダ陶しい能書き」が続きますが9ページ目の「3. 障害発生以前のシステム障害及び対応状況」あたりからギアが入って、11ページ目の「4. 障害の発生事実」からトップギアというかちょっとしたヘル絵図であります。 ……ああ、その前にここを引用しておこうかな、4-5ページの「2. システムの概況」内「(3) 次期システムの概要」箇所。 (3) 次期システムの概要 次期システムについて、ビジネス環境の急激な変化に対応すべく、肥大化・複雑化した現行システムを新たなシステムとして再構築するために、2004 年から MHFG を中心に検討

  • リソースモニタリングツール「CloudForecast」入門 - As a Futurist...

    kazeburo さんが開発をされているサーバリソースの可視化ツール「CloudForecast」ですが、個人的に使ってみていてとても使いやすいなと思っています。もっと使ってくれる人が増えるといいなと思い、自重せずに入門エントリを書いてみました。 CloudForecast って何? そもそも何なの?という話ですが、CloudForecast とはリソースのグラフ作成ツールとして有名な「RRDTool」の薄いラッパーとして作られています。記述言語は Perl ですので、Perl と RRDTool の使い方が大体分かっている人にとっては導入さえしてしまえばかなりかゆいところまで手が届く=カスタマイズが簡単かつ自由自在なツールだと思います。とりあえずのイントロとしては kazeburo さんの YAPC::Asia 2010 でのこちらのスライドをご覧頂ければと思います。 RRDTool っ

    リソースモニタリングツール「CloudForecast」入門 - As a Futurist...
  • 間違いだらけのシステム管理 1.トラブルの切り分け

    << 1999年7月3日開催 第4回 NT-Committee2 関東勉強会 講演資料 >> 1. トラブルの切り分け 1.1 トラブルを切り分けるポイント システム管理者の基作業としてトラブル対応があります。 ネットワークとかハードウェアとかを構築しているので「作ったからには責任を持つ」という考えは分かりますが、既に構築されているシステムに対して新規に配属になったとか、OSやらアプリケーションやらの動作については、勉強しておく必要があります。 まずは、何が起こっているかを正確に把握し、「そのトラブルは至急対応する必要があるかどうか」を見極める必要があります。 トラブルを報告してくる人は十中八、九は「至急対応してくれ」と言ってきます。 暇な場合は即対応すればいいのですが、他の作業を抱えている場合は優先度付けが必要になってきます。 1.2 何が起こっているかを聞き出すテクニック 現象把握

  • 大規模インフラの監視システム その2 | GREE Engineering

    こんにちは。グリーのmdoi(@m_doi)です。 今回は、グリーの監視システムについて説明したいと思います。以前、こちらの記事にて、リソース監視システムの説明をさせて頂きましたが、死活監視やログ監視については語られなかったので、気になっていた方も多いと思います。ということで、今回は、グリーのインフラにおける死活監視やログ監視、アラート通知システムを紹介したいと思います。 何を使っているの? グリーでは、死活監視にNagiosを使用していました。監視システムの中では、かなり有名なソフトウェアですから、監視システムの構築に使用したことがある方も多いのではないでしょうか。プラグインも豊富に存在するので、様々な監視を行うことができます。死活監視は、このNagiosの機能をそのまま利用し、ログ監視は、Nagiosと独自に作成したエージェント及びログフィルタを連携させて行っていました。 全体のシステ

    大規模インフラの監視システム その2 | GREE Engineering
  • 見えない「運用」 - 疲弊する運用現場

    インターネットのインフラ化と運用現場の疲弊 インターネットの急速な普及および発展により、インターネットを含むIT情報基盤は、社会基盤(インフラ)としての性格を色濃く帯びてきています。 しかし、これらのシステムやサービスを運用している現場では、メンバーに対する恒常的な高負荷、属人的な運用、トラブルの多発に悩まされるなど、事業継続面でのリスクを抱え、コストや効率面での課題に追われながらも、現場の個々人の過大な努力によって日々の運用を維持しているのが現状です。 なお、システムやサービスを「運用している現場」とは、例えば組織や企業において社内向け、対外向けなどを問わず「ユーザーや相手に対して何らかのサービスを提供している人たち」をイメージしています。 連載では、従来であれば「現場ごとの個別事情に応じて、やり方が異なるため、標準化が難しい」と言われてきた「運用」について、「運用設計」という観点から

  • サーバ監視に超使える〜topコマンドのまとめ:phpspot開発日誌

    サーバ監視に超使える〜topコマンドのまとめ サーバを運用しているとよく使うtopコマンドですが、標準のtop以外にも色々便利なものがあるのでまとめてみました。 ボトルネックといえば、ネットワーク、ディスクIO、スワップ、CPU、メモリといったものが関連しますが、ツールで視覚化することでより分かりやすい対策がとれますね。 htop こちらも、通常のtopよりもさらに多数の情報を表示してくれるツール。 CPUやメモリの状態が視覚的にグラフで表示されていたり、複数CPUがある場合もそれぞれに利用率を表示してくれてわかりやすいです。 pstreeで表示するようなツリー+topコマンドのような表示も t を押せば切り替えられます。 公式サイト上にある128コア積んだマシンのhtop結果が面白い。 次のようにすべてグラフで表示されているため、128コアあったとしても瞬時に負荷が把握できますね。 io

  • これがWikipediaの裏側、知られざる大規模システムの実態「Wikipedia / MediaWiki におけるシステム運用」

    Wikipediaといえば世界で第5位の訪問者数を誇る巨大サイトですが、システム運営に携わる人間は世界でわずか6人、しかもこれはボランティア込みという恐るべき少人数で、第4位のFacebookのサーバ数が3万台を超えているのに対して、Wikipediaはわずか350台で運用している……などというような感じで、知られざる今のWikipediaの実態が「KOF2010」にて日行われた講演「Wikipedia / MediaWiki におけるシステム運用」で明かされました。 登壇したのはWikipediaを運営するWikimedia財団のエンジニアであるRyan Lane氏で、100席ある座席は満席になり、隣の中継の部屋まで人があふれているほどの盛況っぷりで、語られる内容もなかなか参考になることが多く、今後のGIGAZINEサーバにも活かせそうな内容でした。 というわけで、「Wikipedia

    これがWikipediaの裏側、知られざる大規模システムの実態「Wikipedia / MediaWiki におけるシステム運用」
  • OSS iPedia 記事

    ・ソフトウェアカタログ ・調査報告書 ・クラウドコンピューティングシステム構築の調査概要 「社内向けクラウド構築のために活用できるソフトウェアカタログ」 期間:2009年9月~2010年5月 実施担当:株式会社 三菱総合研究所 クラウド構築を行うために用いられるソフトウェアの中から30種のOSS、 18種の商用ソフトウェアを9つの機能分野に分類してカタログとしてまとめました。 OSSについては以下のような5項目について評価し、結果を記載してあります。 パブリック・コメントの募集結果については http://ossipedia.ipa.go.jp/doc/211 をご確認下さい。 ■改訂履歴 ・2011年6月14日  改訂

  • 省サーバ運用

    自己紹介 名前 小林 篤 ID:nekokak(ネコカク) DBIx::Skinny continued...

  • ソーシャルアプリ向けシステム監視運用の勘所

    Tatsuro Hisamori from DeNA Co., Ltd. discusses mbga OpenPlatform and summarizes techniques for optimizing database and application performance including using tcpdump, Wireshark, and mk-query-digest to analyze SQL queries and network traffic. He also provides examples of optimizing resources and response times by distributing applications across virtual machines and monitoring CPU usage, database

    ソーシャルアプリ向けシステム監視運用の勘所
  • 自宅サーバのインフラ設計書を公開します - @int128

    自宅サーバのインフラ設計書を公開します。 Design paper of the home server(抜粋) 昨夜にTwitterで公開したら予想外に反響があったので、ちゃんとエントリに残すことにしました。クラックされるおそれがあるので、細かい部分は公開できないことをご了承ください。 内容はこんな感じ。 要件概要 機器仕様 ネットワーク設計 ソフトウェアスタック設計 共通基盤設計 サーバ詳細設計 上記にバックアップ設計や運用管理まわり*1を加えれば、インフラの設計書はだいたいこんな感じではないかと思います。 インフラの要件定義は難しい 一方で、インフラの要件定義は十分に標準化が進んでおらず、会社やチームによって文化がかなり違います。特に受託開発(SI)の場合は、お客様の中にインフラに詳しい人がいなくて調整に苦労することも多いと思います。費用と可用性のトレードオフの部分はなかなか伝わりづ

    自宅サーバのインフラ設計書を公開します - @int128
  • 大規模インフラの監視システム | GREE Engineers' Blog

    こんにちは。インフラチームの ebisawa です。 今回はグリーのインフラにおける各種機器の監視がどのように行われているのかご紹介させていただきたいと思います。一般にサーバの監視というと、システムダウンを検出するための死活監視を意味する場合と、ネットワークトラフィック等のモニタリングのことを意味する場合とがあります。今回の監視は特に後者についてのお話です。大規模なインフラの監視には、やはり特有の課題があります。 どんなツールを使っているのか グリーではサーバの各種リソース使用状況をモニタリングしてグラフ化するためのツールとして、Cacti を利用しています。Cacti は、大変有名なツールなので皆様ご存知かと思いますが、バックエンドの RRDtool で作成したグラフを閲覧するための使いやすいユーザーインターフェイスを備えています。 http://www.cacti.net/ ツールの使

    大規模インフラの監視システム | GREE Engineers' Blog
  • NagiosからforkしたIcingaをインストールしてみた - harry’s memorandum

    昨年Nagiosコミュニティの一部のグループが、NagiosからforkしてIcingaプロジェクトを発足させました。 Icinga faqによるとforkした理由は「開発ペースが遅く提案も受け入れてくれないから分岐しまーす」ということだそうです。 In contrast, the core of this system – the Nagios software itself- is maintained by a single developer in the United States and hence is developed at a slower pace. The Nagios community has previously attempted to clear this bottleneck with suggestions to broaden the develop

    NagiosからforkしたIcingaをインストールしてみた - harry’s memorandum
  • トラブルシュートを想定したネットワーク監視 〜オープンソースソフトウェアによる実践〜

  • Disk I/Oの使用率を監視するワンライナー - kazuhoのメモ置き場

    iostat -x の %util を監視してしきい値を超えたらアラートメール飛ばしたいなぁと思って crontab 書いた。こんな感じ。 */5 * * * * perl -wle 'my $s = `/usr/bin/iostat -xk /dev/sd[abc] 270 2 | tail -4`; print $s if $s =~ m{\s(?:[0-9]{3}|[5-9][0-9])\.[0-9]+$}m'ポイントは、 iostat の後ろから2つ目の引数がサンプリングを行う秒数 tail で デバイス数+1 することで、最後のサンプルを取り出す 正規表現で50%以上だった場合に標準出力に iostat の結果を出す=メール送信

    Disk I/Oの使用率を監視するワンライナー - kazuhoのメモ置き場
  • ウノウラボ Unoh Labs: Nagios のログの日付を変換しながら読むには

    こんにちは。kyagi です。 ウノウではサービスの稼働状況を監視するために Nagios を使用しています。ログファイル「/var/log/nagios/nagios.log」には監視活動の履歴が出力されるのですが、最初のカラムの日付フォーマットがエポック秒になっているため、障害発生時の時間を知るためには変換処理を行わなければなりません。この目的を達成する簡単なスクリプト nagioslogview.rb を書いたので、以下に公開しておきます。同様に小さなストレスを抱えている方の解決策になれば幸いです。 http://github.com/kyagi/nagioslogview/blob/master/nagioslogview.rb 使い方は以下になります。-f オプションで tail -f と同じように成長するファイルを追いかけて読むことができます。テスト時などにご活用いただければと

  • TechNet Script Center

    Summary: Using PowerShell to identify RPC ports in use by capturing content from PowerShell We'd like to introduce you today to one of our newest bloggers!  It's a froopingly awesome friend of ours, Joel Vickery, PFE.  (did I mention Dr. Scripto is a big fan of books written by Douglas Adams?....oops!) Take it away Joel! Thanks Doc!  So ...

  • Linux等でのログのモニタリングで簡単にアラートをキャッチするワンライナー - 元RX-7乗りの適当な日々

    昔、『「ping -a」で音が鳴る!』なエントリでも書いたのですが、何らかをリアルタイムにチェック/監視したい時に、視覚だけではなくアラート音が一緒に出ると、モニタリングしやすいものです。 というわけで、Linuxなんかで、とあるログファイルの出力から、ある文字列が検出された際に、ビープ音を鳴らすワンライナーは以下。 $ tail -f ログファイル | sed -e 's/\(対象文字列\)/\1^G/'上記を実行中に、指定ログファイルに対象文字列が出力されるとビープ(Beep)音が鳴るはず。 「^G」(0x07)の部分が、ASCIIのBELキャラクタのリテラルです。 $ echo -n "^G"などとしてやれば、ベル(ビープ音)が鳴りますよね。 ちなみに、「^G」は、[Ctrl-V] ⇒ [Ctrl-G] の順に入力してやればOK。emacsだと[Ctrl-Q] ⇒ [Ctrl-G]か

    Linux等でのログのモニタリングで簡単にアラートをキャッチするワンライナー - 元RX-7乗りの適当な日々
  • Facebook、memcachedに300TB以上のライブデータを置く大規模運用の内側

    クラウドのように大規模なシステムでは、ソフトウェアの開発と同等以上に、大規模運用の巧拙が、システム全体の成功を大きく左右します。 6月22日から、米サンタクララで行われていたWebサイトのパフォーマンスと運用に関するオライリーのイベント「Velocity 2010」で、FacebookのTechnical Operations teamを担当するTom Cook氏が「A Day in the Life of Facebook Operations」(Facebook運用のある1日)と題したセッションで、Facebookがふだんどのような運用を行っているか、紹介しています。 世界でトップクラスの大規模サイトが、普段どのようなツールを用い、どのような方法で運用しているのか、セッションの内容を紹介しましょう。 6年で4億アクティブユーザー、3カ所のデータセンター Tom Cook氏。Facebo

    Facebook、memcachedに300TB以上のライブデータを置く大規模運用の内側