[B! 運用] [2ページ] atm_09_tdのブックマーク

完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ

こんにちは、Hazama チームの萩原(@hagifoo)です。ハードウェアは故障し、ソフトウェアにはバグがあり、運用ではミスがおきるもの。もちろん、障害が発生しないのが理想ですが人間が作ったものに完璧はありません。そこで、障害の前兆や発生を捉え、その詳細を運用チームに知らせるための監視システムが必要となります。cybozu.com でも以下のようにありとあらゆるものを監視するシステムを構築し日夜監視を行なっています。今回は、そんな cybozu.com の監視(モニタリング)システムについてお話しします。 cybozu.com と障害監視システムの設計 3つの監視外形監視症状監視・リソース監視ログ監視その他の監視モニタリングフレームワーク誰が監視者を監視するのか？まとめ cybozu.com と障害まずは、監視対象である cybzou.com について説明します。

atm_09_td 2013/10/28

リンク

運用担当者、激減中

ユーザー企業の情報システム部門で今、運用担当者の人数が大きく減り始めていることをご存じだろうか。運用業務には、「アプリケーション保守」や「OS/ミドルウエア運用」、「ITインフラ運用」などがあるが、あらゆる業務に関わる運用担当者が減少しているのだ。まずは4社の事例を紹介しよう。サイバーエージェント運用担当者の人数 20人→0人（予定）サイバーエージェントで消費者向けWebサービスを手がけるアメーバ事業本部では、現時点で20人いるOS/ミドルウエアの運用担当者を、2年後の2015年までにゼロにする計画だ。彼らは現在、OS/ミドルウエアをサーバーにインストールしたり、パッチを適用したり、アプリケーションの負荷に応じてサーバー台数を増減したりする業務を行っている。これらの業務を、オープンソースソフトウエアの運用管理ツール「Chef」を導入することで、自動化する計画だ（図1）。

atm_09_td 2013/10/15

リンク

PHPConference2013Presentation #phpcon2013

PHPカンファレンス2013 11:20〜11:50 小展示ホール発表ミッションクリティカル&ハイパフォーマンスシステムにおける技術統合と運用の勘所

atm_09_td 2013/09/15

運用

リンク

エンジニアならウェブサーバーのひとつでも自腹で立てて運用すべき理由と、サーバー環境の選び方 : akiyan.com

エンジニアならウェブサーバーのひとつでも自腹で立てて運用すべき理由と、サーバー環境の選び方 2013-08-26 なんかスイッチが入ったので書いてみる。目次 1 技術的なレイヤーは掘り下げるべきなので、ソフトウェア・エンジニアだってサーバー運用は経験すべき2 ローカルの仮想環境にインストールとかは意味がない3 強制的に運用しなければいけない状況を作ること4 自腹なのはコストを意識するためと、自由になるため5 初めてならVPSだ6 自宅サーバーはより低レイヤーを経験できるが、高コストで面倒が多い7 初めてだとOSの再インストールは絶対にしたくなる8 専用レンタルサーバーは、無い9 仕事でAWSを使ってるならEC2もアリ10 EC2以外のクラウドのメリットはあまり無い11 OSは仕事で使っているOSにしておこう12 というわけで13 追記：はてブやtwitterで沢山のコメント頂いたので反応

atm_09_td 2013/08/26

リンク

インフラチームを持たない会社でのインフラ運用

始める DevOps ( http://atnd.org/events/41286 ) での発表資料です #init_devops

atm_09_td 2013/08/04

リンク

Linuxサーバのディスク容量減少アラートが飛んできた！ってときにどう対処するか - たごもりすメモ

完全にこのエントリのネタパクりです。すいません。何に使われてるかわかったもんじゃないマシンとか開発用サーバとかだと超巨大なバイナリとか置いてあるかもしれませんが、プロダクション用のサーバでそういうことは無いとしましょう。その場合、原因はだいたい以下のどれかです。www/appとdbが別マシンに分かれてる場合は更に絞り込めますね。 wwwサーバやappサーバログ圧縮してあるが保存世代数が多くて厳しいケース圧縮し忘れてるケース圧縮どころかローテーションすら忘れてて1ファイルどかんと存在するケースローテーションがうまくいかなくて deleted ファイルなケース tmpデータなど(app) キャッシュサーバのディスクキャッシュ dbサーバデータ実体 (ib_data) バイナリログログの場合でも、ディスク上のどこにログが書かれてるかは色々なパターンがある可能性がありますね。

atm_09_td 2013/07/30

linux
運用

リンク

サーバのリソース使用状況レポートを作る - mikedaの日記

数百台のサーバに対して CPU メモリ HDD の使用状況をサクッとチェックしたいなーと思ったのですが、さすがにmuninのグラフで見るのはダルすぎる。というわけで日次でこういうページを作ってチェックするようにしました。上記の情報が数字でダーっと並んでて、ついでに簡単に色付けとか、muninへのリンク張りとか、各項目でのソート機能付けたりとかをやってます。 CPUとメモリの使用率は前日の平均、ディスク使用率はバッチ実行時の値です。最初はmuninのRRDファイルから作ろうかと思ったのですが（gist）、この程度の情報ならsysstatやdfの結果から作るほうが簡単なので、sshで集めてくることにしました。とりあえずHTMLに出力してますが、CSVで出したりDBに突っ込んだりすれば各種調査に便利ですよ！ソースコード Ruby1.9版です #!/usr/local/bin/ruby

atm_09_td 2013/06/09

運用
ruby

リンク

運用視点でChef ServerかChef Solo + Knife Soloのどちらが良いか考えてみた - プログラマでありたい

ChefとFabric、どちらが良いか悩んでいるうちに、Chefが一気にブレイクしてしまった今日この頃です。と言うことで、Chefを中心に今後のサーバ構築・運用について考え中です。そこでまず出てくる問題が、Chef Server+ClientとChef Solo + Knife Solo、どちらの構成が運用しやすいかという点です。状況を整理する為に、まずは簡単にChef Server, Chef Solo, Knife Soloの関係や役割をまとめて見ます。 Chef Server サーバーの状態を管理し、それに関する情報を保持しておくのがChef Serverです。Client側は個々のサーバにインストールされて、Chef Serverに司令を問い合わせて実行します。Chef ServerはDBやキューなどを持ち、少し複雑な構造です。同じカテゴリーの製品として、PuppetやFabri

atm_09_td 2013/04/04

chef
運用

リンク

Chefに挫折したあなたへ。Fabricのすすめ

サーバ設定作業は面倒で間違いを犯しやすいため、Chef/Puppetなどのツールで自動化したいと考えている方は多いと思います。私もそのような理由からChef(-solo)を習得しようと試行錯誤していました。その結果、ある程度は動くようになったものの次のような問題があると思いました。学習に時間がかかる私は正直、今でもどのファイルに何を書くのかよく分かってないです。幾分か簡単だと言われるchef-soloでも公式サイトのドキュメントだけではよく理解出来ませんでした。また、バージョンによる差異なのか目的が異なるのか分かりませんが、ブログ記事を参考にしようとすると十人十色でどれが私に合った手順なのかわかりませんでした。例え最終的に理解できたとしても、私やあなたが何日もかけて理解できないことはチームのメンバーも理解するのは難しいと思います。対象サーバにインストールする必要がある Ch

atm_09_td 2013/03/12

リンク

GitとJenkinsを使ってChefを運用する（続き） - GeekFactory

id:mi_kattun / Cookbookを完全にGitで管理するのであれば、サーバにgitやデプロイツールでCookbookをコピーしてchef-solo実行するほうがシンプルな気がするけどChef Serverを使うメリットは何なんだろう。一覧性かな http://b.hatena.ne.jp/entry/d.hatena.ne.jp/int128/20130302/1362153651 確かに！ Jenkins SlaveでGitリポジトリからChefリポジトリを取得し、Chef Soloを実行する、というパターンもあります。Chef Serverが必要ない場合はこのパターンの方がシンプルです。 Chef ServerとChef Soloの比較は cloud - What are the benefits of running chef-server instead of che

atm_09_td 2013/03/03

リンク

ド素人が完全自作SNSを二週間運営してみてわかったこと（後始末編、技術編、モチベーション編）

ド素人が完全自作SNSを作ってみてわかったこと。 http://anond.hatelabo.jp/20130104184115 の元増田です。ひっそりと公開したはずのtag-chat.net(http://tag-chat.net)ですが、まさか、こんなに反響を頂けるとは思っていなかったので、びっくりしました。素人のフリをしているとか、出版社のステマだとか色々言われましたが、嘘は一切書いてないです。ステマというか、ウェブサービス公開後の状況を知っている方からするとマイナスのステマにしかなっていないような気がします…。公開してから、色々と発見というか気づきがあったので、それを共有できれば幸いです。あと、tag-chat.netの中身についてなど。～増田記事を公開してから今までの経過～・意気揚々と自作SNSを公開したものの、アクセスが全くこなくて途方にくれる。 ⇓ ・以前、完全

atm_09_td 2013/01/19

リンク

Javaウェブオペレーションエンジニアがトラブル切りわけ時に見ていること3つ - カイワレの大冒険 Third

忘年会シーズンで肝臓への負担を極力避けている@masudaKです。今回はJavaアプリケーションの運用のポイントに関して、書いてみたいと思います。このエントリはJava Advent Calendar 2012の22日目のエントリです。 Javaアプリケーションの運用ポイントとは昨今ではLLのほうが敷居が低く、開発スピードも早いということからか、PHPやRubyなどのLLによるWebアプリケーションが多くリリースされているかと思います。しかしながら、TwitterがJVMベースの開発にシフトしたように、より深いレベルで実装を行おうとした際にLL以外の実装も一つの選択肢として残っているのは間違いないでしょう。そのようななかで自分が最もよく触れているJavaでのアプリケーションの運用ポイントについて述べてみたいと思います。ここでいう「運用」とは、サービスをリリースしたのち、サービスへ

atm_09_td 2012/12/23

運用的な観点をまとめているのは貴重かも。

Java
運用

リンク

「PureSystems」登場の衝撃

システムインテグレーションにとどまらず運用のエキスパート（専門家）をもシステムに統合する──。垂直統合型システムの後発であるIBMがPureSystemsに込めた秘策は、これだ。運用負荷の増大に悩むユーザー企業のニーズに応え、ライバルに対抗するべく「現段階のベストを追求するだけでなく企業システムの次の10年を見据えて開発した」（日本IBMの橋本孝之会長）のである。システム管理ソフトからのアラートを通じて異常の兆候を見抜き（インシデント管理）、原因を特定して適切な解決策を選び（問題管理）、システムリソースの追加など障害対策を実施する（変更管理）。システムの維持管理で最も重要なこれらのプロセスを、PureSystemsでは、非機能要件などを定義した「パターン」を組み込んだ運用管理ソフトによって遂行する。IBMが提唱してきたオートノミック・コンピューティング（自律型コンピューティング）のコンセ

atm_09_td 2012/11/06

リンク

[JavaScript] Jenkinsの対抗馬になるか？ビルド管理をJSで行うGrunt.jsの内容説明とスタートアップ - YoheiM .NET

[JavaScript] Jenkinsの対抗馬になるか？ビルド管理をJSで行うGrunt.jsの内容説明とスタートアップこんにちは、ビルド管理といえばJenkinsだと思っていた@yoheiMuneです。最近、node.js上で動くJavaScriptのビルド管理ツール「Grunt.js」について学んだので、今日は簡単な説明と「Hello World」的なところまで書きたいと思います。 Grunt.jsとは何？ grunt.jsは、grunt@Githubで公開されているビルド管理ツールです。個人的には、Jenkinsがビルド管理ツールとして有力だったのですが、 grunt.jsではフロントエンドのビルド作業を楽にできるいい感じのツールです。 Jenkinsでは例えば以下のようなビルドを行うと思います（JavaのWebアプリケーションの場合）。 checkStyleやfingB

atm_09_td 2012/08/16

リンク

定期実行スクリプトの綺麗なロギング3選 - カイワレの大冒険 Third

オリンピックの流れに乗れてない@masudaKです。職業柄かちょくちょくスクリプトを書くことはあるのですが、やはり色々自分で書いたり人のを見たりしてるうちに、この実行履歴綺麗だなーと思うことが多々あります。今回は、そう思える対象のなかでも、「定期実行スクリプト」の「出力」を扱ってみたいと思います。「定期実行スクリプト」というのは、バッチ処理だったり、何か必要に応じて叩かれるスクリプトで、具体的にはバックアップとか集計とか、一日に最低一回は叩かれるようなスクリプトです。cronやJenkinsで叩かれるような類ですかね。そのようなスクリプトの「出力」について書いてみたいと思います。出力は標準出力であれば、tailfコマンドだったり、Jenkinsのビルドのコンソール出力で見られるようなもの。ロギングされてるのであれば、それと同様に追えるようなものとします。以下に書くのはあくまで今の

atm_09_td 2012/08/13

リンク

サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開

サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開米国でビデオオンデマンドサービスを提供しているNetflixは、Amazonクラウド上でわざとシステム障害を起こすためのツール、Chaos Monkeyをオープンソースで公開しました。 Chaos MonkeyはAmazonクラウド上で使うツール。Amazonクラウド上のインスタンスをランダムに落としまくることで、サービスに対して仮想的な障害を引き起こしてくれます。 NetflixはこのChaos Monkeyを実環境で使うことで、本物の障害が起きたとしてもサービスが継続できることをテストし続けてきました。Netflixのブログ「Chaos Monkey released into the wild」から引用します。 There are many fail

atm_09_td 2012/08/08

リンク

“障害発生前の解決”をどうやって実現するか

データセンター環境で“監視”といえば、まず思い浮かぶのは「死活監視」だろう。文字通り、サーバが「生きている（稼働している）か、死んでいる（停止している）か」を見極める簡便な手法だ。これだけで用が足りる場合ももちろんあるが、それだけでは複雑化する現在のシステム構成には対応しきれないという課題が明らかになってきている。今回は、死活監視の限界と、これから欠かせない存在となるサーバ性能監視のポイントについて考える。死活監視の限界物理サーバの処理能力を無駄なく使うには死活監視は、端的に言ってしまえば「1サーバ、1アプリケーション」構成を前提とした、ごく簡便な監視手法である。 Webサーバでは、現在でも1Uラックマウントサーバをラック一杯に詰め込み、それぞれのサーバでは必要最小限の構成のOSとWebサーバ・ソフトウェアだけが稼働している、といったシステムが使われるが、こうした使い方なら、死活

atm_09_td 2012/06/20

リンク

1台から500台までのMySQL運用 MySQL Beginners

This document outlines the speaker's goals for 2012 which include developing visualization support tools to help with operations work. Specifically, the speaker aims to create CloudForecast for visualizing server metrics and GrowthForecast for visualizing business metrics. An internal alerting and notification tool called DHWChain is also mentioned. The speaker hopes these tools will help with not

atm_09_td 2012/05/29

MySQL
運用

リンク

お金を(なるべく)かけずにサーバー運用出来るか試してみた | popowa

最初に結論 [ドメイン周りをスムーズに扱えるPaaSは売れる！] ドメイン popowa.comに付随する過去のサブドメイン遺産をどれだけ安く運営出来るか試してみました。過去のサブドメイン遺産はほとんどアクセスがない、もしくは自分しか使っていないのでここではスケールが出来るかどうかは重要視しない事にします。このドメイン(popowa.com)には、ネームサーバメールサーバブログサーバレポジトリサーバウェブサーバ検証で試したOSSなアプリ（主にWordpressなど）用検証サーバがありました。過去使っていた有償環境としては自宅サーバーさくらVPS ムームードメイン Lolipop AWS VPSLink Tektonic Xrea RackSpace とかで運営していました(順不同)。 ■ネームサーバーまずネームサーバーをAWSが提供しているRoute 53に移しま

atm_09_td 2012/03/21

リンク

Webアプリのパフォーマンスアップ作戦 - ゆーすけべー日記

予定している機能を実現するアプリが完成するだけでWebサービスが成り立つわけではありません。運用の最中にパフォーマンスにまつわる問題が出てくる可能性があります。それは突然大きなトラフィックがやってきたというような時だけではありません。知識が無いうちですと、いざ運用に乗せてみるとずいぶんとサイトの読み込みが遅いといったケースが発生することもあります。僕はいくつかのエロサイトを管理しているのですが、その中に月間700万PVのアクセスをいただいている「サイトA」があります。サイトAの場合、トラフィックもそこまで無かった当初からパフォーマンスに関する問題がいくつか発生し、その都度調べては実践で試して対策をしてきました。また、できる限り少ないリソースでの運用を目指しています。今回はWebアプリのパーフォマンスアップ作戦として、サイトAでの運用経験からのいくつかの方針やTipsを紹介

atm_09_td 2012/03/07

リンク

はてなブックマーク

タグ

関連タグで絞り込む (61)

運用に関するatm_09_tdのブックマーク (59)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス