ssmjp 201712 はたのさん祭での「運用現場におけるSRE本の「正しい」読み方」発表資料です。 詳細: https://www.opslab.jp/publish/20171212-ssmjp-sre.html (運用設計ラボ合同会社 波田野裕一)
IT界隈でエンジニアしていると、よく出くわすのが障害対応です。できれば会いたくないという人が多いと思うんですが、僕はけっこう好きです。障害対応。どこに原因があるのか調査をして、バランス良くベターな対応をしたときの楽しさは、プログラミングとはまた違ったものがあります。探偵っぽい感じが面白いですよね。もちろん、障害が発生しない状況を作るのが一番です 弊社では数多くのWebサービス/アプリを運営しているので、過去様々な障害対応をしてきました。その際に、解決までどんな道筋を僕がたどるのかを振り返ってまとめてみました。これが大正解なんてことはなく、人や事象によって違うとは思いますが。 なお、障害検知手法とか、サーバのコマンドとか、コードのデバッグ手法とか、具体的なことは一切出てきません。手続きと思考プロセス的な話です。 障害対応フローチャート 一般的な感じだと思いますが、障害報告から対応完了までのフ
趣味でも業務でも日々Webサービスを開発しているzaruです。こんにちは。ついにアドベントカレンダーも最終日です。まだサンタとしての仕事が残っています。さて今回は仕事としてWebサービスを開発するときに気をつけたいポイントを紹介します。まぁ仕事に限った話じゃないですが…参考になれば幸いです。特に新卒プログラマあたりに読んでもらえればと思います😀 なお僕の業務上インフラ周りはAWSが多いです。 RASISという指標 RASISという指標があります。コンピュータシステムの評価指標5つの頭文字を取ったものです。 Reliability(信頼性) Availability(可用性) Serviceability(保守性) Integrity(保全性) Security(機密性) 今回はこの5つの指標に沿ってポイントを紹介していきます。RASIS自体については色々なところで解説されていると思うので
国内企業におけるシステム運用、約3分の1の企業が毎月数回の運用ミスや障害発生。最大の課題は「運用担当のスキル不足」で、二番目の課題は「自動化できてない」など 調査会社のIDC Japanは国内企業におけるシステム運用の状況についての調査結果を発表しました。 運用管理担当者の運用のミスや障害になどによるトラブルの発生頻度では、ほぼ毎日トラブルが発生しているのは全体の1.3%、週に数回程度トラブルが発生しているのは7.1%、月に数回程度トラブルが発生しているのは23.6%で、合計して月に数回程度のトラブルが全体の32%の企業で発生しているとのことです。 上記のグラフでは、サーバの台数が100台以上の企業と99台以下の企業のそれぞれの結果が示されており、サーバ台数が100台以上のほうがトラブルの件数が多いことが分かります。 システム運用管理における課題について質問した結果では、もっとも多かった回
5. Operation Lab 運用設計ラボ ドキュメントテーマによる価値 (仮説) activity活動 変化 状 態 • 反復・再利用性の高いドキュメント(資産性ドキュメント)。 • 「変化」「活動」の起点・終点となる最も重要なドキュメント • 何らかの形で売却できる場合「収益性」があると言える。 • 反復作成されるが再利用はしにくい。(費用性ドキュメント) • 「運用の費用対効果」を説明するためのドキュメントとなるた め「収益性」があると考えることもできる。 • 「活動」の蓄積が変化を生む。 • [留意]「変化させない事」が重要とされる業務もある。 • 反復作成されるが再利用はしにくい。(費用性ドキュメント) • コストが直接配賦されれば「収益性」があるが、共通配賦され る場合は、作成自体が「運用コスト」と評価される。 What 何を書く? 出典: Internet Week 20
Software Collections for CentOS-6 がリリースされました。 Software Collections というのは、RHEL で提供されている追加コンポーネントです。 この追加コンポーネントには、次のものが含まれています。 Perl 5.16.4 PHP 5.4.14 Python 2.7 Python 3.3 Ruby 1.9.3 MariaDB 5.5 MySQL 5.5 PostgreSQL 9.2 Node.js 0.10 Node.js のみ、テクニカルプレビューのようです。 これらが CentOS 6 で利用できるようになったようです。比較的バージョンの新しいものがあるので、自分でパッケージをビルドする必要がないので、便利ですね! インストール方法は、とても簡単です。まず、Yum リポジトリを追加します。 $ sudo yum install ce
航空業界で「航空事故の原因の7~8割はパイロットのヒューマンエラー」とされる例を持ちだすまでもなく、システム運用がどんなにハイテク化してもヒューマンエラーが大きなリスク要因であることに変わりはない。2011年3月に起きたみずほ銀行の大規模システム障害でヒューマンエラーが絡んでいた(関連記事)ことをご記憶の方も多いだろう。 ヒューマンエラー防止を指導しているコンサルタントの目に、システム運用現場の姿はどう映っているのか。なぜなぜ分析による改善活動のコンサルタントであり、著作『なぜなぜ分析 実践編/管理編』でも知られるマネジメント・ダイナミクス社長の小倉仁志氏に聞いた。 本題に入る前に、日経情報ストラテジーの連載などで小倉さんを知らない読者のために経歴を少しお伺いします。どのような経緯でなぜなぜ分析に取り組み始めたのですか。 社会人になって最初の数年は米デュポン日本法人でエンジニアリングプラス
Ops School Curriculum� Welcome to the Ops School curriculum documentation site. Ops School is a comprehensive program that will help you learn to be an operations engineer. Operations engineers are highly skilled people who manage the computer systems of businesses big and small. In addition to corporate systems, operations engineers also maintain the systems that allow websites, networks, payment
Back when our team was dealing with operations, optimization and scalability at our previous company, we had our fair share of troubleshooting poorly performing applications and infrastructures of various sizes, often large (think CNN or the World Bank). Tight deadlines, “exotic” technical stacks and lack of information usually made for memorable experiences. The cause of the issues was rarely obv
モヒカン族とカジュアルに。 @studio3104と@nakashii_さん主催の Monitoring Casual Talk #2で発表してきた。 てか、全員発表タイプ。 会場につくとそこにはステキな張り紙がお出迎え。 帰り際にこの紙をいただいたので、会社のモニタの裏に張ろうと思う。 自分の発表資料はこちら。 資料はどうでもよくて、議論がメイン。 疑問をぶつけて、自分はこうしていて、 で、みなさんはどうしていますか?ってのをお話した感じ。 資料からは、全く伝わらないのは仕様です。 リリース後の監視項目について話をするのが目的。 設定を元に会場のみなさんにやさしくつっこんで頂き大変勉強になった。 議論に臨場感が出て思ったより話が盛り上がってよかった。 以下、つっこみ。思い出しながらまとめ。 ■SSL証明書のチェック間隔の話 ・15日前にアラートとかだと、けっこうばたばたしないか? ・もっ
最近筆者は、情報システムの運用管理に携わるエンジニアに取材する機会が多い。その中で、「運用は汚れ仕事だから・・・」という言葉を聞くことがある。取材後の雑談などで冗談半分にそういう話が出てくるのだが、運用の現場にそういう意識があるのは確かだろう。 しかし筆者は、「運用は決して汚れ仕事ではない」と断言したい。そして運用の仕事は、今後ますます重要度を増すと考えている。 利用部門からの問い合わせで現場に駆け付け、担当者から「早く動かしてくれ」と文句を言われながら、トラブルの発生したPCやサーバーに向かう──。重大な障害が発生したら、それが夜中であろうが呼び出され、夜を徹して復旧作業に当たる──。運用担当者の仕事というと、こうした状況を思い浮かべる人は多いだろう。 「システムは問題なく動くのが当たり前」と考える利用部門の視点で見れば、運用担当者が知恵を絞って安定稼働を実現していても、あまり感謝される
昨日、第1回バックアップ勉強会を開催してきました。 昨年、今年と、バックアップが大切だという思いを持った人も多いはず。数年前に、地方展示会に参加していると、参加者の方に、「バックアップは?」とたずねると、「大丈夫です。RAID組んでますから」と回答されたり、ウェブを検索しても、「RAID組んでいるので、バックアップ安心です」というページを見て、結構ショックをうけたものでした。 ということで、バックアップの基礎を勉強したいなぁとおもって、開始したのがこの勉強会です。 バックアップ勉強会#1 (#bkstudy) 日時:8月29日19時~20時30分 場所:ミラクル・リナックス株式会社 19:00-19:30 バックアップの基礎知識 19:30-20:00 システムバックアップの基礎知識 20:00-20:30 PostgreSQL バックアップの基本 今回の資料は、SlideShareにアッ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く