Site::Reliability::Engineering - YAPC::Hakkaido 2016 Sapporo

はじめに こんにちは植木和樹@上越妙高オフィスです。本日は私がここ10年くらい意識している運用手順書を書くときのポイントについてまとめてみました。 対象読者 開発・構築したシステムを別の人に引き継ぐ予定のある人 他の人が作ったシステムを引き継ぐ担当の人 半年後の自分でも分かる手順書の書き方に困っている人 (この記事を読むのにかかる時間の目安:5分) 1. ドキュメントの冒頭に書くこと まず個々の詳細手順の前に、ドキュメント自体について記載してもらいたいことです。 1.1. ドキュメントに書かれていることを3行で書く ドキュメントの最初には、このドキュメントに何が書かれているのかを100文字くらいで書いておくと良いでしょう。 システムが増えれば増えるほど手順書も増えていくものです。見つけたドキュメントに自分の期待するものが書かれているのか、冒頭数行でわかるようになっているとうれしいです。 1
より詳細なCQRSに関する資料はこちら https://little-hands.hatenablog.com/entry/2019/12/02/cqrs 参考資料:http://little-hands.hatenablog.com/entry/jjug2017fall 社内新規プロダクトでDDD, CQRSの思想をベースとしたアーキテクチャを構築し、コマンド(更新系処理)ではSpring Data JPA(Hibernate)を、クエリ(参照系処理)ではjOOQを採用しました。 結果としてそれぞれのORMの良いところを生かした組み合わせのアーキテクチャが構築できたので、その経緯と得られた知見についてお話ししたいと思います。 以下のようなトピックを考えています。 ・CQRSの定義とメリットデメリット ・DDD,CQRSを検討するにあたってのORMの選定ポイント ・構築したアーキテクチャ
Helping Users Find Their Own Way: Creating Modern Search Experiences
7 月に開催された「JAWS-UG 三都物語 2014」でも発表したとおり、自分が関わっているプロダクトをオンプレミスから AWS に移行しました。 JAWS-UG 三都物語 2014 に登壇しました 移行して 2 ヶ月ほど経ちましたが、目立った障害もなく安定した運用を続けています。スライドでも少し触れていますが、これまでのやり方を大きく変えるキッカケにもなりました。 今回は「オンプレミスから AWS に移行して変えた 3 つのこと」と題して、社外に公開できる範囲でご紹介します。 稼働中のサーバに変更は加えない いわゆる Immutable Infrastructure の考え方を取り入れました。最初は流行りに乗りたかったという気持ちが大きかったのですが、今では昔のやり方にはもう戻れません。 オンプレミスでは本番稼働中のサーバにログインして何か変更するということが当たり前に行われていました
現在、 MNX ではクラウドホスティングサービスの新しいデータセンタを立ち上げているところで、とてもバタバタしています。クラウドホスティングサービスは、今の私たちの主な業務ですが、この会社が始まった当初は、Linux管理のコンサルティングサービスを中心としていました。そのサービスを通じて、たくさんの顧客環境を目の当たりにしましたし、それと同じ数だけの、顧客ごとに異なるデバイス名の指定方法も見てきました。そしてもちろん、その全ての指定方法をいいなと思ったわけではありません。名前の付け方は、コンピュータ草創期からの問題ですよね。おのおのがホスト名の指定方法について一家言持っていました。でも、それらの方法は最初のうちはうまくいっても、時を経てシステムインフラが拡大し、状況に応じて変更を余儀なくされるようになると、すぐに扱いにくくなってしまうものがほとんどでした。 そこで今回は、先述した私たちのデ
morimorihogeです.新年一発目の投稿です.最近木曾が改二になりました. Web開発に限らず,UNIX系で動作するシステムの開発・運用に携わっていると常にターミナルクライアントを開いているということが多いかと思います.Web開発やサーバインフラの構築・運用をやっていると,自分のローカルPCだけではなく,リモート上の別マシンに接続し,テストサーバや本番サーバでコマンドを打って作業する機会が多くなります. そんな中「ローカルマシンのコンソールだと思ってrmしたら実は本番系サーバだった」「なんか色々実行してて処理が怪しいなと思ったら別のサーバだった」という思いをしたことがあるのは僕一人だけじゃないと思います. 今回はこういった問題を防止するために僕が普段から守っているターミナルの運用ポリシを紹介してみようと思います.あまり技術的な話はないですが,普段開発・運用を仕事としてしていく上でのノ
結論 SIでも出来るDevOps的な取り組みはある。 特に、ビジネスメトリクス、インフラメトリクの収集、見える化が良いのではないか? エントリのの内容 DevOps Day Tokyo 2013を見てSI所属の人間が考えたことです。 セッションの内容に関する情報はあまりありません。 セッションに関する情報は下記が参考になります。 DevOps Day Tokyo 2013 参加レポート http://jedipunkz.github.io/blog/2013/09/29/devops-day-tokyo-2013-report/ そもそも運用がない!?開発がなくなる!? SIのシステムの中には開発して納入して終わり。運用は完全にお客様まかせ ってパターンもあるので、まず開発、運用のパターンから整理します。 納入後契約関係が切れお客様が完全に運用をやるパターン 問い合わせが頻繁に来るパターン
Jenkins勉強会大阪 第4回 (2012/12/21) にて発表した資料です。 まとめサイト : https://wiki.jenkins-ci.org/pages/viewpage.action?pageId=65669255 また、2016/10/22 企業の勉強会にて「アレンジして再演」しました。(スライドはその時のものです)
サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開 米国でビデオオンデマンドサービスを提供しているNetflixは、Amazonクラウド上でわざとシステム障害を起こすためのツール、Chaos Monkeyをオープンソースで公開しました。 Chaos MonkeyはAmazonクラウド上で使うツール。Amazonクラウド上のインスタンスをランダムに落としまくることで、サービスに対して仮想的な障害を引き起こしてくれます。 NetflixはこのChaos Monkeyを実環境で使うことで、本物の障害が起きたとしてもサービスが継続できることをテストし続けてきました。Netflixのブログ「Chaos Monkey released into the wild」から引用します。 There are many fail
LOG.debug("nice catch!") - connpass 2012/06/27 java-ja 『LOG.debug("nice catch!")』#java_ja #javaja - Togetterまとめ blogエントリを書くまでがjava-jaだと聞いたのでとりあえず書く。超まとまってません。各スピーカーの話の内容については他の人のblogに(たぶん)書いてあるのでそっちを見るとかTogetterを眺めるとかすればよいのではないでしょうか。 主催のみなさま、および会場提供のGREEさま、ありがとうございました。そういえばGREEでの勉強会って初めて参加した気がする。六本木ヒルズの入館、だいぶ簡単になりましたね。 いってきた どっちかというとアプリケーションのコード書く人が多かったんですかね。という感じで、アプリケーションコードからいかにして例外を投げるか、それをどのよ
原文(投稿日:2012/03/16)へのリンク 1年前に Forrester は Augment DevOps with NoOps (DevOps を補強する NoOps) というレポートを公開した。その中で同社は,近い将来に一部企業のクラウド依存がますます高まり,開発者のビルドやテスト,デプロイなどの作業がさらに自動化されることによって NoOps に到達する,と予想している。NoOps という用語からは,それらの企業が運用スタッフの雇用を止めるような印象を受ける。しかし実際のレポートは,開発者が運用を実施する上でのより優れた自動化ツールへの取り組みや,手動操作の必要性を低減するツールに関して言及したものだ。 クラウドコンピューティングの新たな発展は,オンデマンドなインフラストラクチャやリソースのセルフプロビジョニング,柔軟なアプリケーションアーキテクチャという新しい時代の到来を告げる
スケジュールされたイベントとは Amazon EC2では、ごくまれにインスタンスの再起動をしますと通知(コンソール表示やメール)が来ます。通知の種類には、インスタンスリブートとシステムリブートがあります。今回、EC2をインスタンスリブートするように通知が来ましたので作業手順などをご紹介したいと思います。 EC2ダッシュボードでイベントを確認する スケジュールされたイベントを確認するためには、メールの他にAWSマネジメントコンソールのEC2タブのダッシュボードで確認することができます。 1つのインスタンスが予定されていますと表示されています。詳細を見てみます。詳細情報には、インスタンスID、イベントタイプ、イベントの開始日時、作業時間などが表示されます。今回は、2011年12月17日22時から6時間の間に該当するインスタンスをリブートしますということです。実際の再起動は10分弱で終わりますが
はじめに 株式会社ミクシィの小池知裕です。運用部でアプリ運用を担当しています。前回は年末年始や突発的な負荷に耐えられるシステムの改善について紹介しました。連載2回目となる今回は、mixi.jpを支える運用業務でどのようにシステムの監視と測定が行われているのか、紹介します。 監視/測定って? まず、前号からのおさらいになってしまいますが、筆者の所属する部署の「アプリ運用グループ」は mixi.jpのミドルウェア層以上の運用/維持管理/改善をおもに担当しています。 そこでは、「システムが正常に稼働しているか」「サーバの(CPUやメモリ、トラフィックなど)どういうリソースがどのくらい使われているのか」などを把握しておくことが非常に重要になってきます。 mixiでの監視/測定には大きく分けると2つあります。 死活監視/サービス監視 リソース監視 これらはそれぞれにシステムを運用し、改善するため
youRoomでの障害対応と、SonicGardenの運用の考え方について、先日id:mat_akiがブログを公開しました。 『youRoomにおいて発生した 2011/4/21 のAWSの障害について技術的な観点から』 今回のブログでは、”今回のAWSの障害を通じて、AWSを今後も活用していくための振り返りを、より技術的な観点からしたいと思います”。 今回は、us-east-1リージョンにおけるEBSのサービス障害が問題となりましたが、この影響を受けて多くのWEBサービスがダウンし、サービス再開までに多くの時間を費やしていました。 なぜEBSのサービス障害で(まだ断定はできませんが...)、これほど広範囲に影響が出たのでしょうか? Amazon EC2の米国東海岸データセンターで障害、利用サイトに影響 Amazonのクラウドサービスに障害、FoursquareやQuoraなどに影響 アマ
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 DMCA 2257 Privacy policy Terms of service Contact Web Cam Porn Girls and Nylons Nude Cam webcam girls live Sexy Asian Lbfm Live Erotic Cams Fetisch Live Camsex Porn video Asian Anal Videos vr porn 4k Her Sexy Ass
東北地方太平洋沖地震が金曜日に発生し、被災された皆様には心よりお見舞い申し上げます。 そんな中でも、この月曜日から多くのIT関係者が被災したかもしれないITシステムの復旧に取りかかるのではないかと思います。そうした方々に役に立つ記事を届けられないだろうかと、ユニアデックスの高橋優亮氏に相談したところ、大いなるご賛同をいただき有志の方々とノウハウをまとめたこの文書「災害にあったITシステムを操作しなければならない人が知るべきこと v0.2」を作り上げていただきました。 本文書の主眼は被災したITシステムを復旧させようとする方々に向けた情報提供ですが、システムに電源を入れる前の注意事項、電源投入順序の考え方などの説明は、これから関東地方で計画されている停電が起きたあとのシステム再起動の際などにも参考になると思います。 本文書はどなたにでも活用していただけるようにGNU Free Documen
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く