タグ

運用に関するtorazukaのブックマーク (20)

  • Site::Reliability::Engineering - YAPC::Hakkaido 2016 Sapporo

    Site::Reliability::Engineering - YAPC::Hakkaido 2016 Sapporo

    Site::Reliability::Engineering - YAPC::Hakkaido 2016 Sapporo
    torazuka
    torazuka 2016/12/12
    サービス全体を計測しているのが土台となってこういうチューニングができるんだろうなあ / 当番だと休日も大変そう。すごい
  • 【社内資料公開】運用手順書を作る時のポイントについて書いてみた | DevelopersIO

    はじめに こんにちは植木和樹@上越妙高オフィスです。日は私がここ10年くらい意識している運用手順書を書くときのポイントについてまとめてみました。 対象読者 開発・構築したシステムを別の人に引き継ぐ予定のある人 他の人が作ったシステムを引き継ぐ担当の人 半年後の自分でも分かる手順書の書き方に困っている人 (この記事を読むのにかかる時間の目安:5分) 1. ドキュメントの冒頭に書くこと まず個々の詳細手順の前に、ドキュメント自体について記載してもらいたいことです。 1.1. ドキュメントに書かれていることを3行で書く ドキュメントの最初には、このドキュメントに何が書かれているのかを100文字くらいで書いておくと良いでしょう。 システムが増えれば増えるほど手順書も増えていくものです。見つけたドキュメントに自分の期待するものが書かれているのか、冒頭数行でわかるようになっているとうれしいです。 1

    【社内資料公開】運用手順書を作る時のポイントについて書いてみた | DevelopersIO
    torazuka
    torazuka 2016/06/30
    "運用手順書を書く際、レビューする際のチェックリスト的に参考に" これはすごい リストがきた。今までに作った手順書見直そう
  • Javaの進化にともなう運用性の向上はシステム設計にどういう変化をもたらすのか

    SonicGarden Study #11で放送された資料から一部スライドを抜いたものになります。 http://sonicgarden.doorkeeper.jp/events/13229 ----- 優れたプログラマだけが優れたソースコードを書くことができます。 では優れたプログラマになるにはどうすれば良いでしょうか。 自分の書いたコードを、優れたプログラマに指摘してもらうことが一番の近道です。それがコードレビューです。たった一人でコードレビューも受けずに、ただ書き続けてもクソコードはクソコードのままなのです。 そこで今回は、良いコードが書けるプログラマになるための、コードレビューを上手に実践する秘訣を話します。

    Javaの進化にともなう運用性の向上はシステム設計にどういう変化をもたらすのか
  • 運用組織論 /operation-organization

    オペレーションカンファレンス 2016 Springでの発表資料です。 詳細: https://www.opslab.jp/publish/20160418-mspj.html (運用設計ラボ合同会社 波田野裕一)

    運用組織論 /operation-organization
    torazuka
    torazuka 2016/04/19
    サービス価値を支えるエンジニアリング能力もまた、目的に対して"期待をつなぐ"ことなんだなー。それにしても勉強しなくちゃいけないこといっぱいあるな。
  • 開発するように運用するインフラ JAWS DAYS 2015

    Cheating the UX When There Is Nothing More to Optimize - PixelPioneers

    開発するように運用するインフラ JAWS DAYS 2015
  • くらまね for AWS

    AVD(旧WVD)環境提供 MicrosoftのVDIソリューションをお安くセキュアに ※MicrosoftのAdvanced Specialization取得済

    くらまね for AWS
  • オンプレミスから AWS に移行して変えた 3 つのこと

    7 月に開催された「JAWS-UG 三都物語 2014」でも発表したとおり、自分が関わっているプロダクトをオンプレミスから AWS に移行しました。 JAWS-UG 三都物語 2014 に登壇しました 移行して 2 ヶ月ほど経ちましたが、目立った障害もなく安定した運用を続けています。スライドでも少し触れていますが、これまでのやり方を大きく変えるキッカケにもなりました。 今回は「オンプレミスから AWS に移行して変えた 3 つのこと」と題して、社外に公開できる範囲でご紹介します。 稼働中のサーバに変更は加えない いわゆる Immutable Infrastructure の考え方を取り入れました。最初は流行りに乗りたかったという気持ちが大きかったのですが、今では昔のやり方にはもう戻れません。 オンプレミスでは番稼働中のサーバにログインして何か変更するということが当たり前に行われていました

    オンプレミスから AWS に移行して変えた 3 つのこと
  • サーバの適切な名前の付け方 | POSTD

    現在、 MNX ではクラウドホスティングサービスの新しいデータセンタを立ち上げているところで、とてもバタバタしています。クラウドホスティングサービスは、今の私たちの主な業務ですが、この会社が始まった当初は、Linux管理のコンサルティングサービスを中心としていました。そのサービスを通じて、たくさんの顧客環境を目の当たりにしましたし、それと同じ数だけの、顧客ごとに異なるデバイス名の指定方法も見てきました。そしてもちろん、その全ての指定方法をいいなと思ったわけではありません。名前の付け方は、コンピュータ草創期からの問題ですよね。おのおのがホスト名の指定方法について一家言持っていました。でも、それらの方法は最初のうちはうまくいっても、時を経てシステムインフラが拡大し、状況に応じて変更を余儀なくされるようになると、すぐに扱いにくくなってしまうものがほとんどでした。 そこで今回は、先述した私たちのデ

    サーバの適切な名前の付け方 | POSTD
  • 事故らないために普段守っているターミナルの運用ポリシ(Mac + iTerm2)|TechRacho by BPS株式会社

    morimorihogeです.新年一発目の投稿です.最近木曾が改二になりました. Web開発に限らず,UNIX系で動作するシステムの開発・運用に携わっていると常にターミナルクライアントを開いているということが多いかと思います.Web開発やサーバインフラの構築・運用をやっていると,自分のローカルPCだけではなく,リモート上の別マシンに接続し,テストサーバや番サーバでコマンドを打って作業する機会が多くなります. そんな中「ローカルマシンのコンソールだと思ってrmしたら実は番系サーバだった」「なんか色々実行してて処理が怪しいなと思ったら別のサーバだった」という思いをしたことがあるのは僕一人だけじゃないと思います. 今回はこういった問題を防止するために僕が普段から守っているターミナルの運用ポリシを紹介してみようと思います.あまり技術的な話はないですが,普段開発・運用を仕事としてしていく上でのノ

    事故らないために普段守っているターミナルの運用ポリシ(Mac + iTerm2)|TechRacho by BPS株式会社
  • SIとしてできるDevOps  DevOps Day Tokyo 2013を聞いて - toshi_miura's blog

    結論 SIでも出来るDevOps的な取り組みはある。 特に、ビジネスメトリクス、インフラメトリクの収集、見える化が良いのではないか? エントリのの内容 DevOps Day Tokyo 2013を見てSI所属の人間が考えたことです。 セッションの内容に関する情報はあまりありません。 セッションに関する情報は下記が参考になります。 DevOps Day Tokyo 2013 参加レポート http://jedipunkz.github.io/blog/2013/09/29/devops-day-tokyo-2013-report/ そもそも運用がない!?開発がなくなる!? SIのシステムの中には開発して納入して終わり。運用は完全にお客様まかせ ってパターンもあるので、まず開発、運用のパターンから整理します。 納入後契約関係が切れお客様が完全に運用をやるパターン 問い合わせが頻繁に来るパターン

    SIとしてできるDevOps  DevOps Day Tokyo 2013を聞いて - toshi_miura's blog
  • 20121019-jenkins-akiko_pusu.pdf

    20121019 Jenkins勉強会資料です。技術ネタではなくてすみません...。Read less

    20121019-jenkins-akiko_pusu.pdf
    torazuka
    torazuka 2012/10/20
    "ある管理部門のJenkins展開への道" やり方や精神に学ぶところが色々ありました。/運用改善は技術の一つだと思う。
  • サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開

    サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開 米国でビデオオンデマンドサービスを提供しているNetflixは、Amazonクラウド上でわざとシステム障害を起こすためのツール、Chaos Monkeyをオープンソースで公開しました。 Chaos MonkeyはAmazonクラウド上で使うツール。Amazonクラウド上のインスタンスをランダムに落としまくることで、サービスに対して仮想的な障害を引き起こしてくれます。 NetflixはこのChaos Monkeyを実環境で使うことで、物の障害が起きたとしてもサービスが継続できることをテストし続けてきました。Netflixのブログ「Chaos Monkey released into the wild」から引用します。 There are many fail

    サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開
  • #java_ja で例外とロギングについて勉強会をやるというのでいってきた&飛び込みLTやった&運用の視点から見たアプリケーションのログについて - たごもりすメモ

    LOG.debug("nice catch!") - connpass 2012/06/27 java-ja 『LOG.debug("nice catch!")』#java_ja #javaja - Togetterまとめ blogエントリを書くまでがjava-jaだと聞いたのでとりあえず書く。超まとまってません。各スピーカーの話の内容については他の人のblogに(たぶん)書いてあるのでそっちを見るとかTogetterを眺めるとかすればよいのではないでしょうか。 主催のみなさま、および会場提供のGREEさま、ありがとうございました。そういえばGREEでの勉強会って初めて参加した気がする。六木ヒルズの入館、だいぶ簡単になりましたね。 いってきた どっちかというとアプリケーションのコード書く人が多かったんですかね。という感じで、アプリケーションコードからいかにして例外を投げるか、それをどのよ

  • NoOps - その意味と関連する議論

    原文(投稿日:2012/03/16)へのリンク 1年前に Forrester は Augment DevOps with NoOps (DevOps を補強する NoOps) というレポートを公開した。その中で同社は,近い将来に一部企業のクラウド依存がますます高まり,開発者のビルドやテスト,デプロイなどの作業がさらに自動化されることによって NoOps に到達する,と予想している。NoOps という用語からは,それらの企業が運用スタッフの雇用を止めるような印象を受ける。しかし実際のレポートは,開発者が運用を実施する上でのより優れた自動化ツールへの取り組みや,手動操作の必要性を低減するツールに関して言及したものだ。 クラウドコンピューティングの新たな発展は,オンデマンドなインフラストラクチャやリソースのセルフプロビジョニング,柔軟なアプリケーションアーキテクチャという新しい時代の到来を告げる

    NoOps - その意味と関連する議論
    torazuka
    torazuka 2012/04/02
    インフラがプログラマブルになると、オペレーション知識の一部が陳腐化する可能性はあるけれども、仕組みの知識はどこまでいっても必要だ。それがないと、いくらAPIがあっても何もできないも同然…。
  • Amazon EC2でスケジュールされたイベント通知が来た | DevelopersIO

    スケジュールされたイベントとは Amazon EC2では、ごくまれにインスタンスの再起動をしますと通知(コンソール表示やメール)が来ます。通知の種類には、インスタンスリブートとシステムリブートがあります。今回、EC2をインスタンスリブートするように通知が来ましたので作業手順などをご紹介したいと思います。 EC2ダッシュボードでイベントを確認する スケジュールされたイベントを確認するためには、メールの他にAWSマネジメントコンソールのEC2タブのダッシュボードで確認することができます。 1つのインスタンスが予定されていますと表示されています。詳細を見てみます。詳細情報には、インスタンスID、イベントタイプ、イベントの開始日時、作業時間などが表示されます。今回は、2011年12月17日22時から6時間の間に該当するインスタンスをリブートしますということです。実際の再起動は10分弱で終わりますが

    torazuka
    torazuka 2011/12/10
    分かりやすいです。
  • 第2回 mixi.jpを支える運用監視 | gihyo.jp

    はじめに 株式会社ミクシィの小池知裕です。運用部でアプリ運用を担当しています。前回は年末年始や突発的な負荷に耐えられるシステムの改善について紹介しました。連載2回目となる今回は、mixi.jpを支える運用業務でどのようにシステムの監視と測定が行われているのか、紹介します。 監視/測定って? まず、前号からのおさらいになってしまいますが、筆者の所属する部署の「アプリ運用グループ」は mixi.jpのミドルウェア層以上の運用/維持管理/改善をおもに担当しています。 そこでは、「⁠システムが正常に稼働しているか」「⁠サーバの(CPUやメモリ、トラフィックなど)どういうリソースがどのくらい使われているのか」などを把握しておくことが非常に重要になってきます。 mixiでの監視/測定には大きく分けると2つあります。 死活監視/サービス監視 リソース監視 これらはそれぞれにシステムを運用し、改善するため

    第2回 mixi.jpを支える運用監視 | gihyo.jp
    torazuka
    torazuka 2011/07/20
    RRDtool/基本的なことを実施するのが大事というお話。
  • AWS障害による影響を小さくするための設計(2011/4/21の障害を踏まえて) - よかろうもん!

    youRoomでの障害対応と、SonicGardenの運用の考え方について、先日id:mat_akiがブログを公開しました。 『youRoomにおいて発生した 2011/4/21 のAWSの障害について技術的な観点から』 今回のブログでは、”今回のAWSの障害を通じて、AWSを今後も活用していくための振り返りを、より技術的な観点からしたいと思います”。 今回は、us-east-1リージョンにおけるEBSのサービス障害が問題となりましたが、この影響を受けて多くのWEBサービスがダウンし、サービス再開までに多くの時間を費やしていました。 なぜEBSのサービス障害で(まだ断定はできませんが...)、これほど広範囲に影響が出たのでしょうか? Amazon EC2の米国東海岸データセンターで障害、利用サイトに影響 Amazonのクラウドサービスに障害、FoursquareやQuoraなどに影響 アマ

    AWS障害による影響を小さくするための設計(2011/4/21の障害を踏まえて) - よかろうもん!
    torazuka
    torazuka 2011/04/30
    参考になります。
  • Live Nude Cams 😍 - Ooh Cams

    Live nude webcam chat IntroductionLive nude webcam chat has become increasingly popular as a form of online entertainment and communication. This unique platform allows individuals to connect with models in real-time, engaging in intimate experiences through video chat. With the advancements in technology and the widespread availability of high-speed internet connections, live nude webcam chat has

    torazuka
    torazuka 2011/04/22
    貴重な記事ありがとうございます。/インスタンスにデータを置かない運用がいいんだろうな、やっぱり・・。
  • スライド 0

    torazuka
    torazuka 2011/03/16
    静岡にデータセンターを持つBroad Center社の災害対策と震災時対応の事例。VIOPS-5の発表資料(PDF直)
  • 災害にあったITシステムを操作しなければならない人が知るべきこと

    東北地方太平洋沖地震が金曜日に発生し、被災された皆様には心よりお見舞い申し上げます。 そんな中でも、この月曜日から多くのIT関係者が被災したかもしれないITシステムの復旧に取りかかるのではないかと思います。そうした方々に役に立つ記事を届けられないだろうかと、ユニアデックスの高橋優亮氏に相談したところ、大いなるご賛同をいただき有志の方々とノウハウをまとめたこの文書「災害にあったITシステムを操作しなければならない人が知るべきこと v0.2」を作り上げていただきました。 文書の主眼は被災したITシステムを復旧させようとする方々に向けた情報提供ですが、システムに電源を入れる前の注意事項、電源投入順序の考え方などの説明は、これから関東地方で計画されている停電が起きたあとのシステム再起動の際などにも参考になると思います。 文書はどなたにでも活用していただけるようにGNU Free Documen

    災害にあったITシステムを操作しなければならない人が知るべきこと
    torazuka
    torazuka 2011/03/14
    災害時対応ガイド(ライセンス: GFDL)// 参考になりました。が、"自分で復旧作業をしない"という判断が重要そうだなぁ。
  • 1