SRE Tech Talks ( http://connpass.com/event/34825/ ) でお話した際の資料です
SRE Tech Talks ( http://connpass.com/event/34825/ ) でお話した際の資料です
世間では、情報システムの運用・監視の「自動化」というキーワードがもてはやされがちで、各種のツール・プロダクト等が出てくる昨今です。しかし、「自動化」の実態は深い霧のベールに包まれていると感じていませんか。今回は、以下の現場視点でこのベールを脱がしてみたいと思います。 July Tech Festa 2016 発表資料 #jtf2016 平成28年7月24日(日)Read less
今まで簡単に触れてきたmemcachedのCAS(Compare and Swap)機能ですが、今回はその具体的な使用例や、プロトコルの違いによる特徴を紹介します。また、mixiでの今後のmemcached運用動向を紹介します。 CASの概要 memcachedには特定のデータに対してアトミックな更新を試みる機能が存在します。この機能の仕組みは単純で、クライアントは特定のコマンド(テキストプロトコルの場合は“gets”)を実行することにより、サーバから特定のレコードとその状態を表すユニークな識別子を与えられます。 この識別子はレコードが何らかの手段によって更新されると変更され、クライアントが保持している識別子とは別の値になります。したがって、クライアントは与えられた識別子を更新命令と一緒に送信することで、サーバはレコードをアトミックに更新できるかを確認することができます。もし識別子が
memcachedを安全に運用するポイント 2010年8月10日のスラッシュドット・ジャパンにて「Memcached に潜むセキュリティホール」としてmemcachedの脆弱性に関する記事が上げられました。記事の内容をまとめると以下の2点となります。 bit.ly や Globworld、Gowalla といったサイトではインターネットから memcached へのアクセスが可能であった アクセスしたmemcached上にユーザーのログイン ID / パスワードが格納されており参照可能だった http://slashdot.jp/security/article.pl?sid=10/08/10/0052240 ここには2つの問題があったと考えます。1つ目はmemcachedをインターネットから接続可能な状態で設置してしまったこと、もう1つはキャッシュ上に置かれている必要はなさそうなパスワー
システムをリリースして無事運用に乗った後も、様々な要因によりシステムを拡張する必要が出てきます。今回は、システム拡張の要因、及び基本的なシステム拡張の方法を具体例を挙げつつ説明していきます。 初めに これまで4回に渡り、インフラ運用に関する入門的な記事を書いてきました。それらの内容を実施して、システムが安定運用に乗ってきたと仮定します。業務系のシステムであれば、そこでインフラ担当の仕事は大体終わりとなり、オペレーターなどに主要な業務を引き継ぐことになると思います。それに対してRettyのようなWebサービスの場合は、システムが軌道に乗った後も継続的なシステム拡張が発生することが一般的です。 本記事では、まずどのような事をきっかけ・要因としてシステム拡張が必要になるのかについて説明します。次に、Rettyのシステム構成を簡単に説明し、システム拡張が必要となる各種要因に対して、どのような方針で
システム・サービスに関するログ・各種情報を取得する事により、トラブルシューティング、パフォーマンスチューニングのみならず、ビジネス上の成果の確認、UIの改善等にも役立ちます。ただ、闇雲に情報を取得しても、効果は上がらず労力ばかりがかかってしまいます。本記事ではログ・メトリクスの収集の目的を明らかにし、その為に必要な点を実例を挙げながら説明していきます。 「ログ」取得の目的 Retty開発担当の鹿島です。Webサービスに限らず、ITのシステムを運用していれば、何らかの形で「ログ」の取得・保存をしている事かと思います。そもそも、それらは何のために保存されているのでしょうか。まずは、「ログ」を保存する目的を明らかにし、その観点から各種の「ログ」について見ていきたいと思います。 開発や運用経験のある方であれば、 「ログにxxxに関する情報が出ていれば、障害解決がスムーズなのに......」 とか、
第1回 アプリの運用監視サービスとは? New Relic vs. Application Insights:連載:アプリケーションの運用監視(1/6 ページ) 正式にリリースしたWebサイトが正常に稼働しているかを常時監視するなら、SaaS型の監視サービスが便利だ。お勧めの2大サービスの機能概要を解説する。 連載目次 アプリケーション(以下、アプリ)を作って、テストも問題ないことを確認して、リリースする。しかし、それで終わりではない。サイトが正常に稼働しているか、性能に問題はないか、意図していない例外が発生していないかという情報を継続的に監視する必要がある。 以前は組織内に専用のサーバーを構築する必要があったが、現在はSaaSサービスで提供されているものもある。本連載では代表的な監視サービスについて解説を行う。 アプリの運用監視を行う アプリはリリースして終了ではない。最近DevOpsと
Copyright © 2019–2024 Denis Ovsienko and contributors Copyright © 2018 Denis Ovsienko, Alexey Andriyanov, Aaron Dummer and contributors Copyright © 2013–2017 Alexey Andriyanov, Aaron Dummer, Denis Ovsienko and contributors Copyright © 2011–2012 Denis Ovsienko, Alexey Andriyanov, Aaron Dummer, Jonathan Thurman and contributors Copyright © 2010 Denis Ovsienko, Ryan Farrington, Alexey Andriyanov and
はじめに こんにちは植木和樹です。AWSでは各種ホワイトペーパーなどの資料を多数公開しています。 AWS アーキテクチャーセンター | アマゾン ウェブ サービス(AWS 日本語) 今回は上記ページからダウンロードできる「AWS 運用チェックリスト(PDFファイル)」を読んでみました。運用チェックリストという名前ではありますが、AWSを利用する方は一度目を通しておくのをお勧めする内容でした。 チェックリストは大きく3つ「ベーシック」「エンタープライズ」「セキュリティ監査」に分かれています。このうちベーシックは15項目程とコンパクトにまとまっていて、簡易チェックリストとしてお手頃です。 残念ながらまだ日本語訳がされていないようですので、今回ベーシック部分だけをザックリ読んで簡単なコメントを書いてみました。 ベーシック運用チェックリスト 原文は「我々は〜〜〜を設定しています(理解しています)」
4/7に、LINEさんのオフィスで開催された「JVM Operation Casual Talks」。 一部で、Cassandra Casualだったのではないかという疑惑もありましたが、なかなかためになる話が多くて、あとできっと資料を見たくなる日が来そうなので、ちょっとまとめておこうと思う。 こちらもあわせて読みたい JVM Operation Casual Talks #jvmcasual - Togetter Understanding Memory Management of JavaVM in 15 minutes (@stanakaさん) https://speakerdeck.com/stanaka/understanding-memory-management-of-javavm-in-15-minutes @stanakaさん、どこでJVM使ってるのかと思ったら、今日は
こんにちは!@at_grandpa です。 社内勉強会でdockerについて話す機会がありました。 以下に、勉強会で使用したスライドを載せます。 「dockerって聞いたことあるけどなんなんだ?」という人向けに作りました。 (自分もその立ち位置だったので) はじめてのdocker from at_grandpa 内容としては以下になります。 現在のサーバー運用が抱える問題 ( p.9 ) dockerを支える技術 ( p.56 ) AUFS LXC 実際にdockerを使う流れ ( p.85 ) pingとvimをインストールしてみる dockerのその他の機能 ( p.113 ) AUFSやLXCについては、以下のサイトが個人的にわかりやすかったです。 Dockerが利用しているAUFSとLXC スライド内で使用したURLはこちらです。 Docker: Linuxコンテナを使ってアプリ
先週の10月22日月曜日、Amazonクラウドの米国東リージョンでストレージ障害が発生しました。その原因は、Amazon EBSストレージサーバのバグがメモリリークを引き起こしことだと、Amazonクラウドが報告書「Summary of the October 22, 2012 AWS Service Event in the US-East Region」で明らかにしました。 Summary of the October 22, 2012 AWS Service Event in the US-East Region Amazon EBSストレージサーバのメモリリークを引き起こしたのは、内部DNSの設定ミスによって発生したサーバ間の接続エラーでした。このエラーが潜在的なバグを呼び起こし、知らぬ間に多くのサーバが影響を受け、それがある時点で一斉にストレージ障害という現象を引き起こしたのです
こんにちは。斎藤です。 ITインフラの障害は、多くの場合「予期せぬ」タイミングで発生します。特に、CPUリソースを多量に消費したり、Disk I/Oが輻輳している場合、その切り分けは困難な状況に陥りやすいものです。 そこで、本日はITインフラ、特にOS・ミドルウェアを支えるにあたって、問題解決を助けてくれるであろう12個のコマンドを取り上げてみます。「必ず押さえておきたい」5つのものと「更に覚えると便利なコマンド」7つの2節に分けてお話しします。 ※CentOS 6.4 (64bit)を前提に取り上げます 必ず押さえておきたいコマンド もしITインフラ管理者になりたてな方はぜひ サーバサイドのプログラマをやっていたのだけれど、ある日突然「君、サーバ管理担当ね!」と、バトンを渡される方っていらっしゃると思います。私も以前はそのクチでした...。そうなってしまったとき、まずは覚えておきたい5つ
ちきりんはチェーンのビジネスホテルに泊まるのが好きです。先日、泊まったアパホテルも、その徹底したオペレーションに感動しました。 <1.客まで巻き込む徹底したコスト削減> スリッパは、足裏にあたる部分の白い紙だけが、使い捨てとして用意されています。その紙をスリッパに”客が自分で”貼ると清潔に使えるという仕組み。 清潔感を確保しつつ、大手ホテルのようにスリッパ全体を消毒したり使い捨てにするより、かなりコストが安そう。 冷蔵庫は空なので飲み物は自分で持ち込むのですが、スイッチが(右上の枠のところに)付いていて、使う時だけオンにします。 たしかに一泊くらいだと冷蔵庫も使わない人も多そうだし、空室なのに冷蔵庫を稼働させとくのも無駄だよね。 お風呂のバスタブに何かシールが貼ってあるので見てみると、 お湯はここまで貯めれば十分ですよというシール・・・特に体のデカイ人は少なくて十分よと。 一番左に「温水準
今ちきりんが大学生なら、いろんなチェーン店でアルバイトをすると思う。セブンイレブンはもちろん、マクドナルド、すかいらーく、ワタミ(居酒屋もいいけど高齢者施設で是非!)、あと、アマゾンの倉庫とかね。1年の時から1年ずつ、もしくは半年ずつ、あちこちでバイトしたい。 最近の“意識の高い”学生さんは、ビジネスコンテストに参加したり、ウエブ系企業でインターンしたりするらしいけど、私の場合はそうじゃなくて、大規模小売りやチェーンの外食企業で働きたい。 すかいらーく配送所のピックアップシェルフ。食材名を“一文字”で表すことでミスを防ぐ。ソースや食材の名前をカタカナや漢字でフルネームで書くより、間違いが減らせる これは好みの問題だけれど、ちきりんは“時代の先端的な技術”よりも、“各業界のリーディングカンパニーが長年かけて作り上げた超高度なオペレーションシステム”の方に興味があります。 最近は「アマゾンが一
Designing Opeation Oriented Web Applications / YAPC::Asia Tokyo 2011Masahiro Nagano
主に新人向けとして、Unixサーバで作業をする際の注意点を書いておく。 ここに書いてある内容は絶対的なものではないし、会社や現場ごとにルールがあるので、適宜ルールに合わせて実践すれば良い。 ログを取れ 何をやったか、何をやらなかったか、というエビデンスのためにログは必ず残しておく。SSHクライアントによっては毎回自動的にログ取得する設定が可能なので、設定しておくと良いだろう。 作業後に問題が発生した場合に作業内容を確認するためにも使うため、必ずログは取得しておくこと。 (追記) 当たり前だが、コマンドとその出力をペアで取ることに意味がある。 set -x (set verbose) しろ ログを取得しても、コマンドラインを編集した際には以下のように非常に見づらいものとなってしまう。(がんばれば解析することは出来るが…) ESC[0mESC[27mESC[24mESC[JESC[1myasu
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く