Tumblr is a place to express yourself, discover yourself, and bond over the stuff you love. It's where your interests connect you with your people.
@ymmt2005 こと山本泰宇です。短い夏休みから帰ってきました。 今回は cybozu.com のデータセンターで運用を開始した自動障害回復システム「月読」を紹介します。障害にも色々ありますが、今回紹介するのは仮想マシンのホストサーバーの物理障害を検出して、稼働していた仮想マシンを予備のホストに移動する仕組みです。 月読は、データセンター全域に分散したエージェントが協調動作するピア・ツー・ピア (P2P)システムとして作られています。以下分散システムの話題が多数でてきますが、とても難解というわけではないので、分散システムの入門記事としてお楽しみください。 障害にどう対処するか 障害対応の自動化 設計のポイント エージェント間通信 障害の検出と回復 その他の機能 まとめ 障害にどう対処するか 物理障害対策の基本は二重化(多重化)です。アプリケーションサーバーのようにデータを持たないサーバ
今、AWS re:Inventにきていて、今日parse.comのセッションを聴く時間があったので簡単にまとめておく。とてもざっくり書くと、要点は parseは1-3段階のDevOpsの進化を経てきた 最初はRoRでデプロイするにも全てのサーバでcapistorano走らせなければ行けなかった。結果として90分から150分くらいデプロイに時間が掛かる。 現在はAutoScalingGroupとChefがシームレスに連携していて、5-10分でシステムをフルビルドできるようになった。 ということ。 セッションの概要は以下のとおり。 MBL307 - How Parse Built a Mobile Backend as a Service on AWS Parse is a BaaS for mobile developers that is built entirely on AWS. Wi
Enjoy Canopsis as a service (HA) with the SaaS mode! In addition to “on premise” hosting, Canopsis will be offered on SaaS platforms (High Availability). With this new mode, event publication and repository synchronization will be carried out securely via the tool’s API. A library of pre-configured dashboards will also be available. In addition to the technical aspects, Canopsis as a service Pro E
Search logs using Fluentd and Kibana Apr 17th, 2013 | Comments Fluentd is a flexible and robust event log collector, but Fluentd doesn’t provide own datastore and Web UI. So if you want to search stored events, then you can use Kibana and ElasticSearch :) ElasticSearch is a easy to use Search Engine and Kibana is a great Web UI for ElasticSearch with LogStash format. Setup Pre requirements Java fo
Power usage effectiveness (PUE) is a metric developed by The Green Grid that measures data center efficiency. It’s a ratio of the total power consumed by a data center to the energy delivered to the servers. The ideal PUE is 1.0, meaning 100% of the data center energy powers the IT equipment. Best practice PUE for the IT sector is 1.5.
原文(投稿日:2012/03/16)へのリンク 1年前に Forrester は Augment DevOps with NoOps (DevOps を補強する NoOps) というレポートを公開した。その中で同社は,近い将来に一部企業のクラウド依存がますます高まり,開発者のビルドやテスト,デプロイなどの作業がさらに自動化されることによって NoOps に到達する,と予想している。NoOps という用語からは,それらの企業が運用スタッフの雇用を止めるような印象を受ける。しかし実際のレポートは,開発者が運用を実施する上でのより優れた自動化ツールへの取り組みや,手動操作の必要性を低減するツールに関して言及したものだ。 クラウドコンピューティングの新たな発展は,オンデマンドなインフラストラクチャやリソースのセルフプロビジョニング,柔軟なアプリケーションアーキテクチャという新しい時代の到来を告げる
昨日のPinterestの記事「Pinterestの急成長を支えてきたアーキテクチャとは? Pythonで開発しAmazonクラウドで運用」に続いて、やはり写真を中心としたサービスで急成長してきたInstagramのスケーラビリティについて、まとめてみました。 InstagramもPinterestと同様に、基本はAmazonクラウド上でPythonとフレームワークのDjangoを使ったシステムを構築しています。興味深いのは、創業者の二人ともバックエンドの経験がないなかで試行錯誤をしてシステムをスケールさせてきた点です。 Instagramは先月、Facebookに買収されると発表されています。この先、Instagramのシステムはどう変わっていくのでしょうか。 Instagramのシステム構成 約半年前、昨年12月にInstagramのブログに投稿された記事「What Powers In
最近、Linuxではaptやyumなど、パッケージ管理ツールで多くのアプリケーションやライブラリが管理されるようになり、普通に利用している限りはソースからコンパイルして"make install"することがほとんどありません。 とはいっても、マイナーなソフトウェアをインストールしたりとか、まだパッケージ管理されていない最新バージョンのものを使いたい場合などは、ソースからコンパイルして"make install"をしたくなる場合も有るかと思います。 しかし、"make install"した場合の最大の欠点は、インストールしたソフトウェアの管理ができないことにあります。そのため、何が入っているのか分からなくなっているとか、アンインストールが出来ない、などのケースが起こりうるわけです。 特にアンインストールする可能性があるソフト(ほとんどのソフトがそうですが・・・)をインストールする場合は、わざ
サーバ運用における基本的な監視にディスクの容量監視があります。 ディスクの使用率が100%になるとサービスに影響がでるのはもちろんですが、 サーバ管理者として100%になるまで気が付かないと恥ずかしかったりします。 (落ちた原因はなんだよ!!! → デ、ディスクの使用率が100%です(///)ってなる) なのでだいたい90%を閾値にディスクの使用率監視をしているのですが、 アラートを検知してそれがMySQLの動いてるサーバだとバイナリログの肥大化を疑います。 バイナリログは更新系のログが記録されますが、放っておくと際限なく増えるので ディスク逼迫の原因になってしまいます。 ので不要なログは定期的に削除したりしますが、そのまとめ。 expire_logs_days my.cnfに [mysqld] expire_logs_days=10と設定したり、set global で mysql> s
RHEL互換のCentOS, Scientific Linux でもOK。 http://docs.redhat.com/docs/ja-JP/Red_Hat_Enterprise_Linux/6/html/Installation_Guide/sn-ssh-installation.html http://docs.redhat.com/docs/ja-JP/Red_Hat_Enterprise_Linux/6/html/Installation_Guide/s1-kickstart2-options.html のsshpw オプションの項目 RHEL5以下のドキュメントは見てないけど、試したところ接続できなかったので、おそらくRHEL6からの機能。linux boot時に(DVDインストール時のGUIメニューの場合はtabを押してoption入力のところに) sshd=1 を追加する。
/**************************************************************************/ /* */ /* miruo README.ja */ /* */ /* Copyright (C) 2011 KLab Inc. */ /**************************************************************************/ 【はじめに】 miruoはパケットキャプチャ型のTCPセッションモニタです。 以下のような特徴があります。 - TCPセッション単位でパケットをまとめて表示できます - TCPの接続、切断部分のみをコンパクトに表示できます - セグメントが再送されたTCPセッションを発見できます - 通信に時間がかかったTCPセッションを発見できます - RSTで中断
前回に引き続いて、dstat その二です。 Linux には、kernel 2.6.20 以降から、IO Accounting という機能が組み込まれています。この機能は、簡単に言ってしまうと、各プロセスごとの IO 情報をカウントしてくれる機能です。この機能があると、プロセスごとの I/O が分かるので、どのプロセスが原因で I/O が重いとかが分かるようになります。 普段使っている CentOS 5.x 系は kernel 2.6.18 系なのですが、RHEL 5.4 のリリースノートをよく見てみると、次のような記述がありました。 ・ストレージ/ファイルシステム関連のアップデート: BlktraceによりブロックIOレイヤでのトレース機構を提供します。I/O accountingによりプロセスごとの実際のIOのアカウンティングが可能になりました。一般ユーザーが独自のファイルシステムを作
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く