タグ

運用に関するyutamotyのブックマーク (73)

  • AWS特有の運用イベントまとめ(非障害系) | DevelopersIO

    【ACM】 サーバー証明書の有効期限切れ/自動更新失敗 ACMは、CloudFrontとELBと連携してサーバー証明書を提供するサービスです。 ACMで発行する証明書は1年毎に更新する必要がありますが、基的には自動更新されます。 ただし、場合によっては自動更新が失敗するケースがあります。 検証の仕組みは、以下のドキュメントを確認してください。 自動ドメイン検証の仕組み 自動検証に失敗した場合、EメールおよびPersonal Health Dashboardで通知されます。 自動検証に失敗した場合 また、外部で発行された証明書を利用している場合は、手動で更新する必要があります。 再インポートの手順は、以下のドキュメントを参照してください。 証明書の再インポート EV証明書が必要なケースでも無ければ、ACMで証明書を取得してオペレーションが発生しないようにしておきたいですね。 【Route

    AWS特有の運用イベントまとめ(非障害系) | DevelopersIO
  • 東京23区の119番通報が6分間不通、4月に続き日立製システムで障害

    東京消防庁は2015年11月10日、システム障害のため午前11時30分から6分間にわたって東京23区からの119番通報が不通になっていたと発表した。内部の着信履歴を分析したところ、この間に7件の通報があった。折り返し確認をするなどした結果、重症者からの通報はなく、救急・消防活動に大きな影響はなかったとしている。 同庁の説明によれば、システム障害発生直前に、119番通報を受け付ける「新指令管制システム」の中核装置に当たる「受付指令制御装置」で、ソフトウエアの更新作業を実施していた。更新準備のための操作をしたところ、通報が受けられない状態に陥った。 現行システムは日立製作所が納入し、2月25日から稼働している。ソフトウエア更新は月に1回程度実施しているが、これまでに不具合が発生したことはなかったという。 東京消防庁では、3月4日と4月14日にも119番通報が一時受け付けられなくなるシステム障害

    東京23区の119番通報が6分間不通、4月に続き日立製システムで障害
    yutamoty
    yutamoty 2015/11/11
    うーむ
  • 1年間で100万PV増やしたコンテンツ運用と最適化|写真素材サイトぱくたそ

    最多のオフィス訪問シリーズ 「行ってきたシリーズ」のTOP5+αとして日のイケてるオフィスを紹介しちゃうよ!941 Kushii

    1年間で100万PV増やしたコンテンツ運用と最適化|写真素材サイトぱくたそ
  • サーバの電源って冗長化してますか? - mikedaの日記

    実は自分はあんましてないです。 理由について書くと。。。 例えばこんなラック、サーバが前提で、 電源コンセントは2系統で、それぞれ25A(100V, 2.5kva)でブレーカ落ちる サーバは平均2A(100V, 0.2kva)の電力を消費する 片系20Aで合計40Aまで使うとして、サーバは20台突っ込みたい、と思ったとする。 最初はこうしてたんですが、 これだと片系電源に障害があった時とか、ミスってブレーカ落とした時、 もう片系に40Aの全電力がかかって共倒れして、全サーバが停止してしまう。 でもサーバ搭載数を半分にするのはお金的にムリ過ぎる。 ※DCと調整して片系50kvaまで使える2系統にしてもらって、実効電力ベースの契約にするとか、いろいろ手はありそうだけど。 というわけで、 こっちのほうがまだマシか、と次はこうしました。 これだと片系落ちても半分のサーバは生き残るので、サービスは維

    サーバの電源って冗長化してますか? - mikedaの日記
  • ASCII.jp:データ消失!あのとき、ファーストサーバになにが起こったか? (1/2)|データ消失事故から2年!ファーストサーバ、再生への第一歩

    今から2年前の2012年の6月20日、レンタルサーバー会社のファーストサーバは、大規模な顧客データの消失事故を引き起こした。あのときなにが起こったか? ファーストサーバのさまざまな部門の担当に、当時の状態を振り返ってもらった。 ファーストサーバは今も変わらずビジネスを展開している ファーストサーバの顧客データ消失事故に関するドキュメンタリーを書きたいと思った。事故の原因究明や責任の所在を明らかにするのではなく、当事者の話を積み上げていくような記事が書きたいと思った。 そして、今回ファーストサーバの全面的な協力により、事故当時から現場を統率してきた現代表取締役社長の村竹昌人氏をはじめ、営業、開発、運用、マーケティング、広報、サポート、管理など各部門の担当者に話を聞くことができた(以下、敬称略・役職は現職)。 事故から2年間の間、ファーストサーバはひたすら事故の影響を受けたユーザーへの対応と再

    ASCII.jp:データ消失!あのとき、ファーストサーバになにが起こったか? (1/2)|データ消失事故から2年!ファーストサーバ、再生への第一歩
    yutamoty
    yutamoty 2014/07/23
    運用にお金かけようという教訓だけど、未だにみんなお金かけてくれない
  • ご注文は監視自動化ですか?

    『ご注文は監視自動化ですか?』 Serf と Consul を使って運用を楽しくする話 Serf とか Consul とか聞くけど、イマイチわからん!という疑問はありませんか。 どのような働きをするのかや、使いどころを、皆さんと共有したいなと思っています。 1. はじめに 2. 基編 ・ Serf ・ Consul ・ envconsul 3. 実践編 ・ API 連携 4. まとめ July Tech Festa 2014 June 22, 2014, @ AITT Shinagawa, Tokyo, Japan #techfesta #jtf2014

    ご注文は監視自動化ですか?
  • ScaleOut | Supership

    「ミライリアルの幸せを、デジタルの力で創る」ことを目指すSupershipグループの社内報です。日々の出来事、メンバーの働く様子や声、未来への想いなど、Supershipグループの”Be Super”なストーリーをみんなでシェアしていきます。

    ScaleOut | Supership
  • 自動障害回復システム 月読の話 - Cybozu Inside Out | サイボウズエンジニアのブログ

    @ymmt2005 こと山泰宇です。短い夏休みから帰ってきました。 今回は cybozu.com のデータセンターで運用を開始した自動障害回復システム「月読」を紹介します。障害にも色々ありますが、今回紹介するのは仮想マシンのホストサーバーの物理障害を検出して、稼働していた仮想マシンを予備のホストに移動する仕組みです。 月読は、データセンター全域に分散したエージェントが協調動作するピア・ツー・ピア (P2P)システムとして作られています。以下分散システムの話題が多数でてきますが、とても難解というわけではないので、分散システムの入門記事としてお楽しみください。 障害にどう対処するか 障害対応の自動化 設計のポイント エージェント間通信 障害の検出と回復 その他の機能 まとめ 障害にどう対処するか 物理障害対策の基は二重化(多重化)です。アプリケーションサーバーのようにデータを持たないサーバ

    自動障害回復システム 月読の話 - Cybozu Inside Out | サイボウズエンジニアのブログ
  • Linuxサーバのディスク容量減少アラートが飛んできた!ってときにどう対処するか - たごもりすメモ

    完全に このエントリ のネタパクりです。すいません。 何に使われてるかわかったもんじゃないマシンとか開発用サーバとかだと超巨大なバイナリとか置いてあるかもしれませんが、プロダクション用のサーバでそういうことは無いとしましょう。 その場合、原因はだいたい以下のどれかです。www/appとdbが別マシンに分かれてる場合は更に絞り込めますね。 wwwサーバやappサーバ ログ 圧縮してあるが保存世代数が多くて厳しいケース 圧縮し忘れてるケース 圧縮どころかローテーションすら忘れてて1ファイルどかんと存在するケース ローテーションがうまくいかなくて deleted ファイルなケース tmpデータなど(app) キャッシュサーバのディスクキャッシュ dbサーバ データ実体 (ib_data) バイナリログ ログの場合でも、ディスク上のどこにログが書かれてるかは色々なパターンがある可能性がありますね。

    Linuxサーバのディスク容量減少アラートが飛んできた!ってときにどう対処するか - たごもりすメモ
  • Linuxサーバがディスク容量不足になった!何か消さねば!ってなった時にどう対処するか - 元RX-7乗りの適当な日々

    とりとめもなく書いてみる。主にルーキー向けです。 サーバの運用とかやっていると、不定期ではあるが、たまにタイトルのようなディスク容量が逼迫する話題に直面します。 まぁ、それが起こるのは一旦良いとして、みんなこういう時、どうやって調べているのだろう? とりあえず、僕がどうやってるか書いてみます。 何はともあれ現状確認 みんな大好き"df"コマンドです。細かい説明は省きますが、各パーティション・ファイルシステムごとにディスクの使用状況を確認。 # df -h Filesystem サイズ 使用 残り 使用% マウント位置 /dev/sda3 130G 88G 36G 72% / /dev/sda1 494M 23M 447M 5% /boot tmpfs 12G 0 12G 0% /dev/shm正確とは言いませんが、だいたいどのパーティションにどのくらい容量が空いているかが確認できます。 ど

    Linuxサーバがディスク容量不足になった!何か消さねば!ってなった時にどう対処するか - 元RX-7乗りの適当な日々
  • サーバ用途でコンシューマ SSD へ調子に乗って書き込みすぎると壊れるという話 - mura日記 (halfrack)

    Crucial M500 の write endurance が 75TB しか無いというのが話題になっていて、同じく 75TB である m4 をわざと虐待していたホストはどうなったのか気になって調べて見たところ、面白い結果が観測されたという話。 石橋を叩いて壊し障害時の挙動を見るべく「自社全サービスのアクセスログを受け止める syslog サーバ」という、どう見ても書き込み中心で SSD にやさしくないホストをあえて動かしていた。具体的には下記のようなノリのホストである。 iostat の一行目なので uptime 数百日における平均値であることに注意。 [root@touge ~]# iostat -k -x -d sda | sed -n '3,4p' Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await

    サーバ用途でコンシューマ SSD へ調子に乗って書き込みすぎると壊れるという話 - mura日記 (halfrack)
  • サーバに負荷をかけるお手軽な方法: RemovableType

    1. CPU使用率を上げる 1-1. (要Perl) perl -e "1 while 1" 1-2. (要Bash) while true; do true; done 1-3. (要Python) python -c "while True: True" ※CPUコアが複数の場合はその数だけ並列で実行する 2. ロードアベレージを上げる(UNIX/Linuxのみ) top -d .00001 ※上がりにくい場合はウェイトをより小さくする、もしくは複数並列で実行する 3. メモリ、スワップ使用率を上げる 3-1. (要Perl) perl -e "$c[$_]='a'x$_ for 1..1000000" 3-2. (要Python) python -c "range(1,100000000)" ※足りない場合はエンドの数を増やす ※Pythonの方はCtrl+Cで中断できない(要kil

  • サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開

    サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開 米国でビデオオンデマンドサービスを提供しているNetflixは、Amazonクラウド上でわざとシステム障害を起こすためのツール、Chaos Monkeyをオープンソースで公開しました。 Chaos MonkeyはAmazonクラウド上で使うツール。Amazonクラウド上のインスタンスをランダムに落としまくることで、サービスに対して仮想的な障害を引き起こしてくれます。 NetflixはこのChaos Monkeyを実環境で使うことで、物の障害が起きたとしてもサービスが継続できることをテストし続けてきました。Netflixのブログ「Chaos Monkey released into the wild」から引用します。 There are many fail

    サービス障害を起こさないために、障害を起こし続ける。逆転の発想のツールChaos Monkeyを、Netflixがオープンソースで公開
  • 日々のIT危機管理レベルが問われるファーストサーバ障害復旧

    ファーストサーバの大規模障害の件は、データ復旧が不可能という発表があったそうだ。 大規模障害のファーストサーバ、「データ復旧は不可能」 大規模障害の概要と原因について(中間報告)(ファーストサーバサイト) 復旧レベルにもよると思うが、Linuxの場合、HDDから削除復旧をさせた時に、ファイル管理情報がすでに一致しない状態になると、仮にファイル実体が復旧しても、ファイル名、フォルダ名がわからなくなって、それがいったい何のファイルかわからない。共用サーバの場合は誰のファイルかわからないので、事業者側も、うかつに渡すことができない、など言ったケースにもなることもありうるので、基的に復旧は無理だろうなと思っていた。 今回は、専用サーバでも、ユーザー企業側のアクセス権限がないユーザーにもファイルが見えてしまうという指摘を受けたそうだが、一度消してしまったファイルである以上、それはある意味仕方のない

  • リモート コンピュータをシャットダウンする方法 - Windows Live

    リモート コンピュータをシャットダウンする方法として [shutdown.exe] があります。 Windows NT / Windows 2000 ではリソースキットに含まれています。 ダウンロードできる Windows 2000 のリソースキットには shutdown.exe が含まれていないため、リソースキットの 書籍を持っていない場合は NT のリソースキットのダウンロードモジュールを流用できるようです。 Windows 2000 Resource Kit Tools 管理タスク Windows NT 4.0 Resource Kit Support Tools ftp.microsoft.com Windows XP 以降では標準で shutdown.exe が含まれています。 以下は XP で表示したヘルプになります。 使用法: shutdown.exe [-i | -l |

    リモート コンピュータをシャットダウンする方法 - Windows Live
  • トラブルをわざと発生させサーバ問題解決能力を鍛える「Trouble-Maker」 - GIGAZINE

    ほとんどのシステム管理者が経験したことがあるはずの状況は「何か悪いことが起きていて、サーバがダウンしているが、しかし何が起きているのか分からない」というシチュエーション。サーバを管理するシステムアドミニストレーターなどの立場でいると何が大変かというと、実際の製品として動かしている実環境でこのような問題が発生した場合です。 そこで役に立つのがこのオープンソースソフト「Trouble-Maker」です。 Trouble-Maker http://trouble-maker.sourceforge.net/ システム管理者の仕事を簡単にするため、多くのツールが存在していますが、未知の状況を経験している場合になんとかしてくれるわけではありません。この一連のソフトウェア群「Trouble-Maker」は既存の便利なツールとは異なり、問題を解決するのではなく、むしろ問題を引き起こします。インストールし

    トラブルをわざと発生させサーバ問題解決能力を鍛える「Trouble-Maker」 - GIGAZINE
  • 古参ウェブ屋が最新のサイト立ち上げ運用マニュアルを本気になって作ってみた

    HOME / ウェブサイトのコツ / いまさら聞けない!ホームページの立ち上げから運用体制構築 Date: 2011/11/25 | | Tags: ホームページ, 立ち上げ, 運用体制, 構築 いまさら聞けない!ホームページの立ち上げから運用体制構築 自社ウェブの立ち上げから運用体制の構築まで、ウェブ担当者は何を考えないとならないのか? 日、静岡商工会議所主催の静岡清水産業情報プラザ創立10周年記念セミナーでお話しした内容です。 いまさら聞けない!ホームページの立ち上げから運用体制構築">いまさら聞けない!ホームページの立ち上げから運用体制構築 小規模ウェブから大規模ウェブまで通用する、「担当者が何を考えるべきか?」という切り口の資料になっています。ウェブ担当者はなにも技術のことを勉強するのではなく、誰かを使って、場合によっては外注して、やらなくてはならないことを実現すればいいわけです

  • Icinga » Monitor your entire Infrastructure with Icinga

    Monitor Your Entire Infrastructure Find answers, take actions and become a problem-solver. Be flexible and take your own ways. Stay curious, stay passionate, stay in the loop. Tackle your monitoring challenge.

    Icinga » Monitor your entire Infrastructure with Icinga
  • サーバの応答時間を定点観測したことありますか? - カイワレの大冒険 Third

    あなたが運用しているサーバ・サービス、常に同じ速さで表示・応答できてますか?「常に」というとさすがに厳しいかもしれません。ただ、ちゃんと追って把握できていますか?という話し。 JavaScriptを書いたり、フロントエンドの作業をしていると、レスポンス・タイムってかなり気になったりします。レンダリングって遅いときは遅いですから。または大きな写真を投稿した場合とかも。広告もそうですねぇ。 その場で確認するだけならFirebugとか使えばよいわけですが、定期的に観測した場合とかもあるわけです。 インフラ周りのことでピーク時にレスポンス悪くなってないかと気になるときとか。 そういうときに便利なコマンドが「http_ping」です。 言うより易し。公式サイトに載ってるサンプルを見てみましょう。 % http_ping http://www.example.com/ 7816 bytes from

    サーバの応答時間を定点観測したことありますか? - カイワレの大冒険 Third
  • Parallel ssh (pssh)で複数ホストでコマンド同時実行 : しげふみメモ

    2009年06月17日20:21 カテゴリLinux Parallel ssh (pssh)で複数ホストでコマンド同時実行 複数のホストに対してコマンドを同時に実行できるツールとして、以前にCluster SSHを試してみました。 今度は Parallel ssh (pssh) を試してみました。 参考: 1つのシェルから複数のSSHセッションを同時に実行するツール3種類を試す - SourceForge.JP Magazine bashでforループを回すのはちょっとした事だとよく使いますが、psshだと同時にできるのが利点のひとつ。 とりあえず、メモ程度ですがopenSUSE 10.3で試してみました。 Parallelということなので、ほぼ同時に実行開始されます。 そして、結果が返ってくるのはばらばらです。結果を標準出力に表示する場合は見辛いかもしれません。 -h オプションで対象ホ

    Parallel ssh (pssh)で複数ホストでコマンド同時実行 : しげふみメモ