タグ

運用に関するstealthinuのブックマーク (49)

  • メールサービスの障害および一部メールの消失のお詫びとご報告(第二報)(2017年04月17日)|会員サポート|プロバイダ ASAHIネット

    stealthinu
    stealthinu 2017/05/02
    ASAHIネットほどの大手老舗ISPでサーバ設定変更ミスでメールが一部消失する障害と… よそのことだから勝手な憶測だけどISPの下回りやってる人らはどこも疲弊しつつあるんじゃないのかなあ…
  • 偽名で運用 !? Azureデータセンターの「トリビア」を集めてみた

    世界140カ国以上の地域に100以上配置されているマイクロソフトのデータセンター(DC)。ここで、Microsoft Azureのほか、Office 365、OneDrive、Bingなど同社のクラウドサービスが運用されている。今回は、思わず誰かに話したくなる「Azureデータセンターのトリビア」を集めてみた。教えてくれるのは、マイクロソフトテクノロジーセンター センター長の澤円さんだ(聞き手、アスキー羽野三千世)。 AzureのDCは・・・「知られざる謎の組織」が運用している 澤さん:AzureのDCは“知られざる謎の組織”によって構築、運用されています。この組織は「MCIO(Microsoft Cloud Infrastructure and Operations)」という名称で確かにマイクロソフト社内に存在しているのですが、MCIOに誰が所属しているのかは、社員にも知らされていません

    偽名で運用 !? Azureデータセンターの「トリビア」を集めてみた
    stealthinu
    stealthinu 2017/05/01
    Azureのデータセンタってそこまで考えられて運用されてんだな。
  • 実際に運用してみてわかった、大規模Mastodonインスタンスを運用するコツ - pixiv inside

    おはようございます、ImageFlux開発責任者のharukasanです。3日前の4月14日、ピクシブではPawooが急にリリースされることになりまして、ここ数日はずっとPawooサーバにログインしていました。このPawooサーバ、既にピクシブの監視体制に入っており、アラート受信後インフラエンジニアが障害対応できる仕組みを整えています。案の定、リリース直後の15、16日は週末にもかかわらずアラートを受け取ることになり、サーバにはりつくことになったわけです。どんなシステムであろうとアラートを受け取ったら対応する、それが我らインフラエンジニアです。 pawoo.netの構成 さて、それではまずPawooの構成を見ていきましょう。digすればわかりますがpawoo.netAWS上に構成されています。数百台以上の物理サーバを常時運用しているピクシブであっても、さすがにこんなにはやく物理サーバは用

    実際に運用してみてわかった、大規模Mastodonインスタンスを運用するコツ - pixiv inside
    stealthinu
    stealthinu 2017/04/18
    すごいスピード感ある。あと大規模サービス運用の知見があって参考になる。『どんなシステムであろうとアラートを受け取ったら対応する、それが我らインフラエンジニアです』いいね!
  • 利用しているBaaSが終了するときにすべきこと または Parse.com の終了と私たちの取り組み

    [Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails

    利用しているBaaSが終了するときにすべきこと または Parse.com の終了と私たちの取り組み
    stealthinu
    stealthinu 2017/03/06
    すんごい辛みのある話だった… 依存してるバックエンドのサービスが終了するとかほんとつらすぎるわ。
  • 米国東部(バージニア北部、US-EAST-1)リージョンで発生した Amazon S3 サービス障害について

    時間3月1日未明に米国東部(バージニア北部、US-EAST-1)リージョンにおいて発生いたしましたサービス障害に関する追加情報についてお伝えいたします。 この度、Amazon Simple Storage Service (S3) チームが S3 の請求システムの処理に通常よりも時間がかかるという問題のデバッグを進めておりました。 その過程におきまして、9:37AM PST(日時間 2:37AM)に、適切に権限を与えられたS3チームメンバーが確立された手順に従い、S3 の請求システムが利用するS3サブシステムを構成する少数のサーバを削除するコマンドを実行いたしましたが、その際、コマンドへの入力が不適切であったため、想定よりも多くのサーバが削除される結果となりました。 今回誤って削除されたサーバは2つのS3サブシステムに関わるもので、1つは、Index(インデックス) サブシステムであ

    米国東部(バージニア北部、US-EAST-1)リージョンで発生した Amazon S3 サービス障害について
    stealthinu
    stealthinu 2017/03/03
    なんと… S3の障害はオペミスが原因だったらしい。amazonですらこんなことが起きるのか。
  • サーバーレス・アーキテクチャで構築したシステムの運用はどうやるのか? | iret.media

    2016年12月20日からスタートしたMBS(毎日放送)の有料動画配信サービス『MBS動画イズム444』にて、サーバーレス・アーキテクチャ(AWS Lambda)が全面採用されたという事例は、世界を見渡しても類をみない、大変優れた設計であると話題になりました。 でもね、重要なことは「AWS Lambdaを使って構築した」ことではないんです! 『MBS動画イズム444』は、次々と新しい動画コンテンツが増えていますし、有料会員も猛スピードで増えていると伺っています。そうなると、このサービスの安定運用こそが、もっとも重要なことなのです。 そこで、この記事では「AWS Lambda」で構成されるシステムの運用をcloudpackならこうやります!というのをご紹介いたします。 サーバーレス・アーキテクチャのシステム運用はどう考えるべきか? 『MBS動画イズム444』のシステム構成は、実に複雑です。

    サーバーレス・アーキテクチャで構築したシステムの運用はどうやるのか? | iret.media
    stealthinu
    stealthinu 2017/02/15
    lambda使ってるシステムでの運用方法について。ログをS3に吐くようにして監視もlambdaで。複数リージョンでの監視を行なうことで多重化。
  • なぜ「システムが無事に動いている」ことの価値は理解されないのか

    最近はあまり技術的な仕事をしていないんですが、実は私は元々DBエンジニアです。 OがつくDBとか、PがつくDBとか、mがつくDBとかをいじくって、クエリを書いたり、テーブルの設計をしたり、パフォーマンスのボトルネックをあれこれ調べて解消したり、INDEXヒントを総とっかえして頑迷なオプティマイザをぶん殴ったりすることが主なお仕事でした。今でもたまーにそういうことをします。 同業の方であればお分かりかと思うんですが、DBのパフォーマンスは凄く唐突に、かつ多くの場合極端に落ちます。そして、DBのパフォーマンスが落ちると物凄く広範囲に影響が及びます。 アプリケーションサーバ、重くなります。クライアント、ろくに動かなくなります。お客様、切れます。カスタマーサポートにはわんさか電話がかかってきます。 ただ「遅くなる」だけでも十分に影響は甚大なのですが、それ以上のトラブルが発生するとまあエラいこっちゃ

    なぜ「システムが無事に動いている」ことの価値は理解されないのか
    stealthinu
    stealthinu 2017/02/09
    電気や水道のようなインフラ業もなかなか感謝されることない代わりに安定した職であることも保証されるが、こっちの「インフラエンジニア」は感謝されない上に職的にも安定しないのよね。つらい。
  • GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット - Publickey

    果たしてGitLab.comで何が起きたのでしょうか? これまでの経緯をまとめました。 スパムによるトラフィックのスパイクからレプリケーションの不調へ GitLab.comは今回のインシデントについての詳細な経過を「GitLab.com Database Incident - 2017/01/31」で公開しています。また、もう少し整理された情報がブログ「GitLab.com Database Incident | GitLab」にも掲載されています。 これらのドキュメントを軸に、主なできごとを時系列に見ていきましょう。 1月31日16時(世界協定時。日時間2月1日午前8時)、YP氏(Yorick Peterse氏と思われる)はPostgreSQLのレプリケーションを設定するためにストレージの論理スナップショットを作成。これがあとで失われたデータを救う幸運につながります。 1月31日21時

    GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット - Publickey
    stealthinu
    stealthinu 2017/02/02
    聞いてるだけでこっちの胃液も登ってきてしまう案件。しかしまあ偶然スナップショット取っといてほんとよかったな。
  • Cookpad TechConf 2017 提供 Wi-Fi の裏側 - クックパッド開発者ブログ

    インフラ部 id:sora_h です。 先週開催された Cookpad TechConf 2017 如何でしたでしょうか。わたしは TechConf において Wi-Fi を担当していて、こちらも好評いただいたようでなによりでした。 というわけで、この記事では TechConf 2017 における Wi-Fi についての詳細を紹介します。 ネットワーク機器設定・サーバー mitamae レシピ等の公開 https://github.com/cookpad/techconf2017-network 今回の紹介する構成のうち、ネットワーク機器およびサーバ側の設定等、ほとんどを GitHub で公開しています。参考までにどうぞ。 TechConf 2017 NOC メンバー 実は外注などはしておらず、社内 IT と SRE グループのメンバーで構成されていました。 メイン (設計・運用・設営)

    Cookpad TechConf 2017 提供 Wi-Fi の裏側 - クックパッド開発者ブログ
    stealthinu
    stealthinu 2017/01/26
    これは参考になる。特にWiFi回りの話。でもまあここまで大規模なのの運用に関わることないと思うけども。
  • 国内企業におけるシステム運用、約3分の1の企業が毎月数回の運用ミスや障害発生。最大の課題は「運用担当のスキル不足」で、二番目の課題は「自動化できてない」など

    国内企業におけるシステム運用、約3分の1の企業が毎月数回の運用ミスや障害発生。最大の課題は「運用担当のスキル不足」で、二番目の課題は「自動化できてない」など 調査会社のIDC Japanは国内企業におけるシステム運用の状況についての調査結果を発表しました。 運用管理担当者の運用のミスや障害になどによるトラブルの発生頻度では、ほぼ毎日トラブルが発生しているのは全体の1.3%、週に数回程度トラブルが発生しているのは7.1%、月に数回程度トラブルが発生しているのは23.6%で、合計して月に数回程度のトラブルが全体の32%の企業で発生しているとのことです。 上記のグラフでは、サーバの台数が100台以上の企業と99台以下の企業のそれぞれの結果が示されており、サーバ台数が100台以上のほうがトラブルの件数が多いことが分かります。 システム運用管理における課題について質問した結果では、もっとも多かった回

    国内企業におけるシステム運用、約3分の1の企業が毎月数回の運用ミスや障害発生。最大の課題は「運用担当のスキル不足」で、二番目の課題は「自動化できてない」など
    stealthinu
    stealthinu 2016/10/28
    うわぁ…『「運用管理担当者のスキルが不足している」32.0%「運用管理の自動化ができていない」30.7%「システムの一元管理ができていない」30.4%』いずこも人手不足と技術力不足…
  • ドメインレジストリが逮捕されてしまったら - tmytのらくがき

    追記 (8:39 AM): よく読んだらレジストリでした。 背景 僕はKA.TJというドメインを101domainで購入し、優先度の低いメールアドレスのために運用していました。 このドメインは、今年の4月が有効期限となっていたので2月に更新手続きをしていました。 ところが、いつまでたってもPending Approbal(保留中)という状態から一向に進みません。 サポートチケットを何回か作って、どうなってるんだ、レジストリをせっついてくれ。と言っていたのですが、まったく状況は改善しません。 まぁそんなに急いでなかったので割と放置してたというのもあるんですが、ぶっちゃけ放置してました。 ちなみにTJドメインはタジキスタンドメインです。タジキスタンは2016年10月11日現在の外務省海外安全情報によると”レベル2: 不要不急な渡航は止めてください”ですね。 事件 そういやあれ、いまだにPend

    ドメインレジストリが逮捕されてしまったら - tmytのらくがき
    stealthinu
    stealthinu 2016/10/11
    こりゃどうもならんなw まあ変なレジストリ使うときはそういう可能性も一応考えとけってことか。
  • 10年を超えるレガシーwebサービスの重複ライブラリを削除してコード量を2:3にした話

    Webアプリケーションのコードも歴史的経緯から歪な形へとなっていくもの。 私の担当しているサービスでは同じPEARライブラリが重複を気にせずたくさん入れられ、 一筋縄では解けないほどの複雑なファイル依存関係が出来上がりました。 一度ハマってしまえば二度と抜け出せない底なし沼のような依存関係を解…

    10年を超えるレガシーwebサービスの重複ライブラリを削除してコード量を2:3にした話
    stealthinu
    stealthinu 2016/07/06
    すごい。使ってるライブラリやエントリポイントのログからの調べ方など参考になる。やらずにすむのが一番助かるが。
  • 【社内資料公開】運用手順書を作る時のポイントについて書いてみた | DevelopersIO

    はじめに こんにちは植木和樹@上越妙高オフィスです。日は私がここ10年くらい意識している運用手順書を書くときのポイントについてまとめてみました。 対象読者 開発・構築したシステムを別の人に引き継ぐ予定のある人 他の人が作ったシステムを引き継ぐ担当の人 半年後の自分でも分かる手順書の書き方に困っている人 (この記事を読むのにかかる時間の目安:5分) 1. ドキュメントの冒頭に書くこと まず個々の詳細手順の前に、ドキュメント自体について記載してもらいたいことです。 1.1. ドキュメントに書かれていることを3行で書く ドキュメントの最初には、このドキュメントに何が書かれているのかを100文字くらいで書いておくと良いでしょう。 システムが増えれば増えるほど手順書も増えていくものです。見つけたドキュメントに自分の期待するものが書かれているのか、冒頭数行でわかるようになっているとうれしいです。 1

    【社内資料公開】運用手順書を作る時のポイントについて書いてみた | DevelopersIO
    stealthinu
    stealthinu 2016/07/01
    手順書を書くときに必要なもの、気をつける点がまとまってる。冒頭にこの文書要約を3行でとか、対象スキルと作業環境アカウント情報も書く、というのとか参考になる。
  • 毎週のように依存パッケージを上げ続ける努力 - CARTA TECH BLOG

    皆さんこんにちは。fluctにてfluct SSPという広告配信システムの管理画面を中心にクライアントサイドの開発を行っております、大関です。 依存パッケージの更新、どうしてますか? 今や数多くの言語でパッケージマネージャが提供されており、みなさんも日常的にコミュニティによるパッケージエコシステムを活用していることと思います。 ですが、この依存パッケージの更新については、どのようにしていますか? セキュリティfixなどを除き、以下のようなことになっていることが多いのではないでしょうか? チームの「いい人」が頑張って更新し続ける その人の謎の情熱が消えると更新されなくなってしまう たまに気がついたら頑張る 「いい人」が頑張るタイプの亜種 気が付かなかったら更新されない 更新はリスクなので塩漬けにする プロダクトは定期的に作り直す前提 CIでテストを回し続けているのに更新しないなんて……とモヤ

    毎週のように依存パッケージを上げ続ける努力 - CARTA TECH BLOG
    stealthinu
    stealthinu 2016/06/27
    依存パッケージに追従してってない… あああ…
  • 開発運用現場をいかに変えたか?GMOの豪腕マネージャが語る (1/2)

    4月14日、GMOグループ4社がホスティングサービスの舞台裏を語る「GMO HosCon(Hosting Conference)」が開催された。基調講演では、GMOインターネットでシステム部を率いる山下浩史氏が7年間の組織改革について振り返った。 拡大を続けるサービスに対応する組織作りとは? 今回のイベントは、GMOインターネット、GMOクラウド、GMOデジロック、GMOペパボのGMOグループ4社が集まり、組織運営、技術、ビジネスなどさまざまなトピックを語らうというもの。冒頭、挨拶に立ったGMOインターネット 取締役 事業部 児玉公宏氏は、「結局GMOグループでしょとよく言われるのですが、4社は個性にあふれています。4社がいっしょに情報発信することで、ホスティング業界を盛り上げたい」とイベントの趣旨を説明した。

    開発運用現場をいかに変えたか?GMOの豪腕マネージャが語る (1/2)
    stealthinu
    stealthinu 2016/04/18
    『基本的には自分のことしか興味がない縦割り、タコツボの組織なので、なにをやっても進まない、決まらない織』『売り上げに貢献しなかったこともあり、新規投資がないという諦め感もただよっていた』あああ…
  • メルカリの大規模システムを安定運用へと導いた『DevOps』とは!? | dots. CONFERENCE SPRING 2016 | THE LANCER

    大規模システムに携わるエンジニア必見! メルカリが導入した安定運用のための技術『DevOps』というバズワードはどこかあいまいで、つかみどころがないと思っている方も多いことでしょう。運用と開発を一体化するという概念に厳密な定義はなく、どのように実務に落とし込めばよいのかが漠然としているからです。 しかし、急成長したメルカリの大規模システムを支えるSREという役割を持つエンジニア佐々木健一氏の語る奮闘から、DevOpsの質が見えてくるのではないでしょうか。DevOpsで実現した大規模システムを安定して運用する仕組み作りをご紹介いたします。 テーマ:『メルカリDevOps物語 – 俺たちの戦いはこれからだ -』 メルカリDevOps物語 ー 俺たちの戦いはこれからだ ー メルカリはサービス開始が2013年と歴史は浅いのですが、アプリが急成長しユーザーが増えて、いろいろ困ったことがあったのでそ

    メルカリの大規模システムを安定運用へと導いた『DevOps』とは!? | dots. CONFERENCE SPRING 2016 | THE LANCER
    stealthinu
    stealthinu 2016/04/08
    メルカリでやった対応内容見てると意外と身近な感じがした。すんごい巨大なシステムになってるんだと思ったんだがまあこんな感じでいけるもんなのか。
  • GitHubが先週木曜日にダウンした原因は、一時的な停電からの連鎖的な障害

    時間で1月28日木曜日午前9時過ぎから発生したGitHubのサービス障害は、同社のデータセンター内での一時的な停電をきっかけに連鎖的に発生した障害の影響であることが、GitHubのブログに投稿された記事「Update on 1/28 service outage」で説明されています。 GitHubのブログから引用します。 A brief power disruption at our primary data center caused a cascading failure that impacted several services critical to GitHub.com's operation. 主データセンターにおける一時的な停電が連鎖的な障害を引き起こし、GitHub.comの運用にいくつもの深刻な影響を与えてしまった。 GitHubの説明によると、障害が発生したのは協

    GitHubが先週木曜日にダウンした原因は、一時的な停電からの連鎖的な障害
    stealthinu
    stealthinu 2016/02/01
    GitHubの障害も電源系とのこと。
  • 「ITインフラ監視実践入門」~門外不出・秘伝のタレだった監視運用ノウハウがオープンになるとき~ - Mana Blog Next

    技術評論社様より、献をいただきました。 斎藤 祐一郎 著の「ITインフラ監視実践入門」です。 ソフトウェアエンジニアのための ITインフラ監視[実践]入門 (Software Design plus) 作者: 斎藤祐一郎出版社/メーカー: 技術評論社発売日: 2016/01/16メディア: 単行(ソフトカバー)この商品を含むブログ (2件) を見る早速読了いたしましたので、主観的な感想をエントリーに残したいと思います。 以下、興味のある人だけ続きを読んで下さい。 スポンサーリンク これまで、あるようで無かった監視の これまで、ZabbixやNagiosなどの統合監視の解説書や、サーバー運用に関する書籍は見掛けましたが、私の知る限りでは「ITインフラ監視」をテーマにした解説書は、見たことがありません。 何故、これまで監視のが出なかったのでしょうか。 その監視ノウハウが社外に出ること

    「ITインフラ監視実践入門」~門外不出・秘伝のタレだった監視運用ノウハウがオープンになるとき~ - Mana Blog Next
    stealthinu
    stealthinu 2016/01/15
    おおお、これは良いな。最近は増えてきたけどこの辺の情報って基本的にあまり表に出てきにくいから。
  • 2016年 独りで新規WEBサービスを開発・運用した際の知見 - Qiita

    私が新規WEBサービス立ち上げ時に取り組んだ内容についてWEBエンジニア向けにまとめた記事です。 例えばNginxの設定でHTTPヘッダーが正しく設定されているかを確認できるGoogleDevelopers PageSpeed Insights を知っていると大変有利です。もちろんPageSpeed Insightsを知らなくてもWEBサービスを公開・運用可能ですがユーザに意図せず不利益を与えていたり、知らず知らずのうちにモバイルフレンドリーでないとGoogleから検索ペナルティを加えられている可能性があります。この記事は独りで新規WEBサービスを立ち上げた際のノウハウと取り組んだ内容について記述しています。 1. 概要(5行くらいで) スマホ対応は必須。トラフィックの50%はスマホから発生する。 速度は武器!速いサイトはそれだけで価値がある。 SEOの内部対策は内部リンク整備とPageS

    2016年 独りで新規WEBサービスを開発・運用した際の知見 - Qiita
    stealthinu
    stealthinu 2016/01/14
    1人でwebサービス開発、運用するtipsとチェックすべき点のまとめ。
  • 年末年始を安心して迎えるためのfail2banのbugfix

    こんにちは。CTOの馬場です。 ログをもとに自動的にブラックリストを運用できる Fail2ban というソフトウェアがあります。 とても便利で弊社でもよく使っているのですが、ひとつ大きな落とし穴がありました。 今回は年末年始を安心して迎えるための、fail2banのbugfixについての小ネタです。 bugの内容 毎年 1/1 00:00〜09:00 の間は正常に動作しない ちなみに稼働させているサーバのtimezoneはJSTです。嫌な予感がしますね。 回避方法 0.9.3以降にupdateする CentOS6のサーバはEPELリポジトリから0.9.3がインストールできるので問題ないでしょう。 CentOS5のサーバはEPELリポジトリにあるのが0.8.14ですが、社内で確認した限りこのバージョンだとbugが再現しました。 バージョンアップするか、年に1回9時間だけのことなので注意深く監

    stealthinu
    stealthinu 2016/01/04
    fail2banがバグのため『毎年 1/1 00:00〜09:00 の間は正常に動作しない。ちなみに稼働させているサーバのtimezoneはJSTです。嫌な予感がしますね。』とのこと。ほげ~、なんと!!気がついてなかった。0.9.3以降でフィックス。