タグ

運用に関するnui81のブックマーク (12)

  • 運用設計における設計項目の体系化 / 20240207-ssmjp-operation-design-items

    ssmjp ssmonline #38 "第四回はたのさん祭 オンライン"( https://ssmjp.connpass.com/event/307397/ )での発表資料です。 (運用設計ラボ合同会社 波田野裕一)

    運用設計における設計項目の体系化 / 20240207-ssmjp-operation-design-items
  • クラスメソッドがAWSの権限設定で作業ミス、顧客アカウントが操作不能に

    2023年12月、システム開発を手掛けるクラスメソッドでトラブルが発生した。同社が運用管理を代行する顧客アカウントが操作不能になるというものだ。原因は権限設定の作業ミスで、ある顧客の要望に特例対応する中で発生した。同社は再発防止策をまとめ、2024年2月に対策を終えた。ユーザー企業はベンダーの運用体制にも気を配る必要がありそうだ。 「お客様のビジネスに多大な影響を及ぼした可能性があることを深く認識しており、心よりおわび申し上げます」――。 2023年12月5日、システム開発を手掛けるクラスメソッドでトラブルが発生した。同社が運用管理を代行する顧客アカウントの一部でAWS(アマゾン・ウェブ・サービス)のリソースに対する各種操作ができなくなったのだ。影響を受けたのは、AWSの導入から運用保守までを一貫して支援するクラスメソッドのサービス「クラスメソッドメンバーズ」のユーザー。同社は影響を受けた

    クラスメソッドがAWSの権限設定で作業ミス、顧客アカウントが操作不能に
    nui81
    nui81 2024/02/02
    えっ、また!?再発とかどうしちゃったの!?……と思ったら12月の事象の話だった。よかった。 https://classmethod.jp/news/postmortem-20231205-incident/
  • ロードバランサ配下のサーバを全部切り離してサービス停止させてしまった話 - Qiita

    はじめに この記事は、番環境などでやらかしちゃった人 Advent Calendar 2023 の6日目です。 この記事で取り上げるやらかしは数年前の出来事です。 当時新卒2年目のエンジニアだった私が、ロードバランサ配下のサーバを全部切り離してサービス停止させてしまった話について、ここに供養させていただきます。 自分の失敗談なんて書きとぉないんじゃ、、というのが音ですが、毎年やらかし系のアドベントカレンダーに勇気と希望をもらっていたので、今年は私もその一助となれたらという思いです。 やらかして死にたくなっているあなたへ。 背景 新卒で入社した会社で社内システム向けインフラの保守運用に携わっていました。 2年目となって仕事にも慣れてきた頃(フラグ)、事を起こしてしまいました。 環境 やらかしの対象となった環境はこちら。 AWS環境上で、ロードバランサとしてELBがあり、その配下にサーバ(

    ロードバランサ配下のサーバを全部切り離してサービス停止させてしまった話 - Qiita
    nui81
    nui81 2023/12/07
    いやー、これは罠だなー。筆者の人はかわいそう。これはむしろ変更管理プロセスとかそのへんの話な気がするな。
  • 本番サーバー60台のホスト名を全部 cat にしてしまった話 - Qiita

    この記事は、番環境などでやらかしちゃった人 Advent Calendar 2023 の4日目です。年末進行、いかがお過ごしでしょうか?みなさま無事に仕事が納まることを願っております… 新人インフラエンジニアが、番ウェブサーバー60台のホスト名を全部 cat にしてしまった話について、ここに供養させていただきたいと思います 背景 おそらく今から7年くらい前、インフラエンジニアとして転職してきて1年ほどが経ち、番環境での作業もこなれてきたなというバッチリのタイミングで事を起こしてしまいました。サーバーは CentOS 6 だったと思います。 職場としてはまだまだベンチャー感にあふれ大きな裁量が与えられスピード感のある環境ながら、サービスの登録ユーザー数は1,000万を超え、番環境の規模としては既になかなかの大きさがあり、ウェブサーバーだけでも60台くらいあったと思います。ひと山につき

    本番サーバー60台のホスト名を全部 cat にしてしまった話 - Qiita
    nui81
    nui81 2023/12/05
    ねこちゃんですにゃん!ねこちゃんいっぱいにゃん!60匹にゃん!にゃーにゃー!
  • AWS月額利用料を$137,000→$87,000に削減して信頼性に投資した話

    https://aws-startup-community.connpass.com/event/289498/ Startup Day 2023のセッションスライドです。

    AWS月額利用料を$137,000→$87,000に削減して信頼性に投資した話
    nui81
    nui81 2023/09/03
  • 障害対応プロセスを改善してきた話 - 10X Product Blog

    障害プロセスを改善してきた話 こんにちは。Reliability & Securityチームに所属するSoftware Engineerの@sota1235です。 今回は10X内における障害対応プロセスの改善をご紹介します。 今が完成系ではなく道半ばではありますがこの半年 ~ 1年で大きく進化したので同じくらいのフェーズの会社で困ってる方がいたら参考にしてみてください! ちなみに私ごとですが去年の5/26にこんな投稿をしてたのでやっと伏線を回収する形となります(※ ドヤ顔ではありません)。 目次 こんな感じで紹介していきます。 目次 障害対応プロセスの改善に踏み切った背景 課題1. 障害の報告フォーマットが統一されていない 課題2. 障害報のクオリティの差異が大きく後から振り返りが難しい 課題3. 障害対応者が特定の人に偏る 第一の改善 改善1. 障害報告書のフォーマット更新 改善2. S

    障害対応プロセスを改善してきた話 - 10X Product Blog
    nui81
    nui81 2023/06/13
  • ニンテンドーアカウント刷新プロジェクトの裏側 27カ月にわたる試行錯誤、キーパーソンが語る

    ニンテンドーアカウント刷新プロジェクトの裏側 27カ月にわたる試行錯誤、キーパーソンが語る:AWS Summit Tokyo(1/2 ページ) 「スプラトゥーン3」「大乱闘スマッシュブラザーズSP」など、Nintendo Switch向けゲームのプレイには欠かせないサービス「ニンテンドーアカウント」。2015年のリリース以降、164カ国、約2億9000万人(22年9月時点)のユーザーに展開する大規模サービスだ。 しかしニンテンドーアカウントが現在の形になるまでには、その裏側で27カ月にわたる努力があった。実は2018年5月以降のタイミングで、ニンテンドーアカウントには予測できないアクセス集中や運用工程の増大といった問題に直面。システム改修を迫られていた。 「リリース以降も継続して機能開発を進めることができ、順風満帆だと思っていたが、そう甘くなかった」──システム改修を手掛けたニンテンドーシ

    ニンテンドーアカウント刷新プロジェクトの裏側 27カ月にわたる試行錯誤、キーパーソンが語る
    nui81
    nui81 2023/05/11
    知らないうちにそんなことやってたのか……って、まだ終わってないのかな?
  • ソシャゲ運営を8年やって感じた、良いところと悪いところ - 音速きなこおはぎ

    ポエムです。筆者はプランナーおよびプログラマーとして、いわゆるソシャゲの運営を8年ほど務めてきました。過去を振り返って、ぶっちゃけ話をつらつらと書いていきます。 現実はこんなに若くないけど TL; DR 「運営」の良いところは何よりも「失敗できること」。ゲームづくりは試行回数が命。 一方、「ソシャゲ」に目を向けると、今後はゆるく滅びていくしかないだろうなあと思ってしまう。法外な課金体系についても思うところがないといえば嘘になる。 AI の出現やらでビジネスモデルもクリエイティブも大きく変化が予想される中で、今までの成功論からは離れて、もっと危機感を抱いて次の時代を作らなければ生き残れないだろう。 おことわり 内容はすべて筆者の個人的意見であり、責任はすべて筆者に帰属し、所属する組織団体の意向とは一切関係がありません。 それと、一部経営層への批判と捉えられる文章があるかもしれませんが、それら

    ソシャゲ運営を8年やって感じた、良いところと悪いところ - 音速きなこおはぎ
    nui81
    nui81 2023/04/11
    おもしろいなー!
  • システムの負荷の原因を切り分ける方法 - Qiita

    サーバのボトルネックを探る サーバが重い時、主に以下の4つがボトルネックとなる。 CPU使用率 メモリ使用量 ディスクI/O TCPコネクション数 この記事では、これらのうちどれがボトルネックとなっているかを突き止める方法について書く。 ロードアベレージを見る まずはロードアベレージを見ることで、おおまかに問題を切り分ける。 ロードアベレージの確認方法はload averageを見てシステムの負荷を確認するに書いた。 ロードアベレージが高い場合 現在のホストの「1. CPU使用率」, 「2. メモリ使用率」, 「3. ディスクI/O」を疑う。 ロードアベレージが1以下であれば軽く、1〜3くらいだとやや重く、それ以上だとこれらがボトルネックの可能性が高い。 ロードアベレージが低い場合 「4. TCPコネクション数」か、リモートホストがボトルネックになっていないか疑う。 特定のホストの問題を解

    システムの負荷の原因を切り分ける方法 - Qiita
  • 【1月23日追記】12月23日、24日に発生しました障害に関するご報告

    いつもSkebをご利用いただき、誠にありがとうございます。 12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。 みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。 障害につきまして詳細をご報告させていただきます。 概要日時: 12月23日12時22分〜12月24日7時00分 (JST) ダウンタイム: 18時間38分 内容: skeb.jpにアクセスできない不具合 原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。 解決: Herokuの一切の利用を中止し、すべてのサーバとシステ

    nui81
    nui81 2022/12/25
    動きが手に取るように分かる……お疲れ様でした。障害報を出すのが現場に任されてるとか、Herokuへの連絡でバタバタしたとか。Salesforce仕事しろよ。移行が爆速でウルトラC感あるけど、元々準備してたのが早まったのかな
  • (追記あり) 10億円資産ができたときに知っておいたほうがいいこと

    人生のゴールは10億円、なぜなら運用だけで年5000万円くらい入るから減らなくなる」みたいな論がよくあるが、たしかに10億円の資産を作るのは一つの基準だと思う。 そして、ベンチャーなどを起業して、10億円以上手に入れる若者なども増えてきている。しかし、さすがに10億円を手に入れたときの対処法というのはネットには全く情報がない。 増田は、富裕層向けのサービスを提供しており、比較的多くの富裕層と付き合いがあり、そこで得た知識があるので、ここで共有していきたい。 資産運用資産運用だが、10億円あるとどうするか・・・という点について。 これはもう人それぞれだが、多いパターンとしては クレディ・スイスなどの外資系プライベートバンクに一任する債権でクーポンをもらう、S&P500、全世界のインデックスなどを買う、一部を金や暗号資産にするなど、自分で分散するなどが多い。正直、このあたりは「個別銘

    (追記あり) 10億円資産ができたときに知っておいたほうがいいこと
    nui81
    nui81 2022/04/13
    夢があるなあ
  • バウンスしすぎて Amazon SES から追放された俺たちは Mailgun と SendGrid に国を作ることにした - ANDPAD Tech Blog

    これは何 どのように技術選定してますか。よく聞かれます。SREチーム 鈴木心之介 です。しかし説明が難しい。難しいですが説明の助けになってほしく思い、技術選定を文書化した DesignDoc から1枚を公開してみました。 DesignDoc とは、ある程度の大きさや複雑さがあり一言で説明の難しい技術選定について、文書化したものです。これを通じて、技術選定をどのように行うか組織内に広めようとする試みです。2021年1月頃から始めています。 題材は、メール配信の冗長化をRailsで実現した tech.andpad.co.jp を、インフラ視点から技術選定した DesignDoc です。このメール配信SaaSの選定は2019年末頃に実施したもので、DesignDoc の取り組みを始めていなかった頃でした。時が経ち、ソースコードやSaaSの構成からは意図を読むことが難しく「なんじゃこれ」って質問を

    バウンスしすぎて Amazon SES から追放された俺たちは Mailgun と SendGrid に国を作ることにした - ANDPAD Tech Blog
    nui81
    nui81 2021/10/27
    タイトルで草、と思ったけど、内容読むと辛そうなことやった上に根本対処できてないっぽくて、うーん。しかもANDPADってどんなサービスかなと見に行ったらイメージキャラがヨーロッパ企画でまた草。
  • 1