タグ

opsに関するilyaletreのブックマーク (7)

  • 稼働中の商用ネットワークでVRRPの切替検証を実施しちゃった話 - Qiita

    ご挨拶 初めまして @moriya-snj です。 この記事は「番環境でやらかしちゃった人 Advent Calendar 2019 - Qiita」の15日目の記事です。 みなさん盛大にやらかしている様で安心しております。 今回は私が社会人3ヶ月目でやらかした重大事故の記録を包み隠さず暴露するとともに当時フォローしてくださった先輩や上司お陰でなんとかこの業界で生き抜くこと出来ていることの感謝をお伝えすべく、キーボードに手を伸ばしております。 何をしでかしたか 顧客AがIP電話を導入するため、新たにVoIP用ネットワークを構築することとなった。 機器の設置等は別部署が行うため、設置依頼を出し、完了の報告をもらったため、ネットワーク機器のコンフィグなどを流し込み疎通確認などを行うこととなった。 疎通確認が完了し、お次はVRRPの切替確認を行おうとしたが、ここで誤って稼働中の顧客Bのネットワ

    稼働中の商用ネットワークでVRRPの切替検証を実施しちゃった話 - Qiita
    ilyaletre
    ilyaletre 2019/12/16
    収容効率高めたサービスのオペレーションほど怖いあるあるだ。コピペで済む手順書は僕もよくカンペと呼称して作ってる。
  • Kubernetesがいかに自動化の考え方を変えたか? | SOTA

    先日Japan Container Days v18.12の基調講演で話をさせていただく機会があった.内容としてはMercari のMicroservices Platformの基盤として「なぜ」Kubernetesを選択したか?ついて現状や今後の展望を踏まえて紹介をした. Microservices Platform on Kubernetes at Mercari 「なぜ」の回答としては,CRDやAdmission webhookといった拡張機構を使うことで今後起こりうる様々なWorkloadに特化したPaaSや抽象化レイヤーを書いていけるExtensibilityの高さとそのBuilding BlockとしてのEcosystemの強さを挙げた. このトークのExtensibilityの文脈で話したくて時間がなかったのが「Kubernetesがいかに我々の自動化に対する考え方を変えたか

    ilyaletre
    ilyaletre 2019/09/30
    めちゃくちゃ良い説明で関心した。イベントに反応するのではなく状態に反応したいんだなー。絶対そっちの方が実装難しくなるはずにそのアプローチを選んでいる のは相応の思想があるのだろう。関連論文探したい。
  • レッドハット | ITインフラSummit 2019 レビュー - 日経 xTECH Special

    事例から学ぶ、ITインフラの自動化を成功させる Ansibleのプラクティス レッドハット テクニカルセールス部 クラウドソリューションアーキテクト部 ソリューションアーキテクト オートメーション&マネジメント・エキスパート 中島 倫明 氏 かねてより多くの企業において取り組みが進められてきたのがITインフラの構築や運用などにかかわる作業の自動化である。しかし、その成果を十分に発揮できた企業は意外に少ないというのが実情だ。レッドハットの提供する自動化ソフトウェア「Red Hat Ansible Automation(以下、Ansible)」は、企業が試みている自動化における課題を解消し、抜的な効率化を推進できる「自動化 2.0」の世界へとシフトしていくことを強力に支援する。 “サイロ化”に陥った自動化が期待通りの効果を上げない要因 レッドハット テクニカルセールス部 クラウドソリュー

    レッドハット | ITインフラSummit 2019 レビュー - 日経 xTECH Special
  • 重大事故の時にどうするか?|miyasaka

    ヤフー時代の部下から突然メッセンジャーが。 「以前宮坂さんが緊急対応時に残して頂いた言葉を今度セミナーで使っていいですか?」 と。 リーダーの仕事はいっぱいあるけどなかでも大きな仕事の一つは重大事故の発生の時の陣頭指揮。平時は部下で回せるようにするのがマネジメントだけど、危機の時まで部下にまかせるわけにはいかない。 お恥ずかしながらヤフー在職中の22年で何度か重大事故を起こし関係者の人に多大な迷惑をかけてしまった。その度にその陣頭指揮をとった。 結果的にヤフーのなかでもっとも深刻な事故対策をやった人の一人じゃなかろうか。そのなかからノウハウ的なものがたまってきたものを部下にメモしておくってあげたものを彼は覚えていてくれたらしい。 彼いわく危機対応の時にすっごく役にたって指針になったといってくれて送ってくれた。 ひょっとしたら他の人にも参考になるかとおもって(若干訂正してますが)ここに残して

    重大事故の時にどうするか?|miyasaka
    ilyaletre
    ilyaletre 2019/07/08
    見積もりの概念が無いことを除けば、スクラムみたいな走り方だ。
  • 障害対応、どう学ぶ? システム障害との向き合い方 Part1

    2019年3月2日、TECH PLAY SHIBUYAにて「TokyoGirls.rb Meetup vol.1」が開催されました。女性でも参加しやすい、Ruby勉強会を目指して開催されたイベント。4人のエンジニアが登壇し、Rubyにまつわることをはじめとしたさまざまな技術の話題を語りました。プレゼンテーション「システム障害との向き合い方」に登壇したのは、しなもん(@sinamon129)氏。 講演資料はこちら システム障害との向き合い方 しなもん(@sinamon129)氏(以下、しなもん):お願いします。素敵なキラッとした話のあとにシステム障害の話をします。よろしくお願いします。 しなもんといいます。 今はWebメディアとECをやっているRiLiという会社で取締役CTOをやっています。RailsGirlsのコーチをやったりとかしています。アカウントは@sinamon129でやってるの

    障害対応、どう学ぶ? システム障害との向き合い方 Part1
  • community/DEFINITION.md at master · noopsjapan/community

  • GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット - Publickey

    果たしてGitLab.comで何が起きたのでしょうか? これまでの経緯をまとめました。 スパムによるトラフィックのスパイクからレプリケーションの不調へ GitLab.comは今回のインシデントについての詳細な経過を「GitLab.com Database Incident - 2017/01/31」で公開しています。また、もう少し整理された情報がブログ「GitLab.com Database Incident | GitLab」にも掲載されています。 これらのドキュメントを軸に、主なできごとを時系列に見ていきましょう。 1月31日16時(世界協定時。日時間2月1日午前8時)、YP氏(Yorick Peterse氏と思われる)はPostgreSQLのレプリケーションを設定するためにストレージの論理スナップショットを作成。これがあとで失われたデータを救う幸運につながります。 1月31日21時

    GitLab.comが操作ミスで本番データベース喪失。5つあったはずのバックアップ手段は役立たず、頼みの綱は6時間前に偶然取ったスナップショット - Publickey
    ilyaletre
    ilyaletre 2017/02/02
    似たようなことやったことあるので、なんにも言えない。バックアップとろう、とか本番は手で作業しちゃだめ、とか。
  • 1