[B! 運用] t_masudaのブックマーク

t_masuda id:t_masuda

運用に関するt_masudaのブックマーク (27)

SRE 研修
SRE 研修共有ログインお使いのブラウザのバージョンはサポートが終了しました。サポートされているブラウザにアップグレードしてください。閉じるファイル編集表示ツールヘルプユーザー補助機能デバッグ
t_masuda 2023/04/17
仕事

インフラ

sre

運用

資料
リンク
Enterprise Roadmap to SRE - Google - Site Reliability Engineering
Google が過去に出版した 2 冊の書籍「Site Reliability Engineering」と「The Site Reliability Workbook」は、サービスライフサイクル全体への取り組みによって、組織がソフトウェアシステムの構築、展開、監視、保守を成功させる方法と理由を示しています。本レポートでは、Google Cloud Reliability Advocate の Steve McGhee と Google Cloud Solutions Architect の James Brookbank が、組織で SRE を導入する際にエンジニアが直面する特定の課題について深く掘り下げています。 SRE の普及にもかかわらず、多くの企業では SRE に対する当初の熱意と、その採用の度合いの間に大きな隔たりが生じています。本レポートは、プロダクトオーナーや信頼性の高いサー
t_masuda 2023/01/26
仕事

インフラ

sre

google

運用
リンク
システム運用アンチパターン
上層部がDevOpsに理解のない組織で働き、組織構造を変える権限を持っていない開発者であっても、チームにDevOpsを導入するための現実的な方法を紹介します。重厚な承認プロセス、可視化されていない運用、プロセスの最後でのみ行われるソフトウェアテスト、ノイズだらけのアラート、インシデントから学習しない習慣、時間外のデプロイ、情報のため込みなどを取り上げ、ソフトウェアシステムの開発運用が滞るチームや組織に共通してみられる陥りがちな状況や犯しがちな間違いをアンチパターンとして紹介します。そして管理職やマネージャでなく、エンジニアが実行し、繰り返すことで改善できる具体的な行動を解説します。組織で必要とされる変化を、エンジニアが行動することで実現する本書は、ソフトウェアシステムをよりよく開発運用したいエンジニア必携の一冊です。目　次序文本書について 1章　DevOpsを構成するもの 1.1
t_masuda 2022/03/25
仕事

インフラ

運用
リンク
大規模ゲームインフラとしての Kubernetes とノーメンテナンス運用
Reliable_and_Performant_DNS_Resolution_with_High_Available_NodeLocal_DNSCache.pdf
t_masuda 2021/12/04
仕事

インフラ

運用

Kubernetes
リンク
入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean
システム障害が起こったときにどういう体制で望むか、エンジニア個人が障害に直面した時にどのような役割を受け持つのが良いのか。組織によって色々なパターンはあるでしょう。しかし、幸いにも「入門監視」やSRE本に書かれている4つの役割分担が浸透しているので、それをベースに考えるのがファーストステップとしては良いのではないでしょうか。入門監視 ―モダンなモニタリングのためのデザインパターン作者:Mike Julianオライリー・ジャパンAmazon SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチームオライリージャパンAmazon ただ、小さな組織では障害時に4人もすぐに揃わない場合もあるでしょうし、そもそも4人もスタッフがいない、と言う場合もあるでしょう。そういった場合にもどうすればいいのか考えていきます。役割分担の基本「入門監視」に
t_masuda 2021/12/03
仕事

インフラ

運用
リンク
Public Suffix List の用途と今起こっている問題について | blog.jxck.io
Intro Public Suffix List (PSL) は、現在の Web プラットフォームの一端を支えている非常に重要な要素だ。実はこれが、少数のボランティアにより GitHub でメンテナンスされた、単なるテキストリストであることは、あまり知られていないかもしれない。最近、このリストへの追加リクエストがあとを絶たず、問題になっている。そもそも PSL とは何であり、今どのような問題が起こっているのかについて解説する。 Public Suffix List とは何か PSL を解説するには、まず関連する用語について整理する。 Top Level Domain (TLD) 例えば、このブログのドメインは blog.jxck.io であり、これは筆者が取得したドメイン jxck.io のサブドメインだ。 jxck.io は、 .io という TLD のサブドメインを販売しているレ
t_masuda 2021/04/21
仕事

運用

インフラ

DNS

セキュリティ
リンク
無料＆オープンソースでシステム障害のレポートを一元化できるNetflix製インシデント管理ツール「Dispatch」
システムの保守・運用を行うインフラエンジニアにとって、障害対応は最も責任のある仕事のひとつであり、障害の監視や通知に関するツールは「PagerDuty」や「Zabbix」が有名です。そうした障害対応を助けてくれるツールとして、Netflixが無料のオープンソースソフトウェア「Dispatch」を公開しました。 Introducing Dispatch - Netflix Tech Blog https://netflix tech blog.com/introducing-dispatch-da4b8a2a8072 About - Dispatch https://hawkins.gitbook.io/dispatch/ Netflix Dispatch - Reviews, Pros & Cons | Companies using Netflix Dispatch https://stack
t_masuda 2020/03/09
仕事

インフラ

ツール

運用
リンク
Zabbix 5.0はKubernetes監視やZabbix Agent 2など――Zabbixでデータ収集ゲートウェイを構築した事例が登場したZabbix Conference Japan 2019
5.0ではKubernetes監視やコードコントリビューター制度も――CEO基調講演基調講演には、Zabbix 創設者兼CEO Alexei Vladishev氏が登壇。「Welcome to Zabbix Conference Japan 2019! ～Road to Zabbix 5.0に向けて～」と題し、最新版のZabbix 4.4と、次期LTS（Long-Term Support）であるZabbix 5.0の動向を解説した。 Vladishev氏は、オープンソースソフトウェア（OSS）の動向について振り返りながら「クラウドプロバイダーに対抗するために、OSSが制約のある独自のソリューションに舵を切るケースが出てきています。しかし私はOSSがもたらす自由の理念を信じています。Zabbixはこれからも“ユニバーサル”な真のOSSを追求していきます」と強調した。ユニバーサルとは、一部
t_masuda 2019/12/12
zabbix

監視

仕事

Kubernetes

運用
リンク
機能不全のシグナルは「運用でカバー」「とりあえず〇〇」　マイクロソフト澤氏が明かす、ヤバい組織の共通点
2019年9月25日、ランサーズ株式会社が主催するイベント「オープンタレントサミット〜令和元年、これから求められる本当の働き方改革とは？〜」が開催されました。働き方改革が施行され、大企業が副業を解禁するなど、これまでの「働き方」が大きく変化するこの時代、企業はどう向き合っていくべきか。このイベントでは、本質的な働き方の変化を進める企業の担当者が登壇し、取り組みや事例をもとに様々なディスカッションが行われました。この記事では、マイクロソフトの澤円氏による基調講演「本当の働き方改革に必要な考え方」の内容をお届け。日本人が持つべきコスト意識の話題を中心に、世界で生き残るためのこれからの働き方について語りました。外資系出身者が感じる、日本企業へのある違和感澤円氏：さて、ある人の物語でちょっとお話をしましょう。これは日本企業に転職した元外資系のマネージャーです。すごく優秀なやつだったんですけど、
t_masuda 2019/12/05
仕事

運用
リンク
メルカリのマイクロサービス/Kubernetes運用事例はバイブルだ - orangeitems’s diary
多くの人に見てほしいスライドメルカリのマイクロサービス/Kubernetes運用事例を拝見しました。 speakerdeck.com こちら、中身はメルカリにおけるマイクロサービス・Kubernetesの実際の運用状況をまとめた内容になっています。この内容が欲しかった。この世の中で、会社のITサービス基盤をKubernetesにてマイクロサービス化できている企業はほとんどいません。言い切ります。まだ仮想マシンのWEB+AP+DBの3層構成のままです。もしくは、AWS Lambraなどサーバレスでマイクロサービス化した事例は多数出てきていますがこれは基盤にKubernetesが使われている可能性はあるにしろ、ユーザーは意識していません。 Kubernetesをエンタープライズに適用する。このケースではGCEですが企業としてどのようなオペレーションになるのか、どういう思考錯誤があるのかが
t_masuda 2019/11/29
仕事

メルカリ

Kubernetes

運用
リンク
TechCrunch | Startup and Technology News
There has been a silly amount of drama in the run-up to Tesla‘s annual shareholder meeting on Thursday. The company is set to hold a vote on “re-ratifying” the $56…
t_masuda 2017/09/17
aws

仕事

インフラ

運用
リンク
国内企業におけるシステム運用、約3分の1の企業が毎月数回の運用ミスや障害発生。最大の課題は「運用担当のスキル不足」で、二番目の課題は「自動化できてない」など
国内企業におけるシステム運用、約3分の1の企業が毎月数回の運用ミスや障害発生。最大の課題は「運用担当のスキル不足」で、二番目の課題は「自動化できてない」など調査会社のIDC Japanは国内企業におけるシステム運用の状況についての調査結果を発表しました。運用管理担当者の運用のミスや障害になどによるトラブルの発生頻度では、ほぼ毎日トラブルが発生しているのは全体の1.3％、週に数回程度トラブルが発生しているのは7.1％、月に数回程度トラブルが発生しているのは23.6％で、合計して月に数回程度のトラブルが全体の32％の企業で発生しているとのことです。上記のグラフでは、サーバの台数が100台以上の企業と99台以下の企業のそれぞれの結果が示されており、サーバ台数が100台以上のほうがトラブルの件数が多いことが分かります。システム運用管理における課題について質問した結果では、もっとも多かった回
t_masuda 2016/10/28
運用

仕事
リンク
伊藤直也氏が語る、サーバーレスアーキテクチャの性質を解剖する（前編）。QCon Tokyo 2016
クラウド上でアプリケーションを構築する新しい手法として「サーバーレスアーキテクチャ」が急速に注目を集めています。しかし一方で、サーバーレスアーキテクチャを採用することで得られる本質的なメリットはなにか、そもそもサーバーレスアーキテクチャとはなにを指すのか、などについてはまだ識者の間でも議論されていることです。 10月24日に都内で開催されたイベント「QCon Tokyo 2016」の伊藤直也氏のセッション「Serverless Architecture」は、こうしたサーバーレスアーキテクチャの本質について大きな示唆をもたらす内容でした。この記事では、その内容をダイジェストで紹介します。（本記事は前編、中編、後編に分かれています。いまお読みの記事は前編です。） Serverless Architecture 一休 CTO 伊藤直也氏。先に結論を言ってしまうと、サーバーレスアーキテクチャと
t_masuda 2016/10/25
クラウド

運用

仕事

aws

インフラ

serverless
リンク
DeNAにおけるOpenStack運用#1 | BLOG - DeNA Engineering
DeNAでシステムインフラを運用しています小野です。今回から3回に渡って、OpenStackの運用についてご紹介したいと思います。 OpenStackとは OpenStack とは、いわゆるクラウド環境を構築/運用管理するためのOSS platformです。2010年にRack Space社とNASAのjoint projectとして始まり現在ではOpenStack Foundationが管理しています。 OpenStackは多数のOSSで構成されています。mysqlやrabbitmqなどお馴染みのOSSもbackendに使われていますが、OpenStack固有のOSSが主要コンポーネントになっています。例えばcomputing(vmやcontainer)の管理をするnova、ネットワークを管理するneutron、WebUIを管理するhorizonなどなどです。こちらでどういったコン
t_masuda 2016/10/01
インフラ

oss

運用

仕事
リンク
急成長サービスの裏に「運用」あり、3社がシステム改善秘話を披露 | HRナビ by リクルート
急成長サービスの裏側には「運用」がある。電子番組表「Gガイド」のIPG、飲食店向け予約・顧客台帳サービスのトレタ、ゲームサービスのマイネットが8月26日、サービスを改善する「運用」をテーマにしたイベントを開催。「運用どうでしょう」と題して、自社サービス改善の裏話を発表した。機械学習導入にあたって検討したのは次の4つのことだ。そもそもユーザーはそんなものを求めているのか？コストに見合ったリターンは得られるのか？もっと優先順位の高いことは他にないのか？会社の方向性と合っているのか？これらを考慮した上で、フルリソースではなく、一部を投入するという形で機械学習の導入に踏み切った。しかし、ここでまた新たな選択を迫られた。どのタイミングで導入するか、エンジンは開発するか、それとも既成品を購入するか、自作するならその開発チームにだれを選ぶか、といったものだ。導入時期については「『導入しま
t_masuda 2016/09/11
運用

機械学習

仕事
リンク
AWS の DNS フェイルオーバーで、サーバレス＆高可用性 Sorry ページを構築する
こんにちは、インフラストラクチャー部の沼沢です。 AWS の DNS フェイルオーバーの設定についての記事はたくさん出回っていますが、今回は Sorry ページに特化した設定をご紹介します。以前、社内で AWS 上にシステム構築していた際に、例えば「急激なアクセス増で AutoScaling が間に合わないなどでユーザのリクエストに対して正常に応答できない状態に陥ってしまった時に “画面が真っ白な状態が続くこと” だけは避けたい」という要望を受け、最終手段的な位置付けで構築した Sorry ページ表示の仕組みについてご紹介させていただきます。特段目新しい技術や情報ではありませんが、AWS にてサーバレスで高可用性な Sorry ページを構築する方法の参考になればと思います。 DNSフェイルオーバーとは？そもそも、DNS フェイルオーバーとはなんなのかを軽くご説明させていただきます。 ※
t_masuda 2016/03/09
DNS

aws

route53

運用

インフラ

仕事
リンク
Linuxサーバにログインしたらいつもやっているオペレーション - ゆううきブログ
主にアプリケーション開発者向けに、Linuxサーバ上の問題を調査するために、ウェブオペレーションエンジニアとして日常的にやっていることを紹介します。とりあえず調べたことを羅列しているのではなく、本当に自分が現場で使っているものだけに情報を絞っています。普段使っているけれども、アプリケーション開発者向きではないものはあえて省いています。 MySQLやNginxなど、個別のミドルウェアに限定したノウハウについては書いていません。ログインしたらまず確認すること他にログインしている人がいるか確認（w）サーバの稼働時間の確認 (uptime) プロセスツリーをみる (ps) NICやIPアドレスの確認 (ip) ファイルシステムの確認（df）負荷状況確認 top iostat netstat / ss ログ調査 /var/log/messages or /var/log/syslog /
t_masuda 2016/02/19
linux

運用

仕事

インフラ
リンク
クックパッドの継続的な成長のために開発と運用が何をしてきたのか、その失敗と成功について // Speaker Deck
2016/01/23 Cookpad TechConf 2016 http://techconf.cookpad.com/
t_masuda 2016/01/24
cookpad

クックパッド

運用

プログラミング

インフラ

仕事
リンク
インフラエンジニアの責任範囲と評価 - クックパッド開発者ブログ
インフラストラクチャー部の成田です。2015年10月現在、インフラストラクチャー部には私を含め7人のインフラエンジニアが所属しており、このメンバーでクックパッド本体サービスをはじめ様々な新規事業やいくつかの子会社のサーバを運用しています。私自身もエンジニアではありますが部のマネージャも兼ねているため、立場上、社外の方からインフラエンジニアのマネジメントについて質問されることがよくあります。今回は、私自身の考え方とクックパッド社における事例を紹介したいと思います。「インフラエンジニア」とは「インフラエンジニア」という言葉の定義はあいまいで、しばしば議論の的になります。傍目からは明らかにインフラエンジニアであるように見えるにも関わらず「私はインフラエンジニアでは無い」と主張する人たちもいます。このような状況になっているのは、サーバ運用に関する業務分掌が会社ごとに異なるからであると私は考えて
t_masuda 2015/10/08
運用

クックパッド

DevOps

インフラ

仕事
リンク
ssig33.com - docker ホストを長期間運用する際の注意点
うちには 2013 年末ごろからずっと docker コンテナを運用し続けていた物理ホストがあったのだけど、最近 $ docker ps とかしても結果が戻ってくるのに 20 秒ぐらいかかるし、コンテナの起動とかにも同じくらい時間がかかる $ /etc/init.d/docker restart などとしようもんならコンテナが使用可能になるまで 3 時間ぐらいかかってた。とはいえそう頻繁にコンテナを手動で起動したり終了したりするホストではないし、 docker のデーモン自体を再起動するとかは本当に稀なのでずっと放置してたんだけど、さすがに放置できなくなってきた。 $ docker ps --all | wc -l とすると 103781 とかなってて、ゴミコンテナやイメージが大量にありすぎるのが諸悪の根源なのではないかという予想を立てた。そこでこのようなスクリプトでコンテナを掃除してみ
t_masuda 2015/08/10
Docker

インフラ

運用

仕事
リンク
1 2 次のページ