はじめに アプリエンジニアからSREに配属されて2年が経ちましたが、やっとSREとしてバリューを発揮できるようになってきたので、SRE初心者だった自分が、今でも意識していること・取り組んで良かったことを5つ簡単にまとめました。 1. クラウドサービスを徹底的に理解しろ! 弊社はAWSを使っており、運用全てAWSを使っているので、まずサービスの理解を深める必要がありました。 以下にアーキテクチャの理解・運用の理解に必要な抑えておくべき主要なサービス一覧を示します。 カテゴリ サービス一覧
イーロン・マスク氏がTwitterを買収してわずか3週間で従業員が7500人から2700人にまで激減したと報じられています。通常、従業員の3分の2が辞めてしまうと会社の運用に支障をきたし、Twitterのシステム維持にも大きな影響を与えてしまいそうなものですが、Twitterは記事作成時点でも問題なく稼働を続けています。大規模な人員削減があってもTwitterというシステムが維持されていた仕組みについて、Twitterのサイト信頼性エンジニア(SRE)を5年間務めていたマシュー・テージョ氏が語っています。 Why Twitter Didn’t Go Down: From a Real Twitter SRE https://matthewtejo.substack.com/p/why-twitter-didnt-go-down-from-a テージョ氏は5年間にわたってTwitterのサイ
おはよう人類。 インフラストラクチャーという言葉は、元々ラテン語に語源があり、inferus(下部の)という言葉とstructura(構造体)という二つの言葉を合成した言葉で、言葉の意味としても、社会構造の中で上部構造である政治基盤に対応する経済基盤としての使い方(主にマルクス経済学で用いられる)と、道路や橋だけででなく教育機関など公共性の高い社会基盤の意味で用いられる。特に、後者の意味が強いのだが、インフラストラクチャーの供給源というのは国や公共的な組織だけにとどまらず、電力会社や鉄道会社、金融機関のように私有なのだが、その性質上インフラストラクチャーとして扱われるものも多い。 こういった企業を(広い意味で)インフラ業と呼ぶことも多いのだが、その公共性の高さから私有にもかかわらず、その運営には様々な規制が加えられていることが多い。設立に免許や認可が必要で、運営に関しても一般の企業とは異な
Ansible Towerでチームでのインフラ自動化を!現役SEが見るインフラ構築の今 まだシステムがシンプルでコンピューティングリソースが貴重だった頃は、機器の設計、調達に数カ月単位の期間をかけ、エンジニアが手作業でOSをインストールしたり、各種設定を投入していても十分間に合っていました。 しかしながら今は状況が一変しています。リソースが安価となり日々変化するビジネス上の要件に合わせて新たなサービスを作り、試し、うまくいかなければ壊してまた新たな仕組みを作り……そのサイクルを素早く回すには、人手で作業していては間に合いません。並行して、システムそのものがビジネスを支えるべく大規模化し、クラウド環境も含め複雑化しています。いくら目検やダブルチェックで確認していても、ヒューマンエラーをゼロにすることは困難です。人手不足を背景に、とても日々の運用に手が回らない、という声も聞こえてきます。 そこ
最近はあまり技術的な仕事をしていないんですが、実は私は元々DBエンジニアです。 OがつくDBとか、PがつくDBとか、mがつくDBとかをいじくって、クエリを書いたり、テーブルの設計をしたり、パフォーマンスのボトルネックをあれこれ調べて解消したり、INDEXヒントを総とっかえして頑迷なオプティマイザをぶん殴ったりすることが主なお仕事でした。今でもたまーにそういうことをします。 同業の方であればお分かりかと思うんですが、DBのパフォーマンスは凄く唐突に、かつ多くの場合極端に落ちます。そして、DBのパフォーマンスが落ちると物凄く広範囲に影響が及びます。 アプリケーションサーバ、重くなります。クライアント、ろくに動かなくなります。お客様、切れます。カスタマーサポートにはわんさか電話がかかってきます。 ただ「遅くなる」だけでも十分に影響は甚大なのですが、それ以上のトラブルが発生するとまあエラいこっちゃ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く