2023年9月26日開催の「ssmonline #37」での発表「監視方法論」のうち、一部を抽出して公開しました。 当日ツッコミ枠でご参加いただいたみなさん、ご視聴いただいた皆様ありがとうございました。
はじめに こんにちは!EMをしている河野です。 リンクアンドモチベーションではリモート中心の働き方になり、2年半が経ちました。本日はリンクアンドモチベーションで働くエンジニアが自宅でどんな環境で働いているか。本人からのおすすめギアと一言とともにデスク周りを紹介します。 エンジニアリングマネージャー Iさん デスク おすすめギア 木製の袖机。サイズを緻密に計算して、100均素材を組み合わせて制作したもの。 本人から一言 チープな印象にならないよう、徹底的にクオリティとコストを追求した一品です。 仕事の後にはデスクを一式きれいに収納できるところもポイントです。 コミュニケーションクラウド エンジニア Tさん デスク おすすめギア 見た目も機能性も気に入っているSTANLEYの水筒 一年前の購入時から成長が見えないエアプランツ 本人から一言 バランスボール枠です。 プラットフォームチーム エンジ
Blog X-Tech5エンジニアがお送りするテックブログ SREやDevOpsをはじめ、インフラエンジニアリングの実践情報を届けします。 「なんでも屋」は避けたいですか?なんでもできたら最強じゃないですか?:No SRE , No life|教科書には載っていない!俺たちが考えたSRE推進の道しるべ #SHIFT TECH TALKS#1 後記とQA補足 #SHIFT_SRE 2024年4月2日 こんにちは。CTOの馬場(@netmarkjp)です。 2024年3月26日に TECH PLAY にて No SRE,No life|教科書には載っていない!俺たちが考えたSRE推進の道しるべ| #SHIFT TECH TALKS#1 が開催されました。 わたしはトップバッターとして『SREsのためのSRE定着ガイド』をお話しました。 ご質問を多数いただきまして、時間内にはすべては扱えず残念で
前提 大学1年の終わり頃にプログラミング学習を始めて、ちょうど3年弱くらい経ちました。 数え切れないほどの技術書を読んできましたが、その中でも「これはよかったような気がする!」という書籍を載せておきます。 選出の観点は「面白さ」「わかりやすさ」「その知識が役に立ったか」の3つの観点から総合的に評価しています。 また、原則翻訳されたものがあればそちらを掲載しています。 ところが、僕はO'Reillyのサブスクを契約しているため、ほとんどのO'Reillyの書籍を原文で読んでいます。 そのため、翻訳の精度などについて評価することはできない点をご了承ください。 ※ リンクはアフィリエイトリンクではないので、気にせずご覧ください。 ネットワーク 3分間ネットワーク ネットワークのプロトコルとか以前の最低限の仕組みをトーク形式でわかりやすく話してくれている書籍です。 大学の授業とかを受ける前にこの本
こんにちは。IT 基盤部の小池です。 2020年8月5日(水) に開催された、 bit valley 2020 プレイベント | bit valley 2020 プレイベント 20代で圧倒的成長を目指すエンジニア ~これが私のグロース戦略~ に登壇してきたので、その報告をします。 発表内容 上記が、当日の発表資料です。 以下で簡単に内容を紹介したいと思います。 開発経験なしからどのようにキャッチアップしてきたか 入社当時から “開発経験もない” “年齢も高い” と、自分にはネガティブな点が多いと思っていたので、 成果を出しつつ効率的にキャッチアップしていかなければならないと思っていました。 そこで、「積極的に手をあげる」-> 「わからないを徹底的に潰す」->「タスクの完成度を上げる」というサイクルでタスクを回していました。 こうすることで、成果を出すこととキャッチアップすることを並列でこな
人・カネ・ものの足りないスタートアップにおいて、どのように工夫しているか発信する「スタートアップ事例祭り ~監視・モニタリング・セキュリティ編~」。ここで山原氏が「スタートアップ入社4日目までに考えたAWSのセキュリティ向上 」をテーマに登壇。まずは、株式会社スマートラウンドがおかれている状況と、ベストプラクティスの検討について紹介します。 自己紹介と会社紹介 山原崇史氏:山原です。タイトルは「スタートアップ入社4日目までに考えたAWSのセキュリティ向上」になります。自己紹介です。スマートラウンドという会社のSREをやっています。(スライドを示して)経歴は記載のとおりで、好きなAWSサービスはAWS SSO(AWS Single Sign-On)やOrganizationsです。 会社や事業の内容についても説明します。スマートラウンドは設立が2018年、4年前のスタートアップで、従業員数は
小中高 SRE チームで Engineering Manager をやっている @yuya-takeyama です。 Quipper にはスタディサプリ ENGLISH の SRE である ENGLISH SRE チームと合わせて 2 つの SRE チームがありますが、この記事では自分たち小中高 SRE チームについての話です。 少し前の話になるんですが、小中高 SRE チームの Vision, Mission, Values というものをチームで作りました。 Quipper には会社としての Vision, Mission そして Quipper Identities というものがあります。 これらは策定から数年以上経っていますが、Quipper の社員にとって今も変わらず大事なものです。 が、SRE チームにとっては教育や学習に対して直接的に貢献しているとは言いづらい状況です。 そこで
こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。 ここ一年ほど、DAOという組織改善プロジェクトを推進してきました。このプロジェクトは組織内で発生するあらゆるイベントを「機能」として定義・実装し、それらを束ねてサービスとして組織内外に提供するプロジェクトです。 ※ 詳細はSREエンジニアが組織改善プロジェクトを立ち上げてみたを参照ください これまでの通常業務をサービスとして提供するという考え方は、我ながらとてもユニークかつ俊逸な発想だったと感じています。なぜなら、このサービスベースな考え方により組織にSLI/SLOを導入しやすくなったためです。 SLI/SLOの導入は個人的に難しいと考えています。導入するためにはさまざまな「ハードル」を突破する必要があるためです。しかし一方で、SLI/SLOを導
システムには障害がつきものです。どんなにしっかりと作られたサービスであっても思わぬところで、バグやミスが発覚して、トラブルになるものです。大事なのはこういった障害を次への糧にしていくこと。失敗というのは大事な資産なので、管理できるようにしましょうという話。 あわせて読みたい あきらめるにはまだ早い!ソースコードの品質向上に効果的なアプローチ メンタリングの方法について基礎をまとめました。内心でなく行動を変えることが障害報告とも共通します。 新入社員が来てメンターになれって言われたけど、どうすればいいのかという対話テクニック 半年で40kg痩せた!ダイエットでわかるリーンなプロジェクトマネジメント手法 心理的安全性ガイドライン(あるいは権威勾配に関する一考察) 障害の種類と障害報告について 障害には、小さなもの、たとえば画面に表示されているテキストの乱れから、すべての画面で50xエラーが発生
はじめに こんにちは、Cloud Operations担当者です。このたび私が翻訳として関わった「オブザーバビリティ・エンジニアリング」という本がオライリー・ジャパン社より出版されました。本日より書店ならびに各社オンラインストアでご購入いただけます。 オブザーバビリティ・エンジニアリング 作者:Charity Majors,Liz Fong-Jones,George MirandaオライリージャパンAmazon www.ohmsha.co.jp 電子書籍版についてはオライリー・ジャパンのサイトよりePub、PDFの各種フォーマットにてご購入いただけます。 www.oreilly.co.jp また上記書籍情報ページに質問は報告を行うための連絡先も記載されておりますので、なにかありましたらそちらよりお問い合わせください。 TL;DR 「オブザーバビリティ・エンジニアリング」はオブザーバビリティ
はじめに こんにちは。 KyashでSREを担当する、福岡県在住の@hikarunです。 2021年2月よりKyashに入社し、フルリモートで日々業務に邁進しております。 他の社員が技術的な話をたくさん書いているので、私の方からは弊社のリモート勤務体制やSREチームのリモート勤務の小噺をさせていただければと思います。 昨今の情勢によりリモート勤務移行へ… さて、昨今の流行病により、弊社も2020年3月頃よりリモート勤務体制へと移り変わっていきました。 リモート勤務体制になったことで対面で話をする機会が大幅に減少し、勤務中のコミュニケーションがより重要視されるようになってきました。 私が2021年2月に入社した時には、社員全員がリモートで勤務していました。 無論、私は物理出社だと飛行機通勤になってしまうので福岡で完全フルリモート、会社PCは自宅に郵送されてきました。 流行病が落ち着いたら、オ
こんにちは。インフラエンジニアのsheep_san_whiteです。 障害を起こしてしまって、ポストモーテムを書いたことありますか? 私はあります( • ̀ω•́ )ドヤッ 社内ポストモーテム共有会について さて、リブセンスでは6月24日に「社内ポストモーテム共有会」を開催しました。 ポストモーテムを持ち寄って内容を振り返り、お焚き上げするという会です。 コロナ禍の中ではありますが、オンライン/オフライン混合のハイブリッドで開催しました。 ハイブリッド開催の様子 撮影場所: WeWork東京ポートシティ竹芝 社内ポストモーテム共有会について 発表内容 Sがついてただけなのに シン・風桶〜null文字入ればピザ屋が儲かる〜 内容の更新がSolrに反映されない 再提示リクエストリリースによる指名ページのエラー 課金関連の開発でバグを出しまくった話 サマリーテーブル生成時にエラー発生 DBの変
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog みなさんこんにちは。 システム統括本部に所属し、プライベートクラウドのKaaS(Kubernetes as a Service)の担当をしている藤江です。 私は2007年にヤフーに新卒で入社し、会計システムや社内認証システムなどの業務システムの開発・運用経験を経て、2017年4月から今のKaaS運用業務をしています。 現在のプロジェクトではScrumを導入しており、プロダクトオーナーとして働いています。 さて、いきなりですが最初に質問です。Kubernetesというツールを知ってますか? 実際に業務で使っていますか? 去年の1月に開催されたYahoo! JAPAN Tech Conferenceの登壇で、この質問をした時、会場で手
こんにちは! アンドパッド SREチームの宜野座です。 今回はアンドパッドにてAWS Control Towerを導入した経緯や導入のために取り組んだことをまとめてみました。 AWS Control Tower自体は2021年4月に東京リージョンで使えるようになったばかりの新しいサービスです。 aws.amazon.com そのため東京リージョンで導入したという事例も多くなく、AWS Control Towerを有効化して実際どういう影響があるのか読めない部分が多くありました。 導入するために悩んだ部分などを可能な範囲でまとめておりますので、ご参考になれば幸いです。 ※ AWS Control Tower の導入の取り組みを中心として行ったことも評価され、社内にてMVPを受賞することにも繋がりました。 関わってくださった皆さまありがとうございます! ※ AWS Organizationsの
SRE LOUNGE #13 にて登壇した際の資料になります。 以下概要。 ----- 今年2021年9月に「SREの探求―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践」という本がオライリー・ジャパン社より出版されました。久々に開催となる今回のSRE Lounge開催の少し前に発売となった本書について、今回のイベントのイントロダクション的に10分少々でご紹介させていただきたいと思います。 この本をまだ読んでいなかった方にはそのきっかけを、もう読んだ方には好きな章についてSNSで語り合うきっかけを作れるそんな発表になればと思っています。 ----- 発表のアーカイブ動画: https://www.youtube.com/watch?v=_hfRB_uVqOM&t=390s
新年あけましておめでとうございます。 @rosylilly です。 この前 SRE 養成講座の体験授業配信 をしたんですが、その時にハンズオンの一環で Ruby 製アプリケーションをいじって高速化してみる。という内容を実施しました。 コンセプトとしては、『ちゃんと設定ファイルを書くだけでも高速化する』という感じです。作業としてはアプリケーションをいじらずに、設定だけいじって高速化する、ということなんですが、結局何がどれくらい効くのか、というのを事前に参考値レベルで弾いておかないとぶっつけ本番になっちゃうな、ということで何がどれくらい効くのかを試してからにしようということで、事前に調査したときのベンチテストと何を変えたかの記録になります。 ベンチマークの前準備 今回はほぼ何もしない Sinatra アプリケーションを作って、その性能差から測ります。ということで用意した性能測定用何もしない S
既刊書『SRE サイトリライアビリティエンジニアリング』で、サイトリライアビリティエンジニアリング(SRE)はプロダクションサービスの稼働と信頼性の維持がサービス設計の基本であるとし、行動の基礎となる原則と理論を述べました。その実践編であり副読本でもある本書は、SREを組織やプロジェクトで導入するにあたり、必要となる具体的な方法や手順を解説します。またこれまでGoogle内部で得た技術的ノウハウを解説し、さらにEvernote、The Home Depot、New York Timesなどさまざまな企業での事例を紹介します。 クラウドなどの完全に制御できない環境で信頼性の高いサービスを実行する方法、サービスレベル目標に基づくサービスの作成・監視・実行、運用の過負荷を取り除き既存の運用チームをSREに変換する方法、新規開発またはすでに開発が終わったサービスでSREを始める方法などを解説します
マネージャーの常松です。 2021年12月1日にTeam Topologiesの翻訳 チームトポロジー 価値あるソフトウェアをすばやく届ける適応型組織設計 (愛称 #ちいとぽ) が発売になりましたが、皆さんもう読まれましたか? この書籍には事前レビューから参加させていただいていたのですが、「出版されたら自社の開発体制を図にして話せると良いな」とずっと考えていました。ただタイミングを逸してしまい・・・ようやく筆をとったのが本記事です。 チームトポロジーとは 描いてみた & 解説 基本はストリームアラインドチーム SREチームを立ち上げ中 トポロジー図を元に角谷さんと話したこと XaaSはセルフサービスを目指す スマホアプリとWebで開発順序の依存関係がたまにある 開発部門外とのコミュニケーションをどう扱うか ストリームアラインドチームに専門の役目を持たせるか オンコール対応をフローとして描い
―― まず、自己紹介をお願いします。 Park: LINEのプライベートクラウドであるVerda について、SRE活動をミッションとしているVerda Reliability Engineering Team(以下VRE)のマネージャーをしています。VREチームは日本、韓国の2拠点に跨がるチームで、その両方に対してマネジメントを行なっています。 山田:VREチームでシニアエンジニアとして働いています。クラウドインフラの開発・運用には数多くのレイヤの技術が使われていますが、その中でも特にサーバやOSといった比較的低レイヤな部分に対するSREをメインに実施しています。具体的には、OSレベルのトラブルシューティングやクラウドリソースのキャパシティ管理、物理リソースの調達に関する業務改善などがメインミッションです。 Kang: 2019年度の新卒として韓国側のチームにジョインしました。入社前は大学
カヤックSREの池田です。 先月は、カヤックのプロダクトの一つ『Tonamel』で導入したエラーバジェット算出ツール『shimesaba』の話をしました。 techblog.kayac.com github.com 今回は、実際にどのようにSLI/SLOを運用しているのか?という内容をshimesabaを使った設定例を交えつつ話します。 SLI/SLOの運用にお悩みの方の助けになれば幸いです。 最初のSLI/SLOはどう決定したのか? SLI/SLOの運用を始めるにあたって、多くの人が悩むのは以下の2つだと思います。 一体何をSLIとすれば良いのか? 最初のSLOはどのくらいにしたら良いのか? つまりは、最初の1歩をどうしたら良いか?と言う話ですが、こちらに関しては2つ参考になるものがあります。 『SLO決定のためのArt of SLO』 https://sre-next.dev/2022
recommended-books-2021.md Kubernetes Kubernetes: Up and Running, 2nd Edition Production Kubernetes Managing Kubernetes Cloud Native Infrastructure Container Security SRE The Site Reliability Workbook 97 Things Every SRE Should Know Systems Performance: Enterprise and the Cloud Building Secure and Reliable Systems Designing Data-Intensive Applications System Design Interview BPF Performance Tools C
会社ブログとの連携用にはてな垢作ったけどずっと放置してたのと、今年の目標最低毎月1本と会社Slackで宣言したのでやっていきます。 起源?母体?SRELoungeには一度だけ聞きに行かせてもらいました。そのときのパネルディスカッションや懇親会で聞いたり話したりしたことが衝撃的というか自分にとってすごく得られるものが多かったので、本イベントの告知があってからもずっと楽しみにしてました。 (早めに会場についてTully'sで悠々とお茶を飲みながらOpen&ヨガ講座待ち...のはずが皮肉なことにこのタイミングでアラートを受けてKeynoteにも間に合わなかったのが悔しい...) とりあえず当日参加したセッションのメモから思うところをピックアップしてまとめます。 イベントを通して思ったこと 自分は目の前の小さなことに拘泥して、全然大きな流れを意識できてなかったなぁと痛感、とりあえず順番にやっていこ
はじめに こんにちは。Google Cloudでオブザーバビリティの担当をしているものです。 昨日、シンガポールで開催されたスタートアップ向けのイベントにリモート登壇したのですが、そこでスタートアップでもSLOを活用しましょう、というテーマで話しました。 せっかくなので日本語にしておこうと思い、スライドを抜粋しながら内容の一部を記事にしておこうと思います。発表内容を記事化してるので、文体が少し発表のようになっているのはご容赦ください。 「ユーザーからの信頼性」が大切 まず、スタートアップ、さらにはWebサービスに限らず、あらゆる事業において、顧客に対する信頼は重要です。荷物が全然届かない配送業者は利用したくないですし、接続してもつながらないISPは契約したくありません。飛行機も統計上事故の確率が低いから利用するわけで、自動車並に事故が発生していたら絶対利用しません。日々私たちがさまざまなサ
こんにちは!アンドパッドの荒瀧です。 「ANDPAD TECH TALK」第11回の配信です! 今回は、社外ゲストをお招きしたスペシャリト対談回となっており、前編・後編と2回に渡ってお届けします! 関連エピソード tech.andpad.co.jp 出演 モデレーター: 荒瀧 (EM 兼 エンジニア採用マネージャー) 社内ゲスト: 柴﨑(テックリード) 社外スペシャルゲスト: 近藤宇智朗さん(GMOペパボ株式会社 シニア・プリンシパル) ハイライト 第11回は、社外ゲストをお招きした対談形式のスペシャル回です! 「開発チームの生産性向上に取り組むスペシャリスト対談!」と題して、 アンドパッドからはテックリードの柴﨑(id:shiba_yu36)、GMOペパボさんからはシニア・プリンシパルの近藤さん(id:udzura)をお呼びして開発チームの生産性向上について語り尽くしていただきました。
SREのたっち(@TatchNicolas)です。 今年のPyCon JPはオンライン開催でした。JX通信社はSilverスポンサーとして協賛したほか、イベントをより盛り上げるために、参加者の反応をリアルタイムに配信に反映するシステムを開発・提供しました。 jxpress.net アプリケーションはPythonで作られており、基盤としてGKEを採用しました。データ分析基盤や昨年の開発合宿等で社内向けのプロジェクトにKubernetesの採用した事例は過去にもあったのですが、今回はじめて社外向けのシステムに採用したので、その裏側について書いてみたいと思います。 できたもの 構成図 構成としては比較的シンプルだと思います。 基本的な処理はGKE上で行い、データの永続化はFirestoreを使っています。一部、ブラウザで動く運営向けフィード画面上の操作(いいね・リツイート)について、Fireba
おはこんばんちは、Database Reliability Engineer (DBRE) の橋本です。今回は、pt-online-schema-changeというデータベースのスキーマ変更ツールを社内の運用に持っていくための過程や、freeeにおける運用上の工夫を紹介します。pt-online-schema-changeはある程度枯れた技術なので、いくつか事例が紹介されており、すでに運用に乗せている組織もあるかと思われますが、これから新規に導入する方などの参考になると幸いです。 背景 freeeではほぼ毎月ペースで深夜に定期メンテナンスを行なっており、おもにインフラの更新作業やアプリケーションの機能追加に伴うデータベースのスキーマ変更が行なわれます。 ここで少し寄り道をして、スキーマ変更を行なうためのMySQL(ストレージエンジンにInnoDBを使っている前提で進めます)のDDLのパター
2022年5月23日2年9ヶ月勤めたSoundCloud1を退職し、先月からShopifyでSRE2として働いている。しばらくこのままベルリンにいるが、この夏にカナダに引越す予定だ。日本、イギリス、ドイツを経て、これでいよいよ4カ国目となる。そろそろ安住の地を決めたいところだ。 転職の動機は色々あるが、ベルリンを早々に去ろうと思ったのが最初のきっかけだった。本題から外れてしまうので詳細は省くが、端的に言うと、言葉と文化の壁、住宅事情からのちょっとしたストレスの積み重ねが原因だ。 そういうわけで、昨年末から英語圏か日本に引越すことを前提に職を探しはじめたのだが、時を同じくしてリクルーター3からの連絡が頻繁に来るようになった4。Shopifyはその中の一つで、前職、前前職の同僚も働いていて良い印象を持っていたので、選考を受けることにした。結果、満足のいくオファーをもらい、選考の体験も良かったの
※ 今はGitHub ActionsでOIDCが使えるので、本記事の内容は少し古いです。*1 現場のルール等で「インフラを触るワークロードはオンプレでしか動かしてはならない」みたいなルールがある場合には多少参考になるかと思います。 SREのたっち(@TatchNicolas)です。 JX通信社では「インフラチーム」のようなものは存在せず、開発したチームが運用までやるFull-cycleなスタイルを取っています。AWS・GCPリソースの管理も特定のメンバーが担当するのではなく、必要とする人が必要な時に作成・修正等を行います。すると、terraformなどIaCのツールを利用する場合に「今リポジトリにあるコードは実態を正しく反映しているのか」「誰かが矛盾する変更を加えていないか」という問題が発生します。 CIツール上でterraformを実行することで、問題の一部は回避できるかもしれませんが、
FiNCの篠塚(@shinofumijp)です。4月からCTOを拝任しました。 本記事では1月から行ってきた「アーキテクチャレビュー」という取り組みについて紹介します。 FiNCではマイクロサービスを6年前から採用しており、順調にサービスも成長したおかげで、現在では稼働しているマイクロサービス数は50を超えるほどになりました。 マイクロサービスの採用により、限られた範囲での開発においては速度を落とさずスケールすることが可能という恩恵を得られましたが、一方でサービス数の増加は安定性、メンテナンス性をはじめとした様々な問題も生みました。その1つにアーキテクチャ全容の理解が困難になるという問題があります。例えば「ユーザが食事を投稿した際に食事アドバイスのプッシュ通知を送る」という機能1つをとっても、アドバイス管理サービスが食事投稿のイベントを検知するためにイベントを購読し、同サービスがアカウント
はじめに こんにちは。メディアプラットフォーム本部 WEAR部 WEAR-SREの笹沢(@sasamuku)です。 ZOZOが新しく展開する「FAANS」というショップスタッフ向けアプリをクローズドβ版としてテスト運用しています。本アプリは、WEARと連携したコーディネート投稿や、その成果を可視化する機能などをショップスタッフの皆さんに提供するtoBのソリューションです。現在、正式リリースに向け開発を進めています。 そして、FAANSのAPIはCloud Runと呼ばれるサーバレスなコンテナ実行基盤で稼働しています。本記事では、FAANSの実行基盤としてCloud Runを選定した理由や、構築・運用するためにSREとして取り組んだことをご紹介します。 Cloud Runを選んだ理由 まず、クラウドサービスはGCPを選択しています。FAANSでは開発速度の向上と運用負荷の軽減のため、認証やメ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く