「SRE」を検索 - はてなブックマーク

81 - 120 件 / 891件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

SREの検索結果81 - 120 件 / 891件

大企業でプロダクトエンジニアとして働いたら、コーディングのスキルが下がっていた
- 389 users
- zenn.dev/kenzan100
- テクノロジー
- 2022/03/05
背景 Shopifyという会社に1年半前に転職しました。あれよあれよと会社が拡大して、現在は従業員一万人弱くらいです。画像元公式ではない雑な情報です。あくまでイメージその前はChartmogulという、せいぜい20人、30人ぐらいの会社にいました。なぜ表題のようなことを思ったか面接インタビュアー側として、出題することになるコーディング問題を自分で試しに解いていました。一年半前には自分が受ける側の立場だったので、自分の腕前の定点観測ができました。やってみてどうだったか。コーディングにおけるシャープさという観点では明らかに衰えているな、と思いました。問題が与えられて、それに短時間で、論理的に向き合う力とでもいうのでしょうか。自分は現職でマネージャの立場になったわけでもないので、これはマズイ。なんとなくこの一年くらいそんな気はしていたので、これを機会にもうちょっと深堀してみます。
- エンジニア
- あとで読む
- 開発
- 設計
- 仕事
- コーディング
- 会社
- development
- engineer
- career
書籍「Webエンジニアのための監視システム実装ガイド」発売！
- 388 users
- netmark.jp
- テクノロジー
- 2020/03/03
システム監視の入門書籍を書きましたわたしが執筆したWebエンジニアのための監視システム実装ガイドが2020/3/24に発売されますました。予約受付中です。物理書籍・Kindle共に販売中です。 PDF版なら検索もできちゃいます。 ※このエントリを書いている時点でまだ表紙がfixしていませんが、黒バックにウミガメ写真になる予定です運用監視の会社でCTOとして勤続12年の知見を詰め込んだ、システム監視について幅広く取り扱った実践的な入門書です。読者の方に体系的な知識と価値基準を獲得してもらえるよう努めました。監視テクノロジの歴史や特徴、監視システムの基本動作と動作方式ごとの特徴、時系列データベース、DevOpsやSREなどのWebシステム運用の文化、SLO、SLI、Availability、Observability、自己修復システム、Chaos Engineering、監視方式の
- 監視
- あとで読む
- 運用
- 書籍
- エンジニア
- web
- 技術
- システム
- monitoring
- book
ビックカメラがエンジニアを数百人規模で採用しIT子会社を設立するがその理由が「給与の問題でそのままエンジニアを採用するのが厳しいから」らしい
- 386 users
- togetter.com
- 政治と経済
- 2022/06/18
リンク日経クロステック（xTECH）ビックカメラがIT子会社設立しエンジニア数百人採用へ、内製に舵切りDX推進ビックカメラが今夏をめどに新会社を設立し、数百人規模のITエンジニア採用に乗り出す。ビックカメラと異なる人事制度を取り入れ、ITエンジニアの市場に合わせた給与体系や勤務形態を用意する。デジタル戦略の推進へ社内でエンジニアを抱え、システム開発の内製に大きく舵（かじ）を切る方針だ。 30 users 734 あんどぅ @integrated1453 経済ニュースアプリの泥水と味噌卵麺をすすりながらコストコンシャスなSREに取り組んでいます。 Incident Response Meetup運営/JAWS-UG SRE支部運営/インフラエンジニア/AWS CDK/エンジニア採用/アニメ/2児の父/経済ニュース/資産運用/蒙古タンメン中本/サウナ docswell.com/user/
- エンジニア
- 労働
- IT
- あとで読む
- togetter
- 経済
- ニュース
- AWS
- 経営
2024年に読んだほうがいいエンジニアな書籍10冊+α - CloudとSREそしてキャリア本 - Lean Baseball
- 384 users
- shinyorke.hatenablog.com
- テクノロジー
- 2023/12/24
Google Cloud Partner Top Engineer 2024を頂いた者です. 仕事はエンジニア系のコンサルとSRE, 趣味（と前職以前の仕事）で機械学習や生成AI*1をやっとります. この記事は当ブログの名物かつ人気シリーズである, 主に技術書を中心としたオススメ書籍（元々はPython本メイン）の紹介エントリーです. ※去年の記事はこちら. 本年のこのエントリーは, 2024年の推し本4冊 CloudおよびSREな4冊いい感じな技術書2冊この三本立て（+私の完全なる趣味チョイスで数冊）でご紹介できればと思います. というわけで, 本年のラインナップは以下の通りです. この記事の著者 2024年の推し技術書10冊特に推したい4冊クラウドストラテジー世界一流エンジニアの思考法仕事に役立つ新・必修科目「情報Ⅰ」キャリアづくりの教科書 CloudおよびSREな4冊
- エンジニア
- あとで読む
- 本
- キャリア
- 書籍
- book
- SRE
- cloud
- 仕事
- 本
監視とは何か～監視エンジニアのスキルと成長～
- 380 users
- speakerdeck.com/qryuu
- テクノロジー
- 2021/01/24
July Tech Festa 2021 winter E2セッションの資料です ITシステム監視とは何か監視エンジニアの未来監視エンジニアのトレーニング次世代MSPの役割
- 監視
- あとで読む
- DevOps
- エンジニア
- monitoring
- SRE
- 開発
- 設計
- slide
- システム
「システム運用アンチパターン」を一読したので、その要点（特に薦めたい感想5点） - Qiita
- 377 users
- qiita.com/e99h2121
- テクノロジー
- 2022/04/16
システム運用アンチパターン ―エンジニアがDevOpsで解決する組織・自動化・コミュニケーション | Jeffery D. Smith, 田中裕一 |本 | 通販 | Amazon エンジニアがDevOpsで解決する組織・自動化・コミュニケーション。早速お薦めしたく書いています。読書感想文です。感想5点良いぞ。周りに薦めたい百聞一見。目次だけでも: https://www.oreilly.co.jp/books/9784873119847/#toc 特に自分にとって良かったのは以下 9章　せっかくのインシデントを無駄にする 10章　情報のため込み：ブレントだけが知っているだが、一番スゴイのは11章かもしれない「文化を変えようと思うのであれば、文化がどのように共有されているかを理解すること」コロナ以前は議事録会議机横での雑談飲み会タバコなどなどあったがコロナ以降、リ
- devops
- あとで読む
- 運用
- 本
- 書籍
- 組織
- エンジニア
- 開発
- ドキュメント
- 運用保守
障害から学ぶクラウドの正しい歩き方について考える - そーだいなるらくがき帳
- 374 users
- soudai.hatenablog.com
- テクノロジー
- 2019/08/24
AWSで大きな障害が発生したこの機会に、自分がクラウドと正しく付き合っていくために必要なことを考える。 piyolog.hatenadiary.jp ちなみに稼働率 99.99% くらいを目指していくために必要な事を考える。必要な稼働率を見極める今回は 99.99% くらいを目指すと言ったが、実際に自分たちにとってどのくらいの稼働率を目指すか？ということはとてもとても大切だ。幸い、今回自分は影響がなかったが、本当に完璧か？と言われるとそうではない。まず弊社の場合、マルチリージョンではないので東京リージョンが落ちたら落ちる。これを許容できない場合に99.99%を目指せるか？というと正直厳しい。しかしサイトの規模はそんなに大きくないのでデータサイズも現実的に転送出来る範囲で、コンポーネントも少なく、TerraformやAnsibleによって再構築しやすい状態は整っている。そのため
- aws
- 障害
- あとで読む
- インフラ
- cloud
- サービス
- SRE
- dns
- アプリケーション
- trouble
「コード書きました、あとはよろしく」では優れたソフトウェアは生まれない　コンテナのスペシャリストが語る、運用性を損なう8つの実装例
- 374 users
- logmi.jp
- テクノロジー
- 2022/02/03
今押さえておくべき知識をアップデートし、ノウハウを共有し、さらなるスキルアップを実現する場として開催されている、AWS で最も Developer に特化したカンファレンス「AWS Dev Day Online Japan」。ここでSr. Product Developer Advocate, Elastic Containersの原氏が登壇。続いて、運用性に優れたソフトウェアが重要な理由と、運用性を損なう8つの実装例について紹介します。前回はこちらから。 You build it, you run it 原トリ氏：（スライドの「You build it, you run it」を指して）この言葉、聞いたこと、見たことがある方がいるかもしれません。これは、2006年にACM（Association for Computing Machinery）という団体が、Amazon AWSのCTOで
- 開発
- あとで読む
- 運用
- コンテナ
- aws
- ソフトウェア
- devops
- docker
- コード
- 仕事
「運用組織」の考え方と設計〜運用組織論 2021 / 20210310-ssmjp-operation-organization
- 373 users
- speakerdeck.com/opelab
- テクノロジー
- 2021/03/11
ssmjp ssmonline #8 "第三回はたのさん祭オンライン"( https://ssmjp.connpass.com/event/206074/ )での発表資料です。 (運用設計ラボ合同会社波田野裕一)
- 運用
- 設計
- 組織
- あとで読む
- 考え方
- devops
- management
- ssmjp
- マネジメント
- 仕事
【翻訳記事】デプロイ戦略の定義 - そこに仁義はあるのか(仮)
- 373 users
- syobochim.hatenablog.com
- テクノロジー
- 2020/03/18
この記事は2017/11の以下のブログ記事の翻訳です。 blog.itaysk.com まずはじめに、翻訳を快く許可していただいた@itayskさんに感謝いたします。 3年前の記事ですが、デプロイ戦略についてここまで網羅的にまとめられた記事が日本語で見つけられなかったので翻訳してみようと思いました。初めての翻訳記事であり、かつ翻訳時に多少の意訳を含んでいます。私の翻訳ミスがある可能性も十分にご了承ください。何か間違いやわかりにくいところがあれば、コメントいただけますと幸いです。無謀なデプロイ (Reckless Deployment) ローリングアップグレード (Rolling Upgrade) ヘルスチェックと監視ロールバック後方互換性ちなみにブルーグリーンデプロイ (Blue/Green Deployment) ドレインスイッチバックステージちなみにカナリアデプロ
- デプロイ
- あとで読む
- deployment
- deploy
- 監視
- api
- 開発
- コード
- リリース
- monitoring
バウンスしすぎて Amazon SES から追放された俺たちは Mailgun と SendGrid に国を作ることにした - ANDPAD Tech Blog
- 372 users
- tech.andpad.co.jp
- テクノロジー
- 2021/10/27
これは何どのように技術選定してますか。よく聞かれます。SREチーム鈴木心之介です。しかし説明が難しい。難しいですが説明の助けになってほしく思い、技術選定を文書化した DesignDoc から1枚を公開してみました。 DesignDoc とは、ある程度の大きさや複雑さがあり一言で説明の難しい技術選定について、文書化したものです。これを通じて、技術選定をどのように行うか組織内に広めようとする試みです。2021年1月頃から始めています。題材は、メール配信の冗長化をRailsで実現した tech.andpad.co.jp を、インフラ視点から技術選定した DesignDoc です。このメール配信SaaSの選定は2019年末頃に実施したもので、DesignDoc の取り組みを始めていなかった頃でした。時が経ち、ソースコードやSaaSの構成からは意図を読むことが難しく「なんじゃこれ」って質問を
- aws
- mail
- mailgun
- あとで読む
- ses
- sendgrid
- 運用
- メール
- smtp
AWSコスト削減とリソース管理 | 外道父の匠
- 370 users
- blog.father.gedow.net
- テクノロジー
- 2023/08/24
クラウド使いなエンジニアの皆様、猛暑と円安の中いかがお過ごしですか。上層部からインフラコスト削減を突きつけられてはおりませんでしょうか。今回はおそらく初めてコスト削減についてAWSを軸に書いていきますが、考え方はどこの環境でも似たりよったりなので何かしらの足しになればと思う次第であります。目次長いです。ひきかえしたほうがいいぞ！コミュニティに捧げます AWSの売上コスト削減とは三大使命コスト状況整理 Load Balancer 参考リンク統合による削減 EC2 Autoscaling 参考リンク情報整理古いインスタンスタイプの変更スケジュールの調整スポットインスタンスの適用軽量インスタンスの統合・サーバーレス化アプリケーション処理の軽減 EC2 EBS EBSは高い不要EBSを削除・スナップショット化ボリュームタイプの変更 EC2 AMI NAT Gatew
- aws
- あとで読む
- コスト
- 運用
- CPU
- SRE
- 設計
- cloud
- 整理
- Amazon Web Services
監視について思うとこ - y-ohgi's blog
- 367 users
- y-ohgi.blog
- テクノロジー
- 2019/08/19
TL;DR 監視はユーザーにサービスを提供できているかを観測するための行為 SLI/SLOを定めて、SLOを守れるようにモニタリングするダッシュボードは定常的に表示しておくものと障害時に活用するものを作ると良いアラートはレベル分けして人間が対応しなければならないものだけ人間へ通知する監視とはサービスを健全に動作させ続けるために監視を行います。「健全に動作している」の定義はサービスによって異なり、ユーザーにWebページを見せることができることだったり、バッチが正常に終了することだったりします。最終的にユーザーに正常にサービスを提供できていることを観測するために行うことに変わりはありません。さてユーザーにサービスを提供するために何を監視しましょうか？クラウド前提であれば個人的にリソースベース（CPU/Memory）より、 SLI/SLOをベースに監視する事が望ましいと考えてい
- 監視
- あとで読む
- monitoring
- datadog
- モニタリング
- 運用
- SRE
- サービス
- 情報システム
- ログ
社内用GitHub Actionsのセキュリティガイドラインを公開します | メルカリエンジニアリング
- 364 users
- engineering.mercari.com
- テクノロジー
- 2023/06/09
この記事は、Merpay Tech Openness Month 2023 の4日目の記事です。こんにちは。メルコインのバックエンドエンジニアの@goroです。はじめにこのGitHub Actionsのセキュリティガイドラインは、社内でGithub Actionsの利用に先駆け、社内有志によって検討されました。「GitHub Actionsを使うにあたりどういった点に留意すれば最低限の安全性を確保できるか学習してもらいたい」「定期的に本ドキュメントを見返してもらい自分たちのリポジトリーが安全な状態になっているか点検する際に役立ててもらいたい」という思いに基づいて作成されています。今回はそんなガイドラインの一部を、社外の方々にも役立つと思い公開することにしました。ガイドラインにおける目標このガイドラインは事前に2段階の目標を設定して作成されています。まず第1に「常に達成したいこと
- github
- security
- ci
- GitHub Actions
- あとで読む
- セキュリティ
- actions
- SRE
- guideline
- github-actions
Googleが作った分散アプリケーション基盤、Borgの論文を読み解く -その1- - inductor's blog
- 363 users
- blog.inductor.me
- テクノロジー
- 2019/10/30
このエントリーについてこのエントリーを書き始めた経緯は下記にあります。 inductor.hatenablog.com 上記の理由の通り、目的は論文を翻訳することだけではなく、最終的にこれを踏まえて自分の見解をつらつらと書いていくところにもあります。おそらく一番時間がかかるのはそれなので、一旦は翻訳を一通り終えた上で更に頑張っていきます。ゆっくりお待ちいただければと思います＞＜ 1. Introduction(まえがき) Borgが内部的に呼び出すクラスター管理システムは、Googleが実行するすべてのアプリケーションを許可、スケジュール、起動、再起動、および監視します。この論文ではその方法を説明します。 Borgには3つの主な利点があります。リソース管理と障害処理の詳細を隠すため、ユーザーは代わりにアプリケーション開発に集中できます。非常に高い信頼性と可用性で動作し、同じことを行
- Borg
- あとで読む
- google
- 論文
- k8s
- kubernetes
- 監視
- distributed
- システム
- 基盤
コンテナ研修（Kubernetes編）【MIXI 23新卒技術研修】
- 362 users
- speakerdeck.com/mixi_engineers
- テクノロジー
- 2023/05/13
23新卒技術研修で実施しコンテナ研修（Kubernetes編）の講義資料です。動画：https://youtu.be/Dk0isJQ6a80 こちらは後編になります。前編はこちら：https://speakerdeck.com/mixi_engineers/2023-container-training-number-01 ※ハンズオン環境は提供していないので、ハンズオンを実際に試していただくことはできません。資料の利用について公開している資料は勉強会や企業の研修などで自由にご利用頂いて大丈夫ですが、以下の形での利用だけご遠慮ください。・受講者から参加費や授業料などを集める形での利用（会場費や飲食費など勉強会運営に必要な実費を集めるのは問題ありません）・出典を削除または改変しての利用
- kubernetes
- あとで読む
- コンテナ
- 資料
- k8s
- 技術
- GKE
- mixi
- 環境
経営とソフトウェアエンジニアリングの接続 - WEB SALAD
- 360 users
- web-salad.hateblo.jp
- テクノロジー
- 2022/09/30
はじめに 2020年の1月から執行役員CTOに就任し、そこから数年間「CTOの役割は何か」を自問自答してきました。就任当初から「CTOの役割とは、経営とソフトウェアエンジニアリングを接続することである」という考えはありましたが、上手く言語化できずにいました。最近になってようやく他者へ説明できるレベルまで言語化できるようになったので、現時点での考えを残しておきたいと思い、4年ぶり（！）にブログを更新する1ことにしました。本ブログポストの要旨筆者の考えるCTOの役割は、「ソフトウェアエンジニアリング組織の日々の活動が企業価値の向上に繋がっている状態を作ること」です。企業価値の向上のためにソフトウェアエンジニアリング組織が行うべき取り組みは、コーポレートファイナンスの視点を導入することで論理的に導けます。そして、ソフトウェアエンジニアリング組織の日々の活動がこれらの取り組みに自然と向
書籍「サーバ/インフラエンジニアの基本がこれ1冊でしっかり身につく本」発売！
- 360 users
- netmark.jp
- テクノロジー
- 2021/04/06
わたしが執筆したサーバ/インフラエンジニアの基本がこれ1冊でしっかり身につく本が2021-04-14に発売されます！！物理本：2021-04-14発売 Kindle：2021-04-09発売 PDF/EPUB：2021-04-09発売 →Gihyo Digital Publishing ※電子版が先行発売。時代ですねぇ今回は表紙がとてもポップで、いままでの著書にはない雰囲気。これはこれでとてもいいカンジ。つかいかた Webエンジニアの初期研修の1冊にピッタリだと思います。ぜひお手にとってください！今回のサーバ/インフラエンジニアの基本がこれ1冊でしっかり身につく本はインフラエンジニアの卵のためのファーストステップ本です。広く浅くいろいろなトピックを摘めるようにしています。本書を専門分野への足がかりにしてください。 Webエンジニアがインフラのことも知っていきたい！とい
- インフラ
- あとで読む
- エンジニア
- 本
- サーバ
- ネットワーク
- book
- web
- infrastructure
- 学習
SadServers - Linux & DevOps Troubleshooting Interviews
- 357 users
- sadservers.com
- テクノロジー
- 2022/10/27
"Like LeetCode for Linux" Capture The Flag challenges. Train and prove your debugging skills. Practice for your next SRE/DevOps interview. Get a full remote Linux server with a problem and fix it.
- linux
- インフラ
- SRE
- server
- 学習
- あとで読む
- サーバ
- 勉強
- DevOps
- webサービス
ネットワークが劣悪な環境を再現する方法
- 352 users
- zenn.dev/headwaters
- テクノロジー
- 2024/03/10
目的アプリケーションが通信に失敗した際のテストを行いたい例. 「通信に失敗した場合に再取得ボタンが表示されること」など方法1. Chrome DevTools を使う https://developer.chrome.com/docs/devtools/network/reference?hl=ja#throttling 任意の設定を追加して使用することができるメリット PCとモバイルデバイスの両方で使用可能新規にアプリケーションをインストールする必要が無いデメリットパケロス率などを設定できない Android, iOS のネイティブアプリでは使用できない方法2. Network Link Conditioner を使用する Network Link Conditioner は Apple が提供しているネットワークユーティリティツール使用手順等は以下のサイトが分かりやす
- ネットワーク
- あとで読む
- network
- テスト
- test
- Android
- 環境
- ios
- 開発
- 通信
https://twitter.com/matsuu/status/1586362867506327552
- 351 users
- twitter.com/matsuu
- テクノロジー
- 2022/10/30
- インフラ
- あとで読む
- エンジニア
- LeetCode
- SRE
- network
- サーバ
- linux
副業×AWSでわりと人生変わったエンジニアの話 - Qiita
- 350 users
- qiita.com/FumiakiKato
- テクノロジー
- 2020/12/24
はじめに何を書こうか迷ってたんですが、ちょうど副業始めて1年ほどたったので、どういうきっかけで始めたか、何をしてるのか、やってみたメリットなどを書いていこうと思います。なぜ副業×AWSなのかというと、自分が副業をやっていく中で普段AWSに触れていることが強みになっていたので、単に副業だけじゃなくAWSも混ぜてみました。これから副業を始めようと思っている人、特に本業で役割が変わってあまりコード書けなくなった人に参考になれば。自己紹介本業ではSREという部署でCloud Architecture Grpというチームを持っており、自社サービスであるCOMPANYのクラウドネイティブ化を推進しています。主にクラウドプラットフォームとしてはAWSを利用しているため、日常的にAWSのサービスに触れる機会が多いです。そんな本業の傍ら、3社で副業やってます。(20名規模ぐらいのベンチャー)
- aws
- あとで読む
- 副業
- エンジニア
- 人生
- 会社
- 仕事
- テンプレート
- webサービス
【衝撃】AWSのRDSがデータを失わないBlue/Greenデプロイに対応しました #reinvent | DevelopersIO
- 350 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/28
「最近は、データベースもB/Gデプロイできるらしいよ？」「そりゃそうやろ。B/Gデプロイなんて、最近当たり前………　へ？DBが？無理でしょ？ほぇ？どういうこと？」最初アップデートのタイトルを見たときの、ハマコーの率直な感想です。 Blue/Greenデプロイは、現行バージョンのトラフィックを活かしたまま新バージョンを動作確認し、問題なければ新バージョンをリリースするという、最近の安全なデプロイの概念において無くてはならないものです。同時に新旧バージョンを稼働させるため、基本的にはステートレスなアプリケーション・サーバーにおいて利用するものという固定概念があったのですが、それをデータベースに対して既存のAWSの技術を組み合わせつつAWSらしいマネージドな仕組みで解決しようという、意欲的なリリースです。制約事項もそれなりにあるので、皆さんの運用ワークロードに当てはまるかは、事前の検証が必
- aws
- RDS
- あとで読む
- データベース
- db
- amazon
- 環境
- database
- データ
- Amazon Web Services
SREやクラウドエンジニアが読むと良さげな本まとめ - Qiita
- 348 users
- qiita.com/tmknom
- テクノロジー
- 2019/12/09
一年半ぐらい前にアプリケーションエンジニアからSREにコンバートした筆者が、いま役に立ってるなぁっていう本を紹介します。アプリケーションコードを書いてるときは下のレイヤの技術に興味なかったんですが、改めて勉強してみると楽しいです。コンピュータシステムクラウド全盛とはいえ、コンピュータの仕組みはおさえておくと役立ちます。コレ系の本はわりと小難しいものが多いですが、個人的に楽しく読めた本を紹介します。 Raspberry Piで学ぶコンピュータアーキテクチャ Raspberry Piと銘打たれてますが、コンピュータアーキテクチャの歴史的な背景も踏まえて解説されています。プロセッサ・メモリ・ストレージ・ネットワーク・OS・プログラミングなど、コンピュータ単体の基本的な知識を学べます。　歴史をあわせて知ることができるため、知的好奇心がおおいに刺激され、楽しく読むことができます。この本が難しく感
Treasure Data を退職しました - k0kubun's blog
- 346 users
- k0kubun.hatenablog.com
- テクノロジー
- 2022/07/25
約5年5か月働いたTreasure Dataを7/22に退職した。7/25からShopifyに入社し、RustでJITコンパイラを開発してRubyを高速化する仕事をする。仕事としてやりたい分野が変わってきて自分は今回転職したけど、とても良い会社なので、この記事がTreasure Data (以下TD) で働くことに興味がある人の参考になれば良いと思っている。*1 5年勤続記念にいただいたトロフィーやっていたこと APIチーム元々TDにはJavaで分散システムを書きたくて入社したのだが、TD入社前に特にそういう経験があるわけでもなく主にRailsをやっていたこともあり、Railsでプラットフォームを開発するチームに入った。基盤開発をやりたいと思いながらサービス開発者として最初働き、後に基盤開発チームにジョインするみたいな過去の経験があったので、今回もそういう感じでいけると考えていた。実
- キャリア
- あとで読む
- 退職
- career
- 仕事
- 開発
- 会社
- ruby
- エンジニア
- rails
Webサービスの障害対応のときの思考過程 - ぱいぱいにっき
- 346 users
- mackee.hatenablog.com
- テクノロジー
- 2020/08/30
起こってほしくはないのですが、あらゆるWebサービスは完璧に動作する状態を維持することは難しく、やはり障害対応・トラブルシューティングといった作業が発生します。筆者は普段仕事で障害対応を不幸なことによくやるのですが、障害対応のスキルというのはスピードや判断の正確さが求められるせいか、今までやったことがある人・ノウハウがある人に集中し、それ以外の人は眺めるだけ・あとからログを見返すだけの状態によく陥ることがあります。これはWebサービスを開発・運用するチームとしてみたときにそういった苦労が特定の人に集中するのは良くないので、それを緩和する目的として、筆者が障害対応時に考えていることを記述してみます。なお、これが唯一の正解ではないとは思っているので、ツッコミや、自分はこう考えているよというのを教えていただければ幸いです。具体的な手法を避けて思考の方法を述べているのは、障害というのはパター
- 障害
- あとで読む
- webサービス
- web
- トラブル
- 運用
- SRE
- webservice
- 考え方
- サービス
技術的負債は開発者体験を悪化させる - mtx2s’s blog
- 342 users
- mtx2s.hatenablog.com
- テクノロジー
- 2021/12/21
ソフトウェアエンジニアにとって、技術的負債が増え続けるソフトウェアプロダクト開発現場に身を置くことがどれほど苦痛なことであるか。エンジニアリング組織のマネジメントを長年担ってきて、それは強く感じるところだ。中途採用の選考プロセスに面接官として参加し、これまで数多くの退職理由を見聞きしてきた。その中で、レガシーシステムをリファクタリング・リアーキテクティング・リライトできないことへの不満を理由として挙げるエンジニアは多かったように思う。裏を返せば、自社のソフトウェアプロダクトが技術的負債にまみれたまま放置されているなら、優秀な人材が他社に流出するリスクがあると認識すべきだ。本稿では、技術的負債と開発者体験の関係について紐解くとともに、それに対してソフトウェアエンジニアリング組織を預かるマネージャーが取るべき行動について考えてみたい。 ※これは、Engineering Manager Ad
退職処理を可能な限り自動化する - クックパッド開発者ブログ
- 342 users
- techlife.cookpad.com
- テクノロジー
- 2019/10/10
技術部 SRE グループの id:itkq です。2019 夏アニメで一番好きな作品は Re:ステージ！ドリームデイズ♪ です。この記事では SRE が運用している退職処理の自動化について説明します。退職処理とは入社後に業務のための様々なアカウントを作成するのと反対に、退職時にはそれらのアカウントを無効化する必要があります。これを退職処理と呼んでいます。SRE が管轄している典型的な例では、SSO に対応していない SaaS のログインアカウント・AWS の IAM User・データベースの個人ログインユーザなどが該当します。これらのアカウントは社員によって要否が異なったり必要な権限が異なるため、入社時に一括で用意せず必要に応じて申請してもらう形をとっています。一方で退職時にはそれらのアカウントをすべて無効化する必要があります。退職処理は繰り返され、自動化の余地のあるタスクです。また
- 退職
- あとで読む
- automation
- cookpad
- 自動化
- 運用
- 開発
- 管理
- SRE
- イベント
マイクロサービス化は本当に難しい
- 342 users
- zenn.dev/aeonpeople
- テクノロジー
- 2023/12/22
はじめにこの記事は、AEON Advent Calendar 2023の21日目です🎉 イオンスマートテクノロジー株式会社（通称AST）のCTO室TechLeadチームの@t0doroki_takaです。弊社ではSREチームの発信に勢いがありますが、アプリケーションレイヤーよりの話題も積極的に発信していければと思います。自分の敗戦の振り返り以前、大規模ECシステムのリプレース案件に関わった時(そして敗戦したとき)の振り返りです。今回取り上げるケーススタディは、システム全体(連係するシステム含む)としては段階的移行ではありましたが、主ターゲットとなるシステムは、全EC機能を包括する大規模なシステムで、それをフルスクラッチでリプレースするものでした。巨大なモノリス構造であったため、マイクロサービスアーキテクチャに移行することで、サービス提供のアジリティを確保することが目的の一つでし
CIOpsとGitOpsの話 - inductor's blog
- 341 users
- blog.inductor.me
- テクノロジー
- 2021/09/24
はじめに GitOpsという言葉が生まれたのが自分の知る限り2017年頃なのですが、世の中にあるCI/CDの仕組みはまだほとんどがCIOpsもしくは手動のオペレーションによって成り立っていると思っていて、かつては自分もそうだったのですが「Gitで管理されていればGitOpsなんでしょ？」という勘違いを払拭したくてこのエントリーを書いています。 GitOpsとCIOpsは全然違うまず前提としてGitOpsの明確な定義を知らないという場合、あなたの思う「Gitを契機とした自動デプロイの仕組み」は基本的にはCIOpsです。GitOpsとCIOpsは思ったよりも大きな違いがあって、そもそもGitOpsの必要性が分かっていない場合、自動化によって成立しているデプロイはCIOpsが基本です。 CIOpsとGitOpsの一番の違いは、Push型かPull型かである CIOpsの場合、例えばGitHub
- ci
- git
- あとで読む
- DevOps
- GitOps
- SRE
- 開発
- デプロイ
- development
- インフラ
ソフトウェアエンジニアにおすすめしたい本を100冊選んでみた | gennei's blog
- 339 users
- blog.gennei.coffee
- テクノロジー
- 2023/09/17
Adobe Firefly で生成PdMむけの記事でこのような記事がある。「プロダクトマネージャーこそ、戦略的に読書せよ！」── 最短で成果を出すための読書地図 (1/6)|ProductZine（プロダクトジン）これのエンジニア向けの記事がないかなと思っていたがなさそうだったので作ろうと思った。しかし客観的な視点でこれがおすすめというのは難しいので自分が参考になったと思った本を家の本棚を見ながらまずは100冊リストアップしてみた。紹介する本は10年読まれていたり、近年発売のものであれば10年後にも読まれているだろうというものを選ぶようにしている。個別のプログラミング言語やフレームワークなどの本はバージョンアップに追随ができないことが多いので選んでいない。入門本プリンシプルオブプログラミングリーダブルコード定番中の定番。おそらくこの2冊はあちらこちらで紹介されている。とりあえず
入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean
- 338 users
- blog.song.mu
- テクノロジー
- 2021/12/02
システム障害が起こったときにどういう体制で望むか、エンジニア個人が障害に直面した時にどのような役割を受け持つのが良いのか。組織によって色々なパターンはあるでしょう。しかし、幸いにも「入門監視」やSRE本に書かれている4つの役割分担が浸透しているので、それをベースに考えるのがファーストステップとしては良いのではないでしょうか。入門監視 ―モダンなモニタリングのためのデザインパターン作者:Mike Julianオライリー・ジャパンAmazon SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチームオライリージャパンAmazon ただ、小さな組織では障害時に4人もすぐに揃わない場合もあるでしょうし、そもそも4人もスタッフがいない、と言う場合もあるでしょう。そういった場合にもどうすればいいのか考えていきます。役割分担の基本「入門監視」に
- 監視
- SRE
- あとで読む
- 障害
- 運用
- エンジニア
- 本
- インフラ
- 障害対応
- チーム
もしもいま、インフラ技術をイチから学ぶならどうしたい？　現役SRE・Yutaさんが考える学習ロードマップ - Findy Engineer Lab
- 334 users
- findy-code.io
- テクノロジー
- 2024/07/25
めまぐるしく変化するテックの世界。技術を身に着けるうえで学ぶべきポイントや学習環境なども年々変わっています。そこで「もしもいまの環境で、テックのことをイチから学び直すことになったら、自分はどんな風に勉強したいか」というIFストーリーを通じて、技術との向き合い方を考え直してみる企画「テック転生」。今回は、FinTech企業のSREを務めるYutaさん（@Y0u281）に“自分だったらこう進めたい、インフラ技術の学習ロードマップ”を伺いました。パブリッククラウドが当たり前になった今、インフラ技術を学ぶスタート地点は？サーバー構築の次は、ネットワークと資格の勉強を Linuxとネットワークを学んだらいよいよAWSの学習へ自分が学んだ時より学習コンテンツが豊富コミュニティを活用すると情報が増えてモチベーションも高まるパブリッククラウドが当たり前になった今、インフラ技術を学ぶスタート地
- インフラ
- あとで読む
- SRE
- 学習
- ネットワーク
- 勉強
- linux
- AWS
- network
踏み台EC2を廃止してSession Manager接続に置き換えました
- 332 users
- medium.com
- テクノロジー
- 2021/09/14
こんにちは、エウレカ SRE チームの原田です。今年 (2021年) エウレカでは、公開鍵認証で接続するEC2の踏み台サーバを廃止し、代わりに各サーバへの接続をIAMで認証できるSSM Session Managerへのリプレースを行いました。本記事ではそのモチベーションや、実装のポイントを紹介していきたいと思います。旧来の踏み台サーバ旧来の踏み台サーバエウレカで長く運用されていた踏み台サーバ (Gateway) は以下のようなものでした。各開発者は、自分の秘密鍵を使って踏み台サーバへSSHを行う ( 踏み台サーバ上には各開発者の個別ユーザーおよび公開鍵が登録されている )踏み台上では、接続が許可されているSSH対象のサーバの秘密鍵がユーザー毎に配置されており、その鍵で各サーバにSSHするMySQL / Elasticsearch / Redis など、Private Subnet
- aws
- ssh
- 運用
- IAM
- あとで読む
- ssm
- セキュリティ
- サーバ
- ec2
- インフラ
AWSの開発環境の利用時間をGoogleカレンダー連動させたら開発チームが自由に使えてコスト70%削減！！ - Uzabase for Engineers
- 329 users
- tech.uzabase.com
- テクノロジー
- 2023/02/21
こんにちはNewsPicks SREチームの美濃部です。 NewsPicksのSREのミッションの1つに「コストを適正化する」というものがあります。サービスの規模拡大に比例してインフラコストが増えないようにし、売上に対するコストの割合を低く維持していくのがミッションになります。今回はこのミッションに対するアクションとして開発環境のインフラコストを適正化した話をします。 NewsPicksの開発環境について開発環境のコストをどうやって適正化したか稼働時間対応を実現する仕組みについて実際どれくらい削減できたのかまとめ NewsPicksの開発環境についてまず、NewsPicksの開発環境について概要を説明します。インフラ基盤は本番環境と同様にAWSを利用しており開発チームは現在10以上のチームが存在し、それぞれのチーム専用に用意された開発環境を利用しています。 2年程前までは開発
- aws
- あとで読む
- SRE
- 開発
- google calendar
- google
- Amazon Web Services
- チーム
- 環境
- インフラ
5年後には標準になっている可観測性のこと - Learning Opentelemetry の読書感想文 - じゃあ、おうちで学べる
- 327 users
- syu-m-5151.hatenablog.com
- テクノロジー
- 2024/04/16
はじめに本稿は、オープンソースの可観測性(Observability)プロジェクトである OpenTelemetry を取り上げた書籍「Learning Opentelemetry」の読書感想文です。従来の可観測性の課題であったデータの分断を解消し、トレース、メトリクス、ログなどの様々なテレメトリデータを統合的に扱うことができる OpenTelemetry は、可観測性の分野における革命的な存在と言えます。過去10年間で、可観測性はニッチな分野から、クラウドネイティブの世界のあらゆる部分に影響を与える数十億ドル規模の産業へと発展しました。しかし、効果的な可観測性の鍵は、高品質のテレメトリデータにあります。OpenTelemetryは、このデータを提供し、次世代の可観測性ツールと実践を開始することを目的としたプロジェクトです。 learning.oreilly.com 本書の想定読者は、
- OpenTelemetry
- あとで読む
- observability
- 監視
- 運用
- 開発
- book
なぜオブジェクト指向方法論に代わる方法論が出ないのか - きしだのHatena
- 322 users
- nowokay.hatenablog.com
- テクノロジー
- 2022/08/05
1990年代にオブジェクト指向分析・設計の方法論がめちゃ流行ったことがあります。ただ、そのブームが終わって、後続となるような方法論が流行ることはありませんでした。で、なぜなのか考えていたのですけど、オブジェクト指向方法論のウリは分析段階で出てきたオブジェクト(といいつつクラス)がコードにそのまま引き継がれるというものでした。ようするにオブジェクト指向方法論というのはコードのスケッチを書いて詳細化していくというものだったのです。しかしながらこれは、スケッチとして書いた分析・設計が間違っていればコードも間違うわけで、強くウォーターフォールの性質をもつものでした。結局のところスケッチの妥当性というのはコードを書かないと検証ができません。分析・設計段階で見出されたクラスが妥当かというのは、コード書かなければわからなかったのです。逆に、コードを書けば妥当かどうかわかります。であれば、最初から
リリース手法多すぎﾜﾛﾀｧ　B/G、カナリア、機能フラグ、ダークローンチ、A/Bテスト、、など - Qiita
- 321 users
- qiita.com/minorun365
- テクノロジー
- 2022/06/29
この記事でCloudWatch Evidentlyについて調べていると、「機能フラグ」や「A/Bテスト」などインフラエンジニアには若干聞き慣れないリリース用語が出てきました。アジャイル開発やCI/CDの台頭に伴い多数出現したこれらのリリース戦略用語をまとめて整理してみることにします。インフラエンジニアやSREと呼ばれるロールの方々も、リリース戦略を知っておくとCI/CD環境の構築やIaC、はたまたミドルウェアのバージョンアップなどで役立つと思います。以下ウェブサイトを参考に、各用語を「デプロイ戦略」と「テスト戦略」の大きく2つに分けて紹介します。デプロイ戦略従来型のデプロイ（インプレースデプロイ）システム本番環境が一種類のみ存在し、新バージョンの資材デプロイによって旧バージョンの資材を上書いてしまうパターンです。環境の設計や管理、維持コストをシンプルに抑えられるメリットがあり
- インフラ
- あとで読む
- テスト
- システム
- 開発
- qiita
- デプロイ
- データベース
- TDD
- testing
クックパッドの検索反映時間を 1/288 にしたシステム改修 - クックパッド開発者ブログ
- 321 users
- techlife.cookpad.com
- テクノロジー
- 2023/10/05
こんにちは。レシピ事業部の新井（@SpicyCoffee）です。クックパッドではこれまで、レシピを投稿してから検索結果に反映されるまで最長で 24 時間程度の時間がかかっていました。今回、この時間を 5 分程度、最長でも 10 分程度に短縮することに成功しました。本記事では、プロジェクトオーナーの立場で関わった私が代表してその開発について紹介します。プロジェクトの目的と数値目標本プロジェクトでは上記の「レシピを投稿してから検索結果に反映されるまでの時間短縮」が目的とされました。しかし、時間短縮といっても現状 24 時間であるものを "1 時間" にするのか、"1 分" にするのか、"1 秒" にするのかでは話が全然違います。この数値目標は設計を始めとした後の意思決定に大きく影響を与えるため、しっかりとした意図を持った状態で明確に定めておく必要がありました。そこで、私とプロダクトオー
- 開発
- あとで読む
- AWS
- 検索
- アーキテクチャ
- プロジェクト
- Solr
- システム
- Search
- IT
「もうさばき切れない」アクセスが激増したECプラットフォームにおける負荷対策 - BASEプロダクトチームブログ
- 320 users
- devblog.thebase.in
- テクノロジー
- 2020/08/27
はじめに CTOの川口 (id:dmnlk) です。 5月にオンラインmeetupをさせて頂きその中で「具体的な負荷対策に関しては開発ブログで！」と言っていた件ですが気づいたらもう9月になりかけていました。コロナ禍においてネットショップ作成サービス「BASE」の利用者様が急増しました。 www.nikkei.com 5 月には 100 万ショップを超えるショップオーナー様にご利用していただいております。今まで EC 事業を行っていなかった飲食店様や様々な業種の方が利用をはじめていただき、ショップオーナー様も購入者様共に短期の見通しでは想定をしていないアクセスが発生しました。その途中でシステムとして対応しきれない面もあり、アクセス負荷によるサービスの不安定を招き皆様にはご不便や販売時間を変更していただくお願いなどをしてしまい大変申し訳ありませんでした。現在では安定しておりますが、その
- aws
- あとで読む
- aurora
- performance
- データベース
- 開発
- チューニング
- DB
- ec
- アクセス