[8ページ] SREの人気記事 1308件 - はてなブックマーク

281 - 320 件 / 1308件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

SREの検索結果281 - 320 件 / 1308件

2022年版 OpenTelemetryを知れば世界が平和に - じゃあ、おうちで学べる
- 80 users
- syu-m-5151.hatenablog.com
- テクノロジー
- 2022/07/12
はじめに OpenTelemetryとは Opentelemetry のコンポーネント Opentelemetry のプロジェクトの仕様とStatus Tracing Metrics Logging(Specification にドキュメントがない) Baggage OpenTelemetry のSpanとTrace OpenTelemetry Collectorとは Collector のメリット OpenTelemetry Collector Architecture とは OpenTelemetry とSDKとパッケージ OpenTelemetry と自動計装今後のOpentelemetry について次回予告:OpenTelemetry とOpenTelemetry Collectorを使ったTracingとMetricsをアプリケーションで利用する方法参照リンクはじめに最
開発チームとともに歩むSREチームが成し遂げたいこと | メルカリエンジニアリング
- 79 users
- engineering.mercari.com
- テクノロジー
- 2021/01/29
こんにちは、メルカリMicroservices SREチームでEngineering Managerをしている@m4buyaこと渋谷です。メルカリでは、昨年6月にSREチームの一部をマイナーアップデートし、プロダクトチームに寄り添いSREとしての専門性を活かし信頼性に貢献していくMicroservices SREチームを発足しました。本記事では、そうするに至った背景、何を目指しているのか、これまでに出来たこととまだ出来ていないことを振り返り、今後の展望についてご紹介します。背景メルカリでは、2015年よりSREチームを立ち上げ、お客様が安心・安全にメルカリサービスを利用していただくためのシステムの信頼性の維持向上に取り組んできました。年々プロダクトとして成長を続け、トラフィックも増加する一方のメルカリサービスに求められるスケーラビリティ向上において、メルカリSREチームは大きな役割を
RDS Proxyを用いたオンラインスイッチオーバーによるMySQLのアップグレードについて - freee Developers Hub
- 78 users
- developers.freee.co.jp
- テクノロジー
- 2023/08/01
おはこんばんちは、DBREの橋本です。今回は、Amazon RDS Proxy（以降RDS Proxyとよぶ）を用いたRDS for MySQLインスタンスおよびAurora MySQLクラスタのオンラインスイッチオーバーの手法について、ある程度社内での運用が確立してきましたので解説いたします。従来のアップデート手法 AWS上でRDS for MySQLインスタンスやAurora MySQLクラスタ（以降これらをデータベースとしてまとめてよぶ）を運用している場合、それらのエンジンバージョンの更新を行ったり、OSバージョンの更新に伴う再起動を実施する必要があります。これらの更新を行う場合、以下のような方法が考えられます。対象のデータベースに直接更新を適用するスナップショットを作成し、更新済みのデータベースとして復元する更新済みの空のデータベースを新規作成し、そちらにデータを移行し、
- MySQL
- aws
- RDS
- aurora
- あとで読む
- freee
- database
- DB
- データベース
SRE を成功させるには、まず計画を立てることが大事 | Google Cloud 公式ブログ
- 78 users
- cloud.google.com
- テクノロジー
- 2021/03/12
※この投稿は米国時間 2021 年 2 月 27 日に、Google Cloud blog に投稿されたものの抄訳です。サイト信頼性エンジニアリング（または DevOps）を実装すると、魔法のようにすべてが改善されると思う人もいるでしょう。組織に SRE のおまじないをかけるだけで、サービスの信頼性と収益性が向上し、IT やプロダクト、エンジニアリングの各チームの誰もが満足すると。このような勘違いが起こる理由は明らかです。世界屈指の信頼性と拡張性を誇るサービスのいくつかは、SRE チームの支援を得て稼働しているからです。Google がその代表的な例です。私は、大規模な本番環境システムの稼働に明け暮れる生活を 20 年近く続けてきました。トレードオフ、信頼性、コスト、制約や要件が異なる多様なアーキテクチャの実装といったことで頭を悩ませ、深夜に呼び出されることもよくありました。最近では
- SRE
- あとで読む
- google
- cloud
Engineering Managerをやっていた間の振り返りとまとめ - masartz->log(type=>'hatenablog')
- 78 users
- masartz.hatenablog.jp
- 政治と経済
- 2019/08/19
TL;DR; Engineering Managerを降りることになりましたので、振り返りとまとめです。 ※会社は辞めませんので、退職エントリではございません（別チームへの異動です）時系列 2017/10頃: SREのチーム内において会社のReport Line上にはプロットされないリーダー的なポジションをやりはじめるこの時はまだManagerではない。採用や評価に対するResponsibilityがないのがマネージャとリーダーの簡単な違い 2018/04: SREのEngineering Managerに登用される当時 Microservices PlatformはReport Line上はまだSRE内に包含されていた気がするどこかのタイミングで Report Lineとしても独立して、2チームを兼任する形で引き続き担当していた 2018/10: 2チーム兼任からMicroser
Linux Crisis Tools
- 77 users
- www.brendangregg.com
- テクノロジー
- 2024/03/24
(This is based on Table 4.1 "Linux Crisis Tools" in SysPerf 2.) Some longer notes: [1] bcc and bpftrace have many overlapping tools: the bcc ones are more capable (e.g., CLI options), and the bpftrace ones can be edited on the fly. But that's not to say that one is better or faster than the other: They emit the same BPF bytecode and are equally fast once running. Also note that bcc is evolving and
- linux
- SRE
- あとで読む
- tool
- server
GitHub Actionsにおける脅威と対策まとめ
- 76 users
- zenn.dev/cybozu_ept
- テクノロジー
- 2024/06/06
はじめにこんにちは、サイボウズ24卒の@yuasaです。サイボウズでは開発・運用系チームに所属する予定の新卒社員が研修の一環として、2週間を1タームとして3チームの体験に行きます。新卒社員の私が生産性向上チームの体験に行った際に、チーム内でGitHub Actionsを利用する際の脅威と対策について調査を行い、ドキュメント化した上で社内への共有を行いました。本記事では、そのドキュメントの一部を公開します。対象読者本記事の主な対象読者としては、以下のような方を想定しています。 GitHub Actionsを組織で利用しているが、特にセキュリティ対策を実施していない方 GitHub Actionsを組織で利用しており、部分的にセキュリティ対策を実施しているが、対策が十分かどうか分からない方本記事がGitHub Actionsのセキュリティ対策を検討する上で参考になれば幸いです。本記
AWSコスト異常検知を導入したら、『人にお願いする』トイルが発生したのでSlackBotを作って解消した - KAYAC engineers' blog
- 76 users
- techblog.kayac.com
- テクノロジー
- 2024/05/28
SREチームの池田(@mashiike)です。SRE連載の５月号になります。 AWSのコストについては、多くの方がすごく気にしていると思います。カヤックでもAWSのコストの変動に関しては敏感に気にしています。そんな方々の心のお供になる機能が、 AWSコスト異常検知(AWS Cost Anomaly Detection) です。今回は、このコスト異常検知にまつわるトイル削減の取り組みを紹介します。背景 AWSコスト異常検知は、AWS マネジメントコンソールの中では『Billing and Cost Management』配下にある機能になります。この機能を使うことでAWSで発生したコストに関して、通常とは異なるコストの発生を検知することができます。コスト異常検知自体については、CureApp テックブログ様のZennの記事がわかりやすくまとまっているので、そちらを参照いただければ
- aws
- SRE
- あとで読む
- tech
- web
- *あとで読む
Pyroscopeを使ったContinuous Profilingの活用事例
- 76 users
- engineering.linecorp.com
- テクノロジー
- 2022/12/08
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog LINE株式会社OA SREチームのhasebeです。先日、私の担当するプロダクトにてPyroscopeというツールを導入しました。このブログではなぜPyroscopeを導入したのか、導入した結果どういった利点があったのかなどについてご紹介したいと思います。 Pyroscopeとは Pyroscopeとは、Continuous Profilingを実施することができるOSSのツールです。 Profilingについては特に説明は不要でしょう。ざっくりいうと、CPUやメモリ等のリソースをプログラム中のどこが多く消費しているのか(= ボトルネック)を突き止める手法のことを意味します。一般的には、なにか問題が起きたときに手動でPr
- profiler
- Profiling
- LINE
- SRE
- あとで読む
- CPU
- grpc
- monitoring
- HotEntry
技術的負債と向き合うための取り組みでよかったもの例 - ytake blog
- 75 users
- blog.ytake.jp.net
- テクノロジー
- 2023/08/18
技術的負債はどこにでもあるタイトルにあるように、いくつかの開発チームと一緒に技術的負債を改善する開発や、それらに関する活動を行うことが多くいろんな取り組みをしていく中で、よかったことがいくつかありました。もちろん技術的負債を返すのは数ヶ月で終わるレベルのモノは多くなく、何年から十数年もかかるものの方が多いはずですので、すべて完了しているわけではないですが、その活動の中であくまで「今のところよさそう」というレベルのものです。何番煎じかわからないくらいのものですが、これを読んだ方が取り組んでいくにあたってヒントになればと思います。普通の話しかありません。会社全体で合意とSRE これは当たり前ですが、念の為・・以前もイベントでお話しさせてもらったりしましたが、技術的負債は開発体験が悪くなり、モチベーションが上がらなくなるものでもあり、そこから招く生産性の低下や色々なネガ
Slab キャッシュの使用量が増加した原因を SystemTap で調査した [DeNA インフラ SRE] | BLOG - DeNA Engineering
- 75 users
- engineering.dena.com
- テクノロジー
- 2022/07/28
2022.07.28 技術記事 Slab キャッシュの使用量が増加した原因を SystemTap で調査した [DeNA インフラ SRE] by Hidetaka Masuda #infrastructure #sre #troubleshooting #stateless-server #iaas #game-infrastructure #infra-quality IT 基盤部の増田です。新卒2年目で業務では主にモバゲーや社内向け SaaS のインフラ運用を行っています。本記事ではサーバーのメモリ使用量増加の原因を SystemTap で調査したときの話を紹介します。この記事を通して、手掛かりを元に少しずつ核心に近づいていく、謎解きゲームのような楽しさを感じていただければと思います。問題発生調査を開始したきっかけは、サーバーのメモリ使用量増加のアラートが頻繁に鳴るようになっ
- SRE
- kernel
- あとで読む
- linux
- メモリ
- DeNA
- サーバ
LINEが注力している「銀行事業」「LINE証券」「LINE Pay」のフロントエンドエンジニアと裏方・SREは何をしているのか
- 75 users
- logmi.jp
- テクノロジー
- 2020/10/27
LINEではさまざまなFintechサービスを展開しています。今回のイベントでは、LINEの注力事業のひとつであるFintechサービスのうち、「銀行事業」「LINE証券」「LINE Pay」のSREとフロントエンド側の開発に携わるエンジニアが登壇し、LINEが金融領域で目指す将来、それぞれの業務内容や働く体制・環境などを説明しました。 LINE FintechサービスのSRE 国兼周平氏（以下、国兼）： SREチームの国兼と申します。前職はSierにいまして、金融とか公共の大小さまざまな案件を中心にいろいろ経験しました。実は前職でも証券も銀行もやったことがあります。 2018年にLINEに入社しまして、当初はLINEマンガとか、どちらかというとエンターテインメント寄りのサービスをやってみたいなと思っていました。しかし、前職で金融分野の経験がそれなりにあったということもあり、入社承諾後に熱
あるWeb系エンジニアの転職活動 - やんばるテック
- 75 users
- blog.shonansurvivors.com
- テクノロジー
- 2022/05/01
はじめに 3月ごろまで転職活動をしており、この5月から新しい会社で働くことになりました。本エントリはその転職活動の振り返りです。目次はじめに目次数字での振り返り転職活動開始のきっかけ過去の振り返りから自分のこれからを考える今回の転職の軸を決める選考とその結果転職先とその理由終わりに数字での振り返り今回の転職活動の具体的内容に触れる前に、先に数字で結果をお知らせすると以下のようになりました。項目数利用した転職サイト数 4 転職サイトで受信したスカウトメール数 80通程度カジュアル面談を受けた社数 16社選考へ進んだ社数 3社内定 3社転職活動開始のきっかけもともと過去何回か転職活動を経験しており、その際に利用した各転職サイトは登録済みのまま放置していました。ある時、TwitterのDMで他社のエンジニア(SRE)の方から「転職の予定は無くても構わない
たった2ヶ月半でSLOを導入して事業判断に影響を与えた話 - Adwaysエンジニアブログ
- 75 users
- blog.engineer.adways.net
- テクノロジー
- 2022/01/14
こんにちは、広告サービスを担当している飛田です。今回は "SLO導入で悩んでいる方" に向けて、弊社リワード広告サービスでのSLO策定の取り組みについてお話したいと思います。そもそもSLOを策定するに至った経緯は二つあります。ユーザへの影響度合いが分かりづらいパフォーマンス問題などの対応が後回しにされがちで、品質改善がなかなか進まないアラート通知があってもユーザに影響があるか即座に判断できず、静観や一部アラートを無視する状況もあり、モニタリングが形骸化しつつある両方とも共通してユーザに与える影響を正しく把握できていないことが課題のようです。そこでSLOを策定する過程でオブザーバビリティを高め、モニタリングの最適化とエラーバジェット運用で開発リソース配分の状況改善を図りました。一挙両得作戦です。細かな取り組みは順を追って紹介します。プロジェクト初期ワークメトリクスからSL
"Enterprise Roadmap to SRE"の日本語訳が出ました - YAMAGUCHI::weblog
- 75 users
- ymotongpoo.hatenablog.com
- テクノロジー
- 2023/01/26
はじめにこんにちは、Google CloudでオブザーバビリティとSREの担当をしているものです。今日は去年仕事でやってたものがようやっと表にでたのでその紹介をします。「SREエンタープライズロードマップ」がでました Enterprise Roadmap to SREの日本語訳が公開されました。本レポートはSREに関して、その技術的立ち位置、導入する理由、必要なプロセス、文化、事例など、幅広く大局観を与えるコンパクトなレポートとなっています。ぜひご一読ください。#SRE #DevOps #GoogleCloudhttps://t.co/Lo1yY40CF4— Google Site Reliability Engineering (@googlesre) 2023年1月25日「SREエンタープライズロードマップ」はかねてより "Enterprise Roadmap to SRE" と
- SRE
- 本
- book
- google
- あとで読む
- 監視
- DevOps
AIOps研究録―SREのための システム障害の自動原因診断 / SRE NEXT 2022
- 74 users
- speakerdeck.com/yuukit
- テクノロジー
- 2022/05/15
SRE NEXT 2022講演。 https://sre-next.dev/2022/schedule/#jp37
- SRE
- あとで読む
- ai
よりよい開発体験を求めて─ OSSと本業であるインフラエンジニアの二軸を生かし、自らの力で組織の開発力を向上させる - Findy Engineer Lab
- 74 users
- findy-code.io
- テクノロジー
- 2021/01/20
ファッション通販サイト「ZOZOTOWN」の開発・運用を担うZOZOテクノロジーズでは、2004年の設立から使われ続けてきたモノリスなアプリケーションをマイクロサービス化するとともに、オンプレミスからマルチクラウドへと大きなシステムのリプレースを進めています。その中心でMLOpsやSREといった基盤の構築を担う瀬尾直利（@sonots、そのっつ）さんは、インフラエンジニアとして事業にコミットしているだけでなく、CRubyやFluentd、Chainerといったさまざまなオープンソースソフトウェア（OSS）のコミッターという顔も持っています。一貫して「開発体験の良さ」を追い求めてきた瀬尾さんの中で、プロジェクトの課題を解決する業務と、OSSコミュニティにおけるプライベートの活動はどのようにシンクロしているのでしょうか。キャリアの軌跡を振り返りながら、2つの軸を生かしたソフトウェアエンジニ
- engineer
- あとで読む
- ZOZO
- career
- OSS
- エンジニア
- 開発
開発者とSREの役割、責任/SRE Lounge 13 LT
- 73 users
- speakerdeck.com/isaoshimizu
- テクノロジー
- 2021/11/19
SRE Lounge #13 LT 2021.11.19
ようこそ、Kubernetes沼へ。商用サービスSREの現場から | IIJ Engineers Blog
- 73 users
- eng-blog.iij.ad.jp
- テクノロジー
- 2021/03/08
社会人生活の半分をフリーランス、半分をIIJで過ごすエンジニア。元々はアプリケーション屋だったはずが、クラウドと出会ったばかりに半身をインフラ屋に売り渡す羽目に。現在はコンテナ技術に傾倒中だが語りだすと長いので割愛。タグをつけるならコンテナ、クラウド、ロードバイク、うどん。筆者がIIJでパブリッククラウドビジネスを率いていた2010〜2015年頃、今後のITインフラはしばらくIaaSを中心に回っていくのだと考えていたものですが、Docker, Kubernetesという爆弾が投下されました。10年、20年は続くと思われたIaaSの時代がまさか早々に色あせて見えるとは。相変わらずIT業界にも思いもよらないことが突然起こるものです。これだからIT業界はおもしろい。本連載は、現在IIJでSREを率いている筆者がどのようにしてSREチームを立ち上げ、Kubernetes沼へ飛び込み、悪戦苦闘し
- kubernetes
- k8s
- docker
- iij
- SRE
- コンテナ
- あとで読む
- サービス
Site Reliability を向上するためにやったことすべて
- 73 users
- speakerdeck.com/takutakahashi
- テクノロジー
- 2020/05/15
ペパボ・はてな技術大会で発表した内容になります
- SRE
- あとで読む
- 最適化
- 信頼性
- slide
- speakerdeck
- パフォーマンス
- 開発
- IT
SRE連載が始まります！ - KAYAC engineers' blog
- 73 users
- techblog.kayac.com
- テクノロジー
- 2023/01/31
あけましておめでとうございます。SREチーム(新卒)の市川恭佑です。カヤック技術ブログでは本記事が2023年初エントリですが、Happy Lunar New Year!の方が違和感のない時期になってしまいました。本年、新たにカヤックSRE連載と題した企画を始めるので、概要についてご報告します。連載企画を始める経緯カヤックの技術ブログといえば毎年恒例のアドベントカレンダー企画が人気ですが、これは12月限定のため、それ以外の時期にブログの更新が激減する傾向がありました。ブログ過疎化の対策として、カヤックでは去年からSREチームで毎月1本のペースでブログ記事を出していました。実のところ、内部的にはこれを「SRE連載」と読んでいました。「とりあえずやってみよう」というノリで始まった連載でしたが、結果的には「12月を除くすべての期間において記事を出す」という実績を作れたので、本年は正式
自動生成を活用した、運用保守コストを抑える Error/Alert/Runbook の一元集約管理 / Centralized management of Error/Alert/Runbook to minimize operational costs using automated code generation
- 72 users
- speakerdeck.com/biwashi
- テクノロジー
- 2024/04/16
DevOpsDays TOKYO 2024 の登壇資料です。 https://confengine.com/conferences/devopsdays-tokyo-2024/proposal/19703/erroralertrunbook-centralized-management-of-erroralertrunbook-to-minimize-operational-costs-using-automated-code-generation
2019 年に SRE をしながら考えが変わったこと - 無印吉澤
- 72 users
- muziyoshiz.hatenablog.com
- テクノロジー
- 2019/12/31
今回の記事は年末スペシャルです。僕が SRE をしながらやってきた取り組みについては、今年も会社のテックブログに色々書かせてもらいました（職場の理解のおかげです。いつも感謝してます）。ただ、それぞれのブログ記事の間を埋めるストーリーというか、その背景にあることについてはなかなか書く機会がありませんでした。なので、今回はそれらの記事を引っ張りながら、今年 SRE をしながら考えていたことをつらつらと書いていこうと思います。この1年で考えが大きく変わったこと SRE のあるべき組織体制について、1年前はこう考えていました。複数の開発チームをまたぐ形で SRE をマトリックス的に配置して、SRE はアプリの開発状況を細かく把握しながら監視・運用すべきただ、この1年で考えが変わり、いまはこう考えています。 SRE をマトリックス的に配置するのは、確かに、開発速度を一時的に上げるのには効果
入門EOL対応
- 72 users
- speakerdeck.com/ryuichi1208
- テクノロジー
- 2024/02/10
入門EOL対応 ~SREが鉄板の流れ全部見せます編~ https://fortee.jp/yapc-hiroshima-2024/proposal/8b778ed2-df11-4bee-a4b7-81e2b85b51c4 ソフトウェアは進化する一方で、全てのバージョンをサポートし保守し続けるのはリソースを効果的に割り当てる観点から現実的ではありません。セキュリティリスクや管理コストを考慮し、サポート終了期間を設けるEOLを用いた運用が一般的に採用されています。サービスを運営する中で、EOLに対して時間に余裕を持って対応できればよいですが機能開発が優先されることでリソース不足となってしまうなどでソフトウェアのEOL対応に対して後手に回ってしまうという課題がありました。このセッションでは、GMOペパボのSREがソフトウェアのEOL対応をベースとした、ソフトウェアをただアップデートするだけ
- EOL
- sre
- devops
- あとで読む
- システム
- Migration
「ダブルチェックを頑張る」でごまかさない、スクウェア・エニックスのサーバ設定漏れ防止策
- 72 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2023/11/09
「ダブルチェックを頑張る」でごまかさない、スクウェア・エニックスのサーバ設定漏れ防止策：たくさんのサーバを一気に構築できる“自律構築の仕組み”とは（1/3 ページ）スクウェア・エニックスは膨大な数のゲームを提供している。当然、それらを支えるインフラも大量で、運用管理にかかる手間も大きい。「Cloud Operator Days Tokyo 2023」のセミナーを基に、大量サーバの最適な管理法を紹介する。変化の激しい現在のビジネス環境において、アプリケーションやサービスもその変化に素早く対応する必要がある。もちろん、それを支えるインフラについても同様だ。クラウドサービスやIaC（Infrastructure as Code）などを活用し、効率的にインフラを管理している企業も多いだろう。ただ、ある意味でインフラは生き物だ。作った当初は問題なくても、管理する対象が増えたり、長期間運用してい
「オンコール対応するエンジニアの睡眠時間を確保せよ」　GMOペパボSREチームの6つの取り組み
- 72 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2022/07/21
サービスの信頼性を守るため、オンコール対応は重要な仕事だ。だが、夜中に何度も呼び出されるような状況ではエンジニアの肉体的、精神的な疲労は計り知れない。Cloud Operator Days Tokyo 2022のセッション「信頼性を落とさず効果的にオンコールを減らす取り組みを目指してエンジニアの睡眠時間を守ろう」では、こうしたオンコール対応におけるエンジニアへの負担を軽減させる取り組みを紹介した。「常に何らかのアラート情報が流れている」 GMOペパボの渡部龍一氏（技術部プラットフォームグループ）の役割は、GMOペパボの各種サービスの可用性を確保しビジネスの成長に合わせて適切な環境を提供することだ。そのためのさまざまな業務をこなす中で、オンコール対応は悩みの種になっていた。「私のチームで対応するサービスだけでも100を超えており、平均すると2、3日に1回のペースで何らかのアラートが発生
技術的負債と向き合う取り組みでよかったもの / positive_efforts_to_tackle_technical_debt
- 71 users
- speakerdeck.com/ytake
- テクノロジー
- 2023/10/18
こんなことをやって改善していっているよ、という話
ポストモーテムの基礎知識と最新事例 / Fundamentals of Postmortem
- 71 users
- speakerdeck.com/isaoshimizu
- テクノロジー
- 2023/10/20
2023/10/20 ゆるSRE勉強会 #2 https://yuru-sre.connpass.com/event/293783/
GMOペパボのインフラ担当が感じた“Kubernetes”化の不安　“GitOps”でアプリケーション稼働は快適になる
- 71 users
- logmi.jp
- テクノロジー
- 2021/05/31
GMOペパボが主催の「Pepabo Tech Conference #14」では、GMOペパボのプラットフォームテクノロジーをテーマに、技術基盤チーム・データ基盤チーム・プラットフォームグループ（SRE）・セキュリティ対策室のメンバーが登壇し、各チームの取り組みについて発表しました。菅原氏は、「カラーミーショップ」へのKubernetes導入について話しました。 SREを取り入れて事業成果の最大化に貢献する菅原千晶氏：「SREが取り組むカラーミーショップへのk8s（Kubernetes）導入」というタイトルで発表します。まず自己紹介です。菅原千晶といいます。社内では「アキちゃん」というあだ名で呼ばれています。現在は技術部プラットフォームグループに所属しています。新卒で入社したシステム運用系の会社を経て、2018年3月からペパボカレッジ（未経験者向けの研修付きの採用）の6期生として中途入
野良社内ツールと開発生産性、プラットフォーム・エンジニアリング - Runner in the High
- 71 users
- izumisy.work
- テクノロジー
- 2024/01/03
よくある野良の社内ツールは、開発生産性を向上させるための手段としてスポットで生まれることが多い。たとえば、定期的に依頼されて手作業でキックしているバッチ処理を誰かがAPI化したり、それがCLIで実行できるようになったり、あるいは不特定多数の人々が手でやっている作業が有志で自動化されツールになるなど。そして社内の口コミや告知で伝搬され、使われていく。出来の良い社内ツールは、野良だとしても開発チームが普段の開発プロセスのなかで意識したくない複雑性や実装の詳細をうまく抽象化し、認知負荷を下げる役割を果たしている。見方を変えれば、社内ツールはチーム・トポロジー*1でいうところのX-as-a-serviceインタラクション・モードの具象化のひとつだと言える。開発チームと社内ツールを開発する人間を社内ツールがインターフェイスとなって接続している。広い目線で見ると、これはプラットフォーム・エンジニア
Amazon ECSのタスクを常に新鮮に保つ仕組みをStep Functionsで - KAYAC engineers' blog
- 71 users
- techblog.kayac.com
- テクノロジー
- 2023/03/30
SREチームの藤原です。今回はAmazon ECSのサービス内のタスクを定期的に再起動することで、日々のメンテナンスコストを削減する話です。SRE連載 3月号になります。 3行でまとめ ECS Fargateのタスクは時々再起動が必要人間が対応するのは面倒 Step Functionsを定期実行して常に新鮮なタスクに入れ換えて予防しよう ECS Fargateのタスクは時々再起動する必要がある ECS Fargateでサービスを運用していると、数ヶ月に一度ほどの頻度でこのようなお知らせがやってきます。 [要対応] サービス更新のお知らせ - AWS Fargate で実行されている Amazon ECS サービスの更新が必要です [Action Required] Service Update Notification - Your Amazon ECS Service Running
- ECS
- aws
- タスク
- sre
- あとで読む
SREがカバー株式会社に入社して3ヶ月でおこなったこと｜カバー株式会社　公式note
- 70 users
- note.cover-corp.com
- テクノロジー
- 2023/08/31
こんやっぴー👾 カバー株式会社技術開発本部のSです。カバー株式会社では組織横断的にSRE(Site Reliability Engineering)やサーバーサイドのエンジニアをしています。 2023年5月に入社し3ヶ月ほどホロプラスのパフォーマンスチューニングや開発環境の整備をしてきましたので、今回はそちらについてご説明します。ホロプラスとは？ホロプラスは「推しをもっと好きになる！」がコンセプトの、ホロライブプロダクション公式アプリです。先日8月29日に正式リリースされました。主に、以下の二つの体験を提供します。ホロライブプロダクションの最新情報が公式アプリならではの機能で手軽に逃さずチェックできる共感でつながるファンコミュニティで投稿やいいねを通じたコミュニケーションが楽しめる ※画面は開発中のイメージですホロプラスのシステム構成ホロプラスは図のようなシンプルな構成でGo言語
- SRE
- あとで読む
- Aurora
- ECS
- 監視
- aws
- 開発
- web
SREってなんだ？哲学と習慣、そしてツール。
- 70 users
- newrelic.com
- テクノロジー
- 2019/12/16
1.SREの哲学と原則 SREは”DevOpsを純粋な形にしたもの”なのか SRE担当VPとして、Matthew FlamingはNew RelicのSREプラクティスを監督しています。SREはおそらく”DevOpsの原則を単一の役割に最も純粋に蒸留したものだ”と彼は考えています。昨年の FutureStack New YorkでGoogleのSREであるLiz Fong-Jones氏はこの考えを広げました。Googleのソフトウェアエンジニアは、運用システムのコードと信頼性に常に責任を負っていますが”SREはさまざまなシステムがどのように連携するか、どのように機能するか、そしてどのように改善されるべきかについて、専門的な理解を深めることに責任がある”と彼女は言いました。SREはソフトウェアエンジニアリングのタスクを引き受ける可能性がありますが、エンジニアリングチームが提供するサービスの
- SRE
- New Relic
- あとで読む
- 運用
- エンジニア
- 組織
- ツール
SRE Doesn’t Scale
- 70 users
- bravenewgeek.com
- テクノロジー
- 2021/10/07
We encounter a lot of organizations talking about or attempting to implement SRE as part of our consulting at Real Kinetic. We’ve even discussed and debated ourselves, ad nauseam, how we can apply it at our own product company, Witful. There’s a brief, unassuming section in the SRE book tucked away towards the tail end of chapter 32, “The Evolving SRE Engagement Model.” Between the SLIs and SLOs,
- SRE
- microservices
- あとで読む
- dev
- book
Professional Cloud DevOps Engineer は SRE を目指すエンジニアにお勧めしたい資格でした | DevelopersIO
- 69 users
- dev.classmethod.jp
- テクノロジー
- 2021/07/06
本記事は 2021/07/06 時点の情報になります。そのため時期によって異なる情報になる可能性があります。ご留意の上、お読みください。はじめにこんにちは、 CX事業本部 MAD事業部の田中孝明です。つい先日、 Google Cloud 認定資格の Professional Cloud DevOps Engineer を苦労の末合格しました。試験の内容に関しては NDA になるため記載することはできませが、勉強した内容をお伝えすることで、挑戦する方の励みになるような記事になればと思い公開いたします。 Professional Cloud DevOps Engineer について Professional Cloud DevOps Engineer は Google Cloud 認定資格のプロフェッショナル資格に該当する資格です。一度不合格になりましたが、二度目の挑戦で合
- gcp
- DevOps
- あとで読む
- SRE
- 資格
- cloud
- クラウド
- エンジニア
SREチームに入ってからの2年間にチームでやってきたこと - クラウドワークスエンジニアブログ
- 69 users
- engineer.crowdworks.jp
- テクノロジー
- 2020/12/06
この記事はクラウドワークスアドベントカレンダー6日目の記事です。前日の記事は@bugfireのgithub-script は便利でした。GitHub Actionsでのちょっとした作業が捗りますね！ SREチームの@kangaechuです。気がつくと入社から2年が経ちました。2年前のAdvent CalendarではぴよぴよSREという記事を書くくらい何もわかっていませんでしたが、ようやく自分なりに動けるようになってきました。この記事ではcrowdworks.jpのSREチームで、この2年間でどのようなことをやっていたのかを振り返ります。 SREチームの範囲は幅広く、いろいろなことをやっていました。今回はDocker化とTerraformの2つの取り組みについてご紹介します。なんで1年じゃなく2年かって？去年はaws-vault についてのあれこれを書いたからだよ。 Docke
分散アプリケーションの信頼性観測技術に関する研究 / A study of SRE
- 68 users
- speakerdeck.com/yuukit
- テクノロジー
- 2020/01/25
SRE NEXT 2020 IN TOKYO https://sre-next.dev/
- SRE
- あとで読む
- distributed
- 監視
- 研究
- development
- 技術
2023年のSREチームのAWSコスト削減を振り返る - Uzabase for Engineers
- 68 users
- tech.uzabase.com
- テクノロジー
- 2023/12/08
概要全般何はともあれコストタグ Cost Explorer でリソース別にコストを見よう IaC化しよう QuickSight も使おう稼働時間対応する際はマスタカレンダを用意したいコンピューティング、コンテナ関連 EC2 定時バッチはマネージド化しよう EBS, Snapshot, AMI, EIP を消す ECS Container Insights の有効/無効を使い分けよう何でも Fargate を選択すれば良いわけではない Fargate スポットを活用しよう Lambda Graviton対応しよう ECR イメージサイズを抑えようライフサイクルポリシーを設定しようネットワーキング VPC VPCエンドポイント入れ忘れに注意 VPC Flow Logs のS3バケット設定に注意しようストレージ系 RDS スロークエリ出てないかAPMを使って確認 DynamoDB
Waypointとは何か
- 68 users
- deeeet.com
- テクノロジー
- 2020/10/16
Hashicorpの2020年冬の新作 Waypoint (リリースブログ)に関してドキュメントなどをざっと眺めてみたので最初の印象をちょっと書いてみる．ちゃんとしたレビューは @copyconstruct の記事 Waypoint とか読むのが良い．毎度のことながらドキュメントやガイドはかなりちゃんとしたのがあるので使い方とかはそっちを読んだ方がいい．以下に書くのはざっくりした個人の感想（ちなみにもう一つのBoundaryに関してはZero Touch Productionとは何かに軽く書いた）． What is Waypoint Waypointは，KubernetesやNomad，Amazon ECS，Google Cloud RunといったPlatformの上にBuild，DeployとReleaseの一貫したWorkflowを実現するツール．使ってる言語やそのパッケージ方法や，
OpenSLOについて | フューチャー技術ブログ
- 68 users
- future-architect.github.io
- テクノロジー
- 2022/05/18
はじめにはじめまして、原木と申します。皆さまはSRE NEXTをご覧になりましたでしょうか？ SRE NEXTは　先日実施された『信頼性に関するプラクティスに深い関心を持つエンジニアのためのカンファレンス』です。国内外のエンジニアが日々SRE(サイト信頼性エンジニアリング/Site Reliability Engineering)の実践手法を共有することで、Webサービスが今後運用、成長していくための次世代の信頼性を担おうとしています。もしもWebサービスの運用を安定的に行う手法やそのためのチームビルディングに興味がある場合、SRE NEXTの動画セッションやスライドが公開されると思うのでご覧ください1。さて本ブログではそんなSREとも関係の深い、OpenSLOに関して取り上げたいと思います。 OpenSLOとは最近、SLOモニタリングという言葉が注目を集めつつあります。例えば、Go
- SLO
- SRE
- あとで読む
- development