[B! SRE] akaimo3のブックマーク

SLO Docsのすゝめ

技術部プラットフォームグループ 2021年中途入社 2 自己紹介渡部龍一 Watanabe Ryuichi • SNS: @ryuichi_1208 • GMOペパボでSRE • 好きなこと: EOL対応、障害対応

akaimo3 2024/06/10

SRE
SLO

リンク

この記事は検索エンジンプロダクトを一緒に開発してた同窓会のカレンダーの24日目の記事です。この記事の想定読者夜中にメモリ使用率超過のアラートを受け取ってるけど、特に何もする必要がない人アラートの通知内容だけではよく分からないので、監視ツールの画面や本番環境の状態を目視で確認して影響確認してる人この記事で想定していない読者 MSP事業者のようなITインフラの監視・安定化、それ自体を目的とされている方労働の疎外まずはカール・マルクスの話をしましょう。マルクスの理論における「労働の疎外」には主に次の四つの側面があります製品の疎外: 労働者は自分が生産する製品との関係を失います。彼らは自分の労働で作り出した物を所有せず、それが単なる商品として扱われます。生産活動の疎外: 労働者は自分の労働過程との関係を失います。単調な作業により創造性が抑制され、仕事に対する個人的な充足感が欠けま

akaimo3 2024/01/09

リンク

技術の洪水に立ち向かう: 開発者の心を軽くするプラットフォームエンジニアリングの話

Findy主催のイベント「なぜ話題？Platform Engineering最前線〜いま注目を浴びている理由とは〜」 https://findy.connpass.com/event/298961/ でお話しした資料です

akaimo3 2023/11/07

リンク

Slab キャッシュの使用量が増加した原因を SystemTap で調査した [DeNA インフラ SRE] | BLOG - DeNA Engineering

2022.07.28 技術記事 Slab キャッシュの使用量が増加した原因を SystemTap で調査した [DeNA インフラ SRE] by Hidetaka Masuda #infrastructure #sre #troubleshooting #stateless-server #iaas #game-infrastructure #infra-quality IT 基盤部の増田です。新卒2年目で業務では主にモバゲーや社内向け SaaS のインフラ運用を行っています。本記事ではサーバーのメモリ使用量増加の原因を SystemTap で調査したときの話を紹介します。この記事を通して、手掛かりを元に少しずつ核心に近づいていく、謎解きゲームのような楽しさを感じていただければと思います。問題発生調査を開始したきっかけは、サーバーのメモリ使用量増加のアラートが頻繁に鳴るようになっ

akaimo3 2022/08/16

リンク

メルペイのシステム運用とPlaybookの共通管理への挑戦 | メルカリエンジニアリング

こんにちは、メルペイでSREとして従事している @myoshida です。この記事は Merpay Tech Openness Month 2021 の8日目の記事です。 SREチームはお客さまへよりよいサービス利用体験を提供するため、日々様々な改善活動に取り組んでいます。その活動の一環としてPlaybookの概念を導入し、運用者の運用負担を減らす取り組みを始めました。今回はそのことについて説明してみたいと思います。概要メルペイではアプリケーションエンジニアとSREの双方がオンコール制度のもと運用に携わっています。運用の悩みは様々ですが、そのうちの1つに手順書の取り扱いがあります。どこに置くべきか、更新はされているのか、何を書けばいいのか、どの場面でどの手順書を利用すればよいのかというような悩みはどこの現場でも少なからず存在すると思います。そこで、Playbookと呼ばれる体系的

akaimo3 2021/09/13

SRE

リンク

「マンガが快適に読める」を数値化し、SLOをマンガビューワに導入するまで - Hatena Developer Blog

マンガビューワにおけるサービスレベルとはなぜSLOを策定したかったのかサービスレベルを単純に決める何をサービスレベル指標としてどう計測するか一般的なSLIの表現期間を移動しながら集計するアクセスログからサーバーのSLIを計測する PageSpeed Insights APIでフロントエンドを計測プロダクトオーナーとともにSLOを決定する決定したSLO どのように監視するかまとめ株式会社はてなのマンガチームでSREをしているhappy_siroです。私がチームで担当しているサービスは、いくつかのWebマンガサイトで採用されている「GigaViewer」というマンガビューワです。 GigaViewerチームでは、サービスのSLOを策定しました。理由は、SLOに基づいて開発速度と信頼性のバランスをとるためです。この記事では、私がチームメンバーと協力して「GigaView

akaimo3 2020/11/19

SRE
SLO

リンク

SLO策定とアラート設定までの長い道のり - Cybozu Inside Out | サイボウズエンジニアのブログ

こんにちは、@ueokandeです。早速ですが、皆さんが運用しているサービスには、SLO (Service-level objective: サービスレベル目標) がありますか？アラートの監視項目はどのように設定して、基準値をどのように決めていますか？社外とのコミュニケーションだけでなく、社内向けのSLOを決めておくことで、サービスの健康状態を知るための手がかりや、普段の開発・運用タスクの優先度を決める上での指標にもなります。またSLOがあると、サービスを監視するアラートに、理にかなった閾値を設定できます。この記事ではAWS版kintoneの、SLOとアラートを設定するまでの記録について紹介します。 cybozu.com版kintoneのSLOとアラート国内のcybozu.comで運用しているkintoneにも、もちろんSLOやアラートはあります。しかし現状のSLOはkinton

akaimo3 2020/11/19

SRE
監視

リンク

【読書メモ】モニタリングでの4大シグナル/USEメソッド/REDメソッド - febc技術メモ

最近、監視やモニタリング熱が自分の中で高まってきてます。その一環で先月"Prometheus Up & Running"を購入しました。 Prometheus: Up & Running: Infrastructure and Application Performance Monitoring 作者: Brian Brazil出版社/メーカー: O'Reilly Media発売日: 2018/07/28メディア: ペーパーバックこの商品を含むブログを見る少し前にようやく届いたので読んでいってます。今回は読書のメモとして調べたサイトなどを残しておきます。 Prometheus Up & Runningに出てくるUSEメソッド/REDメソッドとりあえずPrometheus Up & Runningのchapter3まで読みました。 chapter3ではREDメソッドとUSEメソッドと

akaimo3 2020/05/18

リンク

New Relic流、オンコールとインシデント対応の成功への道

成功者がどのようにNew Relicを使用してKubernetesのパフォーマンスを4倍に向上させ、拡張性とスループットを改善したかをご覧ください。

akaimo3 2020/04/09

devops
SRE

リンク

エンジニアなら知っておきたい障害報告&再発防止策の考え方 - Qiita

システムには障害がつきものです。どんなにしっかりと作られたサービスであっても思わぬところで、バグやミスが発覚して、トラブルになるものです。大事なのはこういった障害を次への糧にしていくこと。失敗というのは大事な資産なので、管理できるようにしましょうという話。あわせて読みたいあきらめるにはまだ早い！ソースコードの品質向上に効果的なアプローチメンタリングの方法について基礎をまとめました。内心でなく行動を変えることが障害報告とも共通します。新入社員が来てメンターになれって言われたけど、どうすればいいのかという対話テクニック半年で40kg痩せた！ダイエットでわかるリーンなプロジェクトマネジメント手法心理的安全性ガイドライン（あるいは権威勾配に関する一考察）障害の種類と障害報告について障害には、小さなもの、たとえば画面に表示されているテキストの乱れから、すべての画面で50xエラーが発生

akaimo3 2020/01/09

SRE

リンク

SRE チームの評価に役立つレベル別チェックリスト | Google Cloud 公式ブログ

※この投稿は米国時間 2019 年 1 月 26 日に Google Cloud blog に投稿されたものの抄訳です。このたび、『The Site Reliability Workbook』がウェブサイトで閲覧できるようになりました。Google で生まれ、他の企業にも広まりつつある Site Reliability Engineering（SRE）は、運用上の問題をソフトウェア的に解決するためのエンジニアリングであり、Google におけるエンジニアリングの本質的な部分を占めています。 SRE は考え方であり、一連のプラクティスやメトリクスであり、システムの信頼性を保証するための処方箋でもあります。SRE モデルを構築すれば、サービスの信頼性が向上し、運用コストが下がり、人間が行う作業の価値が高くなって、サービスとチームの双方で大きなメリットが得られます。上述の新しいワークブックは、

akaimo3 2019/02/22

SRE

リンク

2019年SRE考 - ゆううきブログ

この記事では、自分が数年Site Reliability Engineering (SRE)を実践しつつ、SREについて考えてきたことをまとめる。先月開催されたMackerel Drink Up #8 Tokyoと先日開催された次世代Webカンファレンス 2019では、SREについて集中的に議論する機会に恵まれたため、脳内メモリにキャッシュされているうちに、SREに関する私的な論考をまとめておく。 (以降では、SRE本の原著にならい、技術領域名を指すときはSRE、職種名を指すときにSREsと表記する。) SREとの関わりなぜSREに関心をもったのか 2015年にメルカリさんがSREチームを発足したときに、SREsの存在を知り、SREsはシステム管理者、Webオペレーションエンジニア、インフラエンジニアといった既存の職種を置き換えていくものだと理解した。当時、自分が注目したのは、SRE

akaimo3 2019/01/24

SRE

リンク

プロダクトを支えるSREの存在意義と役割 / Significance and role of SRE - Speaker Deck

2018/12/15 に開催されたDevelopers Boost での招待講演の資料です。 https://event.shoeisha.jp/devboost/20181215/session/1892/ SREの存在意義や役割について話しました。過去にもSREについては色々とお話しているので、よければあわせてご覧ください！・最高のIT エンジニアリングを支える守りと攻めの「設計技術」と「SRE」 https://speakerdeck.com/katsuhisa91/zui-gao-falseitenziniaringuwozhi-erushou-ritogong-mefalse-she-ji-ji-shu-to-sre ・SRE大全スタディスト編前半 #hbstudy 85 / SRE Taizen Studist 1 https://speakerdeck.com/kats

akaimo3 2019/01/07

SRE

リンク

主要データベースの増え続けるdisk容量の対応事例

こんにちは、SRE の @masartzです。今回は最近取り組んだ、メルカリの主要データベースの容量削減のお話をしようと思います。 TL;DR 主要データベースの容量を20%以上削減しましたどういう状況だったか？　何をしたか？メルカリでは2017年11月現在、出品数は1日100万件を超えています。なので、単純に日々多くのデータが増えていっています。そのためデータベースのスケーリングは常に検討し、取り組まなければならない課題です。今回扱ったデータベースはいくつかあるデータベースの中で商品テーブルを持つ、メルカリの主要データベースになります。増え続けるデータに対応するための、テーブル分割を変則的な形で対応したのでその過程を紹介します。前提：データベース分割方法メルカリのデータベースには会員情報や商品情報など、基本要素となるデータから、通知やお知らせメッセージなど付加的な機能