並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 3776件

新着順 人気順

SREの検索結果281 - 320 件 / 3776件

  • AWS Fargate/Fargate Spotのハイブリッド利用をCDKで実装したら料金が半額になった話 - Uzabase for Engineers

    こんにちは。NewsPicksのWeb Reader Experience Unitで学生インターンをしている西(@yukinissie)です。 昨年の 9 月までSREチームに所属しており、その頃にNewsPicksの全ての常駐バッチサーバーをAWS CDKを用いてAWS FargateとAWS Fragate Spotを併用するようにさせましましたのでコストの変化や工夫した点についてご紹介します。 AWS Fargate Spotとは? 実際どれくらいのコストを削減できたか 0. ECSコンテナ化 1. 使用量はほぼ横ばい 2. Fargate Spotの適用 3. コストが約47%削減!!! AWS CDKでAWS Fargate Spot機能を適用する際に工夫したこと 課題 解決策 FargateとFargate Spotの併用 キャパシティープロバイダー戦略を自動で決定するIaC

      AWS Fargate/Fargate Spotのハイブリッド利用をCDKで実装したら料金が半額になった話 - Uzabase for Engineers
    • サービスメッシュ必読ガイド - 第2版: 次世代のマイクロサービス開発

      2016年頃「サービスメッシュ」という用語は、マイクロサービス、クラウドコンピューティング、DevOpsの分野に登場しました。楽天的なあるチームは、2016年にこの用語を使用して彼らの製品である Linkerd を説明しました。コンピューティングの多くの概念と同様に、実際には、関連するパターンとテクノロジーの長い歴史があります。 サービスメッシュの登場は、主に IT ランドスケープの最悪の状況によるものでした。開発者は、複数言語 (ポリグロット) アプローチを使用して分散システムの構築を開始し、動的なサービスディスカバリーを必要としていました。運用は一時的なインフラストラクチャの使用を開始し、避けられない通信障害を適切に処理し、ネットワークポリシーを適用したいと考えていました。プラットフォームチームは、Kubernetes などのコンテナオーケストレーションシステムの採用を開始し、Envo

        サービスメッシュ必読ガイド - 第2版: 次世代のマイクロサービス開発
      • Terraform管理されたステージング環境・本番環境の差異を検出したくて頑張っている話 - KAYAC engineers' blog

        SREチームの橋本です。今回はステージング環境の運用でありがちな本番との差分に対処する試みを紹介します。 背景 ステージング環境について、例えばIT用語辞典では ステージング環境とは、情報システムやソフトウェアの開発の最終段階で検証用に用意される、実際の運用環境と変わらない環境のこと。 と説明しています。検証用ですから、インフラ面で言っても本番環境となるべく一致した構成であってほしいということになります。 しかし実際にはさまざまな経緯(ステージング環境を後から立てたり!)から、たとえTerraform管理していたとしても差異が発生してしまうことがあります。 こうしたとき、その差異を検出する一つの方法としてはTerraformの.tfファイルを比較することですが、これにもいろいろな書き方がありえます。 例えばaws_db_proxy_endpointはterraform-provider-a

          Terraform管理されたステージング環境・本番環境の差異を検出したくて頑張っている話 - KAYAC engineers' blog
        • [書籍レポート] 「オブザーバビリティ・エンジニアリング」はパワーワード満載の「『入門 監視』の次に読むべき本」だった | DevelopersIO

          自分の関わるアプリケーションやインフラのモニタリングに困っている? オーケイ、冒頭からアクセル全開の力強いワードにあふれたこの一冊を紹介するぜ! はじめに 今年(2023年)の1月末に発売されたこちらの本、もう読まれたという方も多いのではないでしょうか!(挨拶 本記事は、まだ読まれていない、買ってもいないという方に向けて、「紹介しなきゃ」という謎の強い使命感をもって書かれています。 というのも、実は本記事の執筆者(ぼくです)は、300ページを越えるこの本のまだ半分ほどしか読むことが出来ていません。。! *1 それでもこの本を紹介するモチベーションは十分です。なにしろ、この本は冒頭から、もっといえば「まえがき」の段階から、パワーワードにあふれた一冊だからです。引用してみましょう。 “(「オブザーバビリティ」という)用語が注目されるようになると、ある種の隣接性を共有する別の用語と互換的に使われ

            [書籍レポート] 「オブザーバビリティ・エンジニアリング」はパワーワード満載の「『入門 監視』の次に読むべき本」だった | DevelopersIO
          • 円安でも“3大クラウド”を使い続ける企業は約47% MM総研が調査 過半数が「方針を変更する」と回答

            このまま円安が続いても、IaaS/PaaSを活用する企業は“3大クラウド”を使い続けるのか──MM総研は8月24日、こんな調査結果を発表した。現状を維持し、ドル建てのAWS/Azure/GCPを使い続けると答えた企業は全体の46.5%。残る53.5%は「利用方針を変更する」と答えた。 「利用方針を変更する」と答えた企業に、具体的にどんな方針に変更するか複数回答で聞いたところ、最も多いのは「新規のシステム開発に限り3大クラウドを使う」「収益化できるシステム開発に限り3大クラウドを使う」(いずれも32.7%)だった。 以降は3番目が「国内ベンダーのIaaS・PaaSの利用を推進する」(28.3%)、4番目は「3大クラウドのうち、より条件が良いサービスに乗り換える」(27.8%)、5番目は「海外で使うシステムに限り3大クラウドを使う」(23.4%)だった。 他には「国内ベンダーのIaaS・Paa

              円安でも“3大クラウド”を使い続ける企業は約47% MM総研が調査 過半数が「方針を変更する」と回答
            • Aurora MySQLをMySQL8.0へ移行した話 - inSmartBank

              こんにちは!SREを担当してます上平と申します。 このエントリーではAurora MySQL5.7互換からMySQL8.0互換への移行を実施した際の流れや学びに関して紹介したいと思います! B/43 では Aurora MySQL5.7系をサービスリリースから使っており、Aurora MySQL バージョン2のサポート終了日(2024/10/31)が近づいているのもあったので、移行することにしました。 Amazon Aurora バージョン - Amazon Aurora これからAurora MySQL8.0へ移行を検討されている方の参考になれば幸いです。 想定される読者 Aurora MySQL 5.7系を使っていて、アップグレードを検討している方 実際の Aurora MySQL 8.0 への移行手順を知りたい方 AWS インフラに興味がある方 前提 Aurora MySQL5.7互

                Aurora MySQLをMySQL8.0へ移行した話 - inSmartBank
              • SLI、SLO、エラーバジェット導入の前に知っておきたいこと | sreake.com | 株式会社スリーシェイク

                1. はじめに こんにちは、「信頼性は可用性ではない」を標語にしているnwiizoです。 近年、サービスの信頼性向上に向けた取り組みとして、SLI(Service Level Indicator)、SLO(Service Level Objective)、エラーバジェットという概念が注目を集めています。これらは、Google発祥のSRE(Site Reliability Engineering)プラクティスの中核をなす考え方であり、多くの組織がこのアプローチを採用し始めています。また、関連するツールも成熟し始めており、実践的な導入がより容易になってきています。 本ガイドでは、SLI、SLO、エラーバジェットを導入する前に知っておくべき重要なポイントについて詳細に解説します。各概念の定義から実践的な導入ステップ、さらには組織文化の変革まで、包括的な情報を提供します。 2. SREにおける基本

                  SLI、SLO、エラーバジェット導入の前に知っておきたいこと | sreake.com | 株式会社スリーシェイク
                • サーバサイド開発にKotlinを全面採用! ビヘイビア駆動開発(BDD)をマイクロサービスに導入するNewsPicksが求める開発者体験は? - はてなニュース

                  ソーシャル経済メディアNewsPicksを開発・運営する株式会社ニューズピックスは2021年9月、これまでサーバサイドの主要な開発言語としてきたJavaに代えて、Kotlinをメインに採用する方針を明らかにしました。 ▶ NewsPicksのサーバーサイド言語をJavaからKotlinに切り替えるために - Uzabase Tech Androidアプリだけでなくサーバサイドも「Kotlinで開発できるようにする」というこの宣言の背景には、数年間にわたってマイクロサービスを中心にKotlinを採用してきた実績と知見の蓄積があるだけでなく、そういった現場からの挑戦をよしとするNewsPicksのエンジニア風土も大いに追い風となっています。 この挑戦をどのように進めようとしているのか? 開発者体験(DX)をどのように高めようとしているのか? NewsPicksのCTOを務める高山温さん(上写真

                    サーバサイド開発にKotlinを全面採用! ビヘイビア駆動開発(BDD)をマイクロサービスに導入するNewsPicksが求める開発者体験は? - はてなニュース
                  • k8sの各種CDツールを比較する - pospomeのプログラミング日記

                    k8s のCDツールがいくつかあるので、それらの特徴についてまとめる。 一応CDツールの定義は"k8sにWebアプリケーションをデプロイするツール"を想定しているが、 k8sにおけるデプロイはマニフェストファイルを apply することなので、 そういったものはすべてCDツールとみなして調べた。 すべてのツールをちゃんと調べたわけではないので、ものによってはサラッとした紹介になっている。 Flux Tekton(Tekton Pipeline) Jenkins-X PipeCD GCP Cloud Deploy AWS Code Pipeline Spinnaker Pipeline & Stage 動的なパイプライン Managed Delivery Spinnaker を使いこなせるか? ArgoCD Single Source of Truth(SSOT) 複雑なCDパイプラインは作

                      k8sの各種CDツールを比較する - pospomeのプログラミング日記
                    • 今日から分散トレーシングに対応しないといけなくなった人のための opentelemetry-go 入門 - Cybozu Inside Out | サイボウズエンジニアのブログ

                      こんにちは。SRE/データストアチーム の飯塚です。 私たちのチームではデータベースを代理で操作したり情報を取得したりするサービスをいくつか作り、それをプロダクトチームが利用できるように gRPC 経由で提供しています。ところで、ある日突然「分散トレーシングを活用していくことになったので、あなたのチームのサービスも対応させてください」とお願いされたらどうすればよいでしょうか?私はこれまでにいろいろなカンファレンスで分散トレーシングや OpenTelemetry についての講演を聞いていたので、理念は理解した、便利そうだ、導入してみたい、と思ったことは何度かありました。しかし実際に導入しようとして SDK のドキュメントを開いてみると、理解しなければいけない(ように見える)概念や、使い方をマスターしないといけない(ように見える)API の数に圧倒されてしまい、後回しにしてしまっていました。

                        今日から分散トレーシングに対応しないといけなくなった人のための opentelemetry-go 入門 - Cybozu Inside Out | サイボウズエンジニアのブログ
                      • AWSアカウント シングルサインオン構成のご紹介(電通デジタル自社開発部門 2020年上期版)|Dentsu Digital Tech Blog

                        電通デジタルでSite Reliability Engineer(SRE)をしている齋藤です。 先日(8/5)に7/22開催のAWS Black Belt Online Seminar「AWSアカウント シングルサインオンの設計と運用」の資料が公開されました。 資料中では以下の内容を説明しています。 ・AWSではアカウントに個別のIAMユーザを作成してログインする代わりに、IDプロバイダ(IdP)を使用し、シングルサインオンができること ・シングルサインオンは組織に独自のID基盤がある場合や、複数のAWSアカウントを使用している場合に有効であること ・シングルサインオンの実現の方法にはいくつかパターンがあり、運用をふまえながら何を選択するのがよいかであること 弊社の自社開発部署もAWSをマルチアカウント構成-シングルサインオンで運用しています。今回はその事例を上記資料の選定パターンチャート

                          AWSアカウント シングルサインオン構成のご紹介(電通デジタル自社開発部門 2020年上期版)|Dentsu Digital Tech Blog
                        • 超入門 SRE

                          Building Better People: How to give real-time feedback that sticks.

                            超入門 SRE
                          • DeNA ネットワーク運用監視ツールの紹介 [DeNA インフラ SRE] | BLOG - DeNA Engineering

                            はじめに こんにちは。IT基盤ネットワークグループの守屋と申します。 主に社内のネットワーク、CDN (Content Delivery Network)関連の業務を担当しています。 今までのブログではネットワークグループで採用しているサービスや、ネットワーク移行についてご紹介してきましたが、 今回は DeNA のネットワーク運用監視で使用してるツールをご紹介いたします。 AWS BYOIP を使った自社 IPv4 運用手法 DeNA での GCP ネットワーク運用 DeNA 本社移転でネットワーク構築・移行作業を実施しました DeNA のネットワークについて ネットワークは障害や品質が悪いと複数のサービスやユーザに影響を与えます。 そのため、24/365体制で、業務を円滑に進められるようなネットワークを運用監視することがネットワークグループの基本方針となります。 ただし、リソースは有限な

                              DeNA ネットワーク運用監視ツールの紹介 [DeNA インフラ SRE] | BLOG - DeNA Engineering
                            • 東証がSREによるレジリエンス向上に挑む理由。過去のシステム障害から何を学んだのか?(前編) ソフトウェア品質シンポジウム2022

                              東証がSREによるレジリエンス向上に挑む理由。過去のシステム障害から何を学んだのか?(前編) ソフトウェア品質シンポジウム2022 9月22日と23日の2日間、一般財団法人日本科学技術連盟主催のイベント「ソフトウェア品質シンポジウム2022」がオンラインで開催され、その特別講演として株式会社日本取引所グループ 専務執行役 横山隆介氏による「日本取引所グループシステム部門の取組み ~システムトラブルからの学びと今後の挑戦~」が行われました。 現在、日本取引所グループ傘下の東京証券取引所(以下、東証)は、過去に何度か大きなシステムトラブルを経験し、それを教訓として組織とシステムの改善を続けています。 そこで今回、シンポジウム企画委員会からの要望を受けて行われた特別講演で、東証がこれまでのシステム障害から何を学び、そこから何を変化あるいは進化させてきたのか。わずか2年前のNASのハードウェア障害

                                東証がSREによるレジリエンス向上に挑む理由。過去のシステム障害から何を学んだのか?(前編) ソフトウェア品質シンポジウム2022
                              • LangChain で社内チャットボット作ってみた

                                こんにちは、クラウドエース SRE ディビジョン所属の茜です。 今回は、現在最も普及している対話型 AI サービスである ChatGPT で使用されているモデルと、LLM を使ったアプリケーション開発に特化したライブラリである LangChain を用いて社内向けのチャットボットを作成します。 ターゲット 任意のデータを元に回答を行うチャットボットを作成したい方 任意のデータを元に回答させる仕組みを知りたい方 ChatGPT とは ChatGPT とは、ユーザーが入力した質問に対して、まるで人間のように自然な対話形式でAIが答えるチャットサービスです。2022 年 11 月に公開されて以来、回答精度の高さが話題となり、利用者が急増しています。 人工知能の研究開発機関「OpenAI」により開発されました。 執筆時点では、GPT-3.5、GPT-4 という大規模言語モデル (LLM) が使用さ

                                  LangChain で社内チャットボット作ってみた
                                • Mackerelでは計画メンテナンスをどう実施しているか? RedisをElastiCacheに移行した裏側をご紹介 - Hatena Developer Blog

                                  こんにちは。MackerelチームSREのid:heleeenです。 Mackerelでは、2020年10月14日に計画メンテナンスを実施しました。今回は告知ブログに記載の通り、Mackerelが利用しているRedisをAmazon ElastiCache for Redis(以下、ElastiCache)へ移行しました。 本記事では、この10月の計画停止の裏側を紹介します。 どのようにElastiCacheへ移行するか 大半のRedisを無停止で移行 最後はElastiCacheへのオンライン移行を使用 メンテナンスに向けたさまざまな準備 メンテナンス手順書のチーム内レビュー メンテンス実施中の役割分担 なぜタイムキーパーが必要になったのか リモートで停止メンテナンスを実施する方法 検証環境を利用して事前にリハーサルも実施 Redisを安全に効率よく切り替えるために 参照するRedisを

                                    Mackerelでは計画メンテナンスをどう実施しているか? RedisをElastiCacheに移行した裏側をご紹介 - Hatena Developer Blog
                                  • AWS Security HubとSlackを利用して、セキュリティ状況の監視運用を効率化したお話 - Uzabase for Engineers

                                    はじめに 初めまして!ソーシャル経済メディア「NewsPicks」SREチーム・新卒エンジニアの樋渡です。今回は「AWS Security Hub」と「Slack」を用いて、弊社で利用しているAWSリソースの監視運用を効率化したお話です。 お話の内容 年々増加するサイバー攻撃に対抗するため、セキュリティ対策は日々重要度が増してきています。 そこで弊社で利用しているAWSのリソースに対して、各種セキュリティイベントの収集ができるAWS Security Hubを利用することで、セキュリティ状態の可視化と迅速な対応がしやすい運用を行い、セキュリティ状態の現状把握から始めることにしました。特にNIST CSFの「検知」部分の運用について整備した内容となっています。 NIST Cyber Security Frameworkについて 皆さん、「NIST Cyber Security Framewo

                                      AWS Security HubとSlackを利用して、セキュリティ状況の監視運用を効率化したお話 - Uzabase for Engineers
                                    • 21社の監視・オブザーバビリティ アーキテクチャ特集 - Findy Tools

                                      デジタル時代の企業にとって、システムの安定稼働と迅速な問題解決は、競争力を維持するための重要な要素です。21社にご寄稿頂いた「Amazon CloudWatch」「Datadog」「Grafana」「New Relic」「Prometheus」「Sentry」「Splunk」の各ツールレビュー記事を参照・抜粋し、それぞれの企業がどのようにシステムの健全性を確保し、未来の課題に備えているのかをアーキテクチャを通してご紹介します。 ※ツール名・ご寄稿企業名共にアルファベット順で掲載しております Amazon CloudWatchAWS CloudWatchは、AWSのクラウドリソースとアプリケーションの監視と管理を行うためのサービスです。メトリックス、ログ、イベントなどを収集、追跡し、可視化することで、システム全体の状態を把握し、問題の早期発見と解決をサポートします。 ▼Amazon Clou

                                        21社の監視・オブザーバビリティ アーキテクチャ特集 - Findy Tools
                                      • SREエンジニアが組織改善プロジェクトを立ち上げてみた - ぐるなびをちょっと良くするエンジニアブログ

                                        こんにちは。データ・AI戦略部 SREチームの小野です。普段は部内のシステムに対し、SRE推進活動を行っています。直近では、データエンジニアと協力してデータ基盤周りの改善に取り組んでいます。 <SREの主な仕事> IaC化(Terraform/Terraform Cloud Business)の導入・推進 SLI/SLOの導入・推進 ポストモーテムの導入・推進 アプリケーションデプロイ基盤の導入・推進 ツールやAPIの設計・開発 インフラ設計・開発・運用 トイル削除・システムの自動化 データ基盤改善 一般的なSREエンジニアは、インフラ関連の業務が中心になると思います。しかし、データ・AI戦略部のSREチームは、開発を含めた幅広い仕事をします。やりたいことがあり、手をあげればそれを後押ししてくれる雰囲気の職場です。 今回は、SREエンジニアである私が、組織改善プロジェクトを立ち上げた話をお

                                          SREエンジニアが組織改善プロジェクトを立ち上げてみた - ぐるなびをちょっと良くするエンジニアブログ
                                        • 500万人が利用する「友達と遊べるたまり場アプリ パラレル」におけるデータベース基盤の継続的改善

                                          SRE NEXT 2024 の発表資料です。 https://sre-next.dev/2024/schedule/#jp041 『友達と遊べるたまり場アプリ パラレル』では、クラウドベンダーによる不定期メンテナンスや季節イベントによるアクセス急増によってデータベースが不安定になり、最終的にサー…

                                            500万人が利用する「友達と遊べるたまり場アプリ パラレル」におけるデータベース基盤の継続的改善
                                          • ステージング環境における検証用データベースの立ち上げを自動化する取り組み - KAYAC engineers' blog

                                            SREチーム(新卒)の市川恭佑です。 カヤックのサービスでは、信頼性の担保を目的として、ステージング環境を作成する方針を取っています。 ステージング環境では、検証の精度を高めるために、量・質ともに本番環境に類似したデータベースが求められる局面が頻出します。 そこで今回は、Tonamel という自社サービスにおける、検証用データベースの立ち上げを自動化する取り組みについて紹介します。 サービスの置かれていた状況と解決方針 Tonamel の実行基盤は Amazon Web Services (AWS) 上にあり、本番環境とステージング環境は別のアカウントとして、同一の AWS Organizations 組織内に構築されています。 もともと、ステージング環境では、本番環境のデータは利用せず、手作業でダミーデータを作成していました。 それゆえに、データベースに格納されているデータ量は本番環境と

                                              ステージング環境における検証用データベースの立ち上げを自動化する取り組み - KAYAC engineers' blog
                                            • Google - Site Reliability Engineering

                                              Written by: Heather Adkins, Betsy Beyer, Paul Blankinship, Ana Oprea, Piotr Lewandowski, Adam Stubblefield Can a system be considered truly reliable if it isn't fundamentally secure? Or can it be considered secure if it's unreliable? Security is crucial to the design and operation of scalable systems in production, as it plays an important part in product quality, performance, and availability. In

                                              • 「北欧、暮らしの道具店」インフラ構成の変遷、5年間の課題と取り組み|Kurashicom Tech Blog

                                                こんにちは。エンジニアの佐々木です。 先日12/6、弊社イベントにてカヤックの藤原さんを交えてクラシコムのSREについてお話をさせていただきました。 当日は96名と多くの方にお申し込みいただきありがとうございました。1時間半があっという間で、時間の関係でお話できなかったことも多々ありました。改めてではありますが、記事にて当日の内容含め話せなかったこともご紹介したいと思います。 当日のテーマは「インフラ強化に向けた具体的な取り組み」と「一人に頼らないチーム体制づくりを目指して」という2つでした。 この記事では前半の「インフラ強化に向けた具体的な取り組み」について紹介します。北欧、暮らしの道具店のインフラ構成の変遷を追いつつ、その時々の課題や実際の取組みについて説明していきます。 5年前(2017年5月頃)のインフラ構成エンジニア3人で作った月間1600万PVのECサイト 「北欧、暮らしの道具

                                                  「北欧、暮らしの道具店」インフラ構成の変遷、5年間の課題と取り組み|Kurashicom Tech Blog
                                                • 「いい感じに成長する」エンジニアのキャリアと学び方 - 2023年オススメPython本を添えて - Lean Baseball

                                                  このブログおよび, 登壇・アウトプットはゴリッゴリのエンジニア, 本職はコンサル企業のマネージャーとしてクラウドエンジニアリングのコンサルをやっている者です*1. この記事は, 当ブログの名物である, Pythonのオススメ書籍(と関連する技術書)の紹介エントリーです! ※去年の記事はこちら. 本年のエントリーでは「今最もいい感じなPython本」の紹介に加えて, キャリアごとに読むべき技術書(と学び方)の選び方 この年末に読んで欲しい技術書(Python本とそれ以外) 「エンジニアのキャリア形成的に期待値の考え方大事だよ」という話 この三本立てでご紹介できればと思います. というわけで, 本年のラインナップは以下の通りです. 要約すると キャリアレベルを考える オススメ技術書籍2023 ジュニア🔰 メンバー マネジメント ボード 結び - キャリアごとの期待値 【番外編】私の推し書籍2

                                                    「いい感じに成長する」エンジニアのキャリアと学び方 - 2023年オススメPython本を添えて - Lean Baseball
                                                  • 市場価値の高いエンジニアとは?? はむかずさん、そのっつさんが語る「エンジニア転職の本音〜意外な転職先の真相に迫る~」 - Findy Engineer Lab

                                                    2019年11月28日、エンジニアを対象としたイベント「エンジニア転職の本音 〜はむかずさん(SoftBank)そのっつさん(ZOZO)が語る〜」が開催されました。 エンジニアの求人倍率は7倍とも言われ、転職活動においては売り手市場になってきています。エンジニアの転職をサポートするFindyは、1,000名以上のユーザーにお会いし、多くの方のキャリア相談に向き合ってきました。 その中で、最近ではエンジニアの転職先として、従来のメガベンチャーやスタートアップだけではなく、外資や大手企業も当たり前のように選択肢になってきていることがわかってきました。 そこで今回は、シルバーエッグテクノロジー株式会社からソフトバンク株式会社へ転職をしたはむかずさん、株式会社ディー・エヌ・エーから株式会社ZOZOテクノロジーズへ転職をしたそのっつさんをお呼びして、パネルディスカッションを実施。「エンジニア転職の今

                                                      市場価値の高いエンジニアとは?? はむかずさん、そのっつさんが語る「エンジニア転職の本音〜意外な転職先の真相に迫る~」 - Findy Engineer Lab
                                                    • ECS インフラの変遷 - クックパッド開発者ブログ

                                                      技術部 SRE グループの鈴木 (id:eagletmt) です。 クックパッドでは Amazon ECS をオーケストレータとして Docker を利用しています。Docker 自体は2014年末から本番環境にも導入を始めていましたが当時はまだ ECS が GA になっておらず、別のしくみを作って運用していました。2015年4月に GA となった ECS の検討と準備を始め、2016年より本格導入へと至りました。クックパッドでは当初から Hako というツールを用いて ECS を利用しており、Hako の最初のコミットは2015年9月でした。 https://github.com/eagletmt/hako/commit/7f95497505ef78491f3f68e9d648204c7c9bb5e2 当時は ECS に機能が足りずに自前で工夫していた部分も多かったのですが、ECS やそ

                                                        ECS インフラの変遷 - クックパッド開発者ブログ
                                                      • SRE Magazine - 001号(2024/04/01)

                                                        巻頭言:SRE Magazineを始めました 書いた人:しょっさん( @syossan27 ) SRE Magazineの発刊についての想いなどを書いてます。 ばばさんがお勧めする「SRE入門」と「SRE入門の入門」に効く書籍や文章 書いた人:ばば/netmarkjp さん( @netmarkjp ) SRE入門に効く書籍や文章を紹介しています。 非常時の可用性をフィーチャーフラグで保つアイディア 書いた人:iwamot さん( @iwamot ) アクセス急増などの非常時でも可用性を保つ手法に「緊急レバー」があります。この記事では、緊急レバーの実装にフィーチャーフラグを用いるアイディアを提示します。 SIEMってサイトの信頼性向上に寄与するの? 書いた人:Yuta Kawasaki(ゆーた)さん( @yuta_k0911 ) SIEM on Amazon OpenSearch Servi

                                                          SRE Magazine - 001号(2024/04/01)
                                                        • 【エンジニアの日常】エンジニア達の人生を変えた一冊 Part2 - Findy Tech Blog

                                                          【エンジニアの日常】エンジニア達の人生を変えた一冊 Part1では大変ご好評をいただきました。 今回はPart2としまして、弊社エンジニアの人生を変えた一冊をご紹介いたします。 ぜひ、読書の秋のお供としてご参考にしていただければ幸いです! 人生を変えた一冊 SRE サイトリライアビリティエンジニアリング―Googleの信頼性を支えるエンジニアリングチーム プログラマが知るべき97のこと この本を読んだきっかけ Clint Shankさんのエッセイ「学び続ける姿勢」 Karianne Bergさんのエッセイ「コードを読む」 この本から学んだこと Clean Coder プロフェッショナルプログラマへの道 まとめ 人生を変えた一冊 SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム SRE サイトリライアビリティエンジニアリング ―Google

                                                            【エンジニアの日常】エンジニア達の人生を変えた一冊 Part2 - Findy Tech Blog
                                                          • Amazon Aurora MySQLの不具合でローカルディスクが枯渇しクエリが実行出来なくなった話 - Kaizen Platform 開発者ブログ

                                                            SRE Group Managerをしている前田です。今回の記事は当社で遭遇したAmazon Aurora MySQLの不具合の話になります。 3行まとめ Amazon Aurora MySQLのローカルストレージが異常な速度で消費、枯渇しクエリを実行するとエラーが発生するようになった 原因調査とAWSサポートへの問い合わせの結果、Aurora MySQL 2.10.0 の不具合と判明し、2.10.2へバージョンアップで解消 Auroraのローカルストレージは自動拡張されないので、残容量の監視をしましょう 事象発生と解決までを時系列で記載。 2021年10月、Auroraに対してクエリが実行出来なくなる 社内メンバーよりBIツールからAurora MySQLに対してのクエリがエラーになるとのことで、クエリに limit 100 を付けると実行出来、 limit 1000だと Error w

                                                              Amazon Aurora MySQLの不具合でローカルディスクが枯渇しクエリが実行出来なくなった話 - Kaizen Platform 開発者ブログ
                                                            • ウン十万接続のALB SSL証明書を平和に更新したい - Nature Engineering Blog

                                                              こんにちはSREの黒田です。 これは第2回 Nature Engineering Blog 祭9日目のエントリです。 昨日はCorporate ITのマロニーによる GASを使って社内のSaaSアカウントを可視化しよう - Nature Engineering Blog でした。 昨日に続いて今日のお話も、話題の新製品Remo nanoやMatterとは関係ありません。 TL;DR WebSocketで大量に永続接続されているALBのSSL証明書を更新すると、接続がばっこんばっこん切られて大変なので、ALBを二台用意して緩やかに接続を移行するようにしたら、大変平和になって僕もみんなもハッピーになった。 背景 そもそもNatureではどこに何のためにWebSocketを使ってるの?って話から始めると長いので、詳しくはこちらを見ていただければと思います (結構前の資料なので今とは違う部分も色々

                                                                ウン十万接続のALB SSL証明書を平和に更新したい - Nature Engineering Blog
                                                              • 監視論 ~SREと次世代MSP~

                                                                ITシステム監視を何故行うのか なぜ監視からオブザーバビリティーが求められるのか 次世代MSP、今後の監視エンジニアに求められる能力とは

                                                                  監視論 ~SREと次世代MSP~
                                                                • Terraformのリファクタリング始めました - VISASQ Dev Blog

                                                                  こんにちは、プラットフォーム開発グループ SREチームの西川 (@taxin_tt) です。 皆さんTerraform使ってますか? 弊社では既存サービスのマイクロサービス化を進めており、GCPベースのインフラはTerraformを利用して整備するようにしています。 一方で、サービス数の増加などに比例してtfファイルのコード量も増えていき、ディレクトリ構成や個別のリソースの定義などマイクロサービスのインフラ整備において負担になる部分があり、昨年末からSREチーム主導でリファクタリングを行っています。 今回は、そのリファクタリングの背景や進め方についてお話しできればと思います。 (本記事は、Terraform v1.3系を前提にしています。) リファクタリング後のTerraformのディレクトリ構成は下記をベースにしているので、下記の記事も合わせてどうぞ。 tech.visasq.com リ

                                                                    Terraformのリファクタリング始めました - VISASQ Dev Blog
                                                                  • Four Keysを用いた改善活動のアンチパターンと、本質的な改善のために必要な「なぜ?」 - Agile Journey

                                                                    Agile Journeyをご覧のみなさん、はじめまして。株式会社リンクアンドモチベーションの川津(@KawatsuYusuke)です。こちらの記事では主に私たちがFour Keys メトリクスを元に、開発生産性向上を目指した活動に関する話題についてお伝えします。 と言っても、『LeanとDevOpsの科学』をはじめ、Four Keysの運用に関するトピックはすでに多く語られています。また、Four Keysは便利なメトリクスであるがゆえに、ときに「Four Keysを改善する」という手段が目的化してしまうことがあります。本稿では主にこれから開発生産性向上に取り組もうとしている方に向けて、私たちの取り組みと、体験したアンチパターンをもとに、「Four Keys改善の取り組みには "なぜ?" が大事」についてお伝えします。 私たちの開発生産性向上のはじまりと、目指すべき状態の設定 Four

                                                                      Four Keysを用いた改善活動のアンチパターンと、本質的な改善のために必要な「なぜ?」 - Agile Journey
                                                                    • タイミー、オライリー本30冊が自宅に届く「オライリータワー」制度開始。「オライリータワー」プレゼントのお年玉企画開催中!|Timee

                                                                      タイミーは2022年11月に「開発組織のメンバー一人ひとりが能力とモチベーションを最大限発揮し続けるための環境づくり」をMissionとした「DevEnable室」を設立しました。 日々開発組織のメンバーが感じる課題に向き合い、学習機会の充実や、キャリアアップのサポートなどを通して「開発組織の進化」に伴走しています。 ※DevEnable=DevEnableはDeveloper Enablementの略称 ※本記事の内容は公開時点のものです。 向き合った課題:求められる技術は学んできたけど、もっと体系的に理解を深めたい…・アプリケーションレイヤーを開発する上では、OSレイヤーやネットワークのこと、監視についても色々学んだほうがよさそうだ… ・技術書を買うこと自体はいいんだけど、申請を一件ずつあげるのも面倒だ… 開発を行う上では、現在自分が使える技術をよく知っているというだけではスキルを高め

                                                                        タイミー、オライリー本30冊が自宅に届く「オライリータワー」制度開始。「オライリータワー」プレゼントのお年玉企画開催中!|Timee
                                                                      • AWS リソース管理の Terraform 移行 - クックパッド開発者ブログ

                                                                        技術部 SRE グループの鈴木 (id:eagletmt) です。クックパッドでは Codenize.tools を用いて様々なリソースをコードで管理してきましたが、現在では大部分が Terraform へと移行しています。Terraform の使い方等については既に沢山のドキュメントや紹介記事があるので本エントリでは触れず、なぜ Terraform へと移行しているのか、どのように Terraform を利用しているのかについて書いていきます。 Terraform 移行の理由 クックパッドでは自分と同じく SRE グループに所属している菅原 (id:winebarrel) によって開発された Codenize.tools のツール群を利用して IAM、Route 53、CloudWatch Alarm、CloudWatch Events 等をコードで管理し、いわゆる GitOps を実践

                                                                          AWS リソース管理の Terraform 移行 - クックパッド開発者ブログ
                                                                        • Aurora MySQL 5.7とRailsで実現する全文検索機能 - dely Tech Blog

                                                                          こんにちは。 クラシル開発部、バックエンドエンジニアの松嶋です。 delyに入社してから約3年間、私はSREチームに所属していましたが、昨年10月にバックエンドに転向しました。バックエンドに転向してからは、主にクラシルアプリの公式レシピおよびCGMコンテンツの検索機能に関する開発・改善に取り組んでいます。 クラシルは、2016年2月にサービスを開始してから、管理栄養士監修の「誰でも安全に・おいしい料理を作ることができるレシピ動画」を5万件以上提供してきました。 昨年12月には、クラシルのブランドリニューアルを行い、今後はシェフや料理研究家を中心としたクリエイターとともに多様化したユーザーの食の好みや課題解決に応えられるよう、幅広い食のコンテンツを提供するプラットフォームを目指しています。 ブランドリニューアルの詳細に関しては、こちらを御覧ください。 www.kurashiru.com この

                                                                            Aurora MySQL 5.7とRailsで実現する全文検索機能 - dely Tech Blog
                                                                          • Mercari Microservices Platformの進捗(2019年) | メルカリエンジニアリング

                                                                            Microservices Platform TeamでTech leadをしている@deeeeeeetです. 昨年のMTC2018ではMicroservices Platformチームの立ち上げから1年で僕らが取り組んできたことを紹介しました. speakerdeck.com 具体的にはStranglerパターンによるMonolithからMicroservicesへの段階的なリクエスト移行を行うためのAPI gatewayの開発や,Microservicesのインフラのセットアップを簡単にしサービス開発チームのSelf-service化を進めるためのStarter-kitの開発,GoでのMicroservicesの開発を高速で始めるためのTemplateプロジェクトの開発,Spinnakerの導入などについて紹介しました. これらはPlatformとして最低限の機能を整備したにすぎず,さ

                                                                              Mercari Microservices Platformの進捗(2019年) | メルカリエンジニアリング
                                                                            • Gitのコミットログに詳細を書く習慣をつけている - freee Developers Hub

                                                                              おはこんばんちは、SREの橋本です。この記事は、freee Developers Advent Calendar 2021の16日め記事となります。 わたしがソフトウェアエンジニアとして仕事をするうえで、コミットログを詳細に記述する習慣づけがあり、この機会にその具体例をあえて共有してみます*1。以降はとくに明示しない限り、組織全体でルールがあるわけではなく、あくまでわたしの一個人の意見である点に注意してください。 モチベーション freeeでは、Webサービスからインフラ基盤およびその監視設定を含めてコードで管理されており、GitHub上でのPull Requestでのレビューを必須としています。わたし自身は社内の立候補制異動制度*2によってWeb開発の現場とSREを行き来してきましたが、どちらもリファクタリングのためにゼロベースでコードを書き直すこともあれば、機能追加やバグフィックスのた

                                                                                Gitのコミットログに詳細を書く習慣をつけている - freee Developers Hub
                                                                              • [書評]「New Relic 実践入門 監視からオブザーバビリティへの変革」は可観測性を学び実践するための一冊 | DevelopersIO

                                                                                こんにちは、臼田です。 みなさん、よりよい運用してますか?(挨拶 今回は2021年9月15日に発売された書籍「New Relic 実践入門 監視からオブザーバビリティへの変革」の書評です。オブザーバビリティ(可観測性)について概念的にも実践的にもわかりやすい図とともに理解でき、特にNew Relicを活用して、単純な監視ではない、ビジネスに貢献するための運用の実践ができる一冊でした。 この記事ではこの書籍を読んで感じた、どんな人に向いているか、特に良かったところなどを書いていきます。 どんな人に向いているか 一言でいうと、「これからNew Relicを触る人、あるいは触り始めた人が活用できる書籍」です。「New Relic実践入門」というタイトルそのままですね。 逆に言えば、関連するオブザーバビリティについて理解を深めたい、あるいはNew Relicに限らない監視や運用の考え方を学びたいだ

                                                                                  [書評]「New Relic 実践入門 監視からオブザーバビリティへの変革」は可観測性を学び実践するための一冊 | DevelopersIO
                                                                                • フリーランスお断り企業が急増! その笑えない実態と「切られる前」にすべき対策とは?【久松剛解説】 - エンジニアtype | 転職type

                                                                                  〝流しのEM〟として、複数企業の採用・組織・制度づくりに関わる久松 剛さんが、エンジニアの採用やキャリア、働き方に関するHOTなトピックスについて、独自の考察をもとに解説。仕事観やキャリア観のアップデートにつながるヒントをお届けしていきます! 「フリーランスエンジニア」と聞いて、どんな人をイメージしますか。 一昔前であれば、「バイネームで仕事が取れるプロ中のプロ」といったイメージが一般的でした。日系大手企業でも「パフォーマンスが突出しており、ぜひ事業に貢献してほしいが給与レンジが合わないスペシャリスト」についてフリーランス契約がなされていたりします。 「組織の看板がなくても腕一本で食べていける実力があるから〝フリーランス〟なんだ」という共通認識があったはずなのですが、最近、その前提が崩れ去りつつあるのを感じます。 そこで今回は、最近フリーランスエンジニア界隈で耳にする「ちょっときな臭い話」

                                                                                    フリーランスお断り企業が急増! その笑えない実態と「切られる前」にすべき対策とは?【久松剛解説】 - エンジニアtype | 転職type