並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 113件

新着順 人気順

Opsの検索結果41 - 80 件 / 113件

  • Summary of June 8 outage

    Summary of June 8 outageWe experienced a global outage due to an undiscovered software bug that surfaced on June 8 when it was triggered by a valid customer configuration change. We detected the disruption within one minute, then identified and isolated the cause, and disabled the configuration. Within 49 minutes, 95% of our network was operating as normal. This outage was broad and severe, and we

      Summary of June 8 outage
    • SRE の原則に沿ったトイルの洗い出しとトラッキング | Google Cloud 公式ブログ

      ※この投稿は米国時間 2020 年 2 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。 作業効率を検証するために Google のサイト信頼性エンジニア(SRE)が使用している主な測定指標の一つが、日々の時間の使い方です。長期間のエンジニアリング プロジェクトのために時間を確保する必要がありますが、エンジニアには Google のサービスを稼働し続ける責任もあり、そこにも手作業が生じることがあります。Google の SRE は、いわゆる「トイル」に費やされる時間を勤務時間の 50% 未満にすることを目指しています。では、トイルとは何でしょうか。トイルに邪魔されずに開発スピードを維持するには何をすべきでしょうか。本稿ではこれらの問いについて見ていきます。 まずトイルの定義ですが、『Site Reliability Engineering』の第 5 章には次の

        SRE の原則に沿ったトイルの洗い出しとトラッキング | Google Cloud 公式ブログ
      • DevOpsトポロジー

        みなさんこんにちは。@ryuzeeです。 2021年12月1日に発売した『チームトポロジー 価値あるソフトウェアをすばやく届ける適応型組織設計』ですが、おかげさまで多くの方に読んでいただき感謝しています。 チームトポロジー 価値あるソフトウェアをすばやく届ける適応型組織設計著者/訳者:マシュー・スケルトン、 マニュエル・パイス、 原田 騎郎、 永瀬 美穂、 吉羽 龍太郎出版社:日本能率協会マネジメントセンター発売日:2021-12-01単行本:280ページISBN-13:9784820729631ASIN:4820729632 今日はこの「チームトポロジー」の元となったDevOpsトポロジーについて紹介します。 このアイデアは2013年に著者の1人であるマシュー・スケルトンが自身のブログに書いた記事をまとめたものです。 2013年頃といえばDevOpsが流行しはじめた時期だと思いますが、こ

          DevOpsトポロジー
        • ごく普通のエンジニアリング運用チームを強力な SRE チームに変える | Google Cloud 公式ブログ

          ※この投稿は米国時間 2019 年 10 月 4 日に Google Cloud blog に投稿されたものの抄訳です。 運用チームにエンジニアを絶えず増員しても、お客様の拡大には対処しきれません。Google のサイト信頼性エンジニアリング(SRE)の原則を適用すれば、運用上の問題にソフトウェア エンジニアリングによる解決手法を取り入れることで、うまく対処できます。本稿では、従来のネットワーク エンジニアリングの通例にとらわれず、SRE に転換することで、Google がグローバル ネットワーク運用チームを変革した方法をご紹介します。Google の本番環境ネットワーキング チームがこの問題にどのように取り組んだのかをお読みいただき、ご自分の組織に SRE の原則をどのように取り入れることができるのかを検討してみてください。 スケーリングの限界2011 年、Google の本番環境ネット

            ごく普通のエンジニアリング運用チームを強力な SRE チームに変える | Google Cloud 公式ブログ
          • もう「公開鍵送ってください」というやり取りは不要だった - Qiita

            GitHubに登録している鍵ペアの公開鍵は公開されてる 実は、GitHubに登録している鍵ペアの公開鍵は公開されてるのです。 GitHubのユーザーページのURLの後ろに「.keys」をつけると、その人の公開鍵文字列がDLできます。 アカウントがy-tsuzakiなら https://github.com/y-tsuzaki.keys です URLにアクセスすると公開鍵の文字列が表示されます。 このURLを使うことで、 GitHubユーザーには、わざわざメールやチャットで「公開鍵送ってください」と言わなくていいのです。 これは捗りますね。 authorized_keysに設定する方法 追記する方法 コメントで教えてもらいました。 @grohiro さん @ktooi さん ありがとうございます!

              もう「公開鍵送ってください」というやり取りは不要だった - Qiita
            • マイクロサービスにおけるAZ間通信のコスト大幅削減した話 with Istio Locality Load Balancing - Gunosy Tech Blog

              広告技術部のUT@mocyutoです。 大幅コスト削減シリーズ第二弾です。 前回はこちら tech.gunosy.io 今回はアベイラビリティゾーン(AZ)間通信のコストをIstioのlocality load balancingを使って削減した話になります。 概要 Istioとは どのようにコスト削減したか まとめ 概要 みなさんはマイクロサービスを導入しているでしょうか? 最近はモジュラモノリスが流行り始めている雰囲気を感じてきていますが、弊社の広告配信サーバは以下のようなマイクロサービス化された設計(と言っても2つのサービスしかないのですが)になっています。 構成図 一般的にクラウドプロバイダ上で構築している場合、耐障害性を高めるために複数AZ、複数リージョンに分散させることが基本になるかと思います。 弊社では、単一リージョン複数AZに分散させて稼働しています。 リージョン間の通信に

                マイクロサービスにおけるAZ間通信のコスト大幅削減した話 with Istio Locality Load Balancing - Gunosy Tech Blog
              • 75億ドキュメント以上のデータを保持するMongoDBを、Amazon EC2からMongoDB Atlasへ約3ヶ月で移設した方法 | CyberAgent Developers Blog

                75億ドキュメント以上のデータを保持するMongoDBを、Amazon EC2からMongoDB Atlasへ約3ヶ月で移設した方法 はじめに タップル SREの赤野、CAM SREの庭木です。 タップルは2021年3月頃にMongoDB on Amazon EC2(以下EC2 MongoDB)からMongoDB Atlas(以下Atlas)への移設を行いました。 今回はこの移設での取り組みについて紹介します。 Atlasへ移設することになった経緯・目的 タップルでは定期的にキャパシティプランニングを目的とした負荷試験を実施しており、今後のDAU増加のシミュレーションに対してシステムのキャパシティが確保できるかを定期的に確認しています。 タップルSREのキャパシティプランニングの取り組みについては、以前発表させていただいた資料があるのでこちらにも目を通していただけると幸いです。 2020年

                  75億ドキュメント以上のデータを保持するMongoDBを、Amazon EC2からMongoDB Atlasへ約3ヶ月で移設した方法 | CyberAgent Developers Blog
                • 分析基盤と組織のあり方 - DeNAの事例

                  今回のテーマは「分析基盤をうまく組織に浸透させる方法」です。 「分析基盤を浸透させていく上で、分析基盤を担う組織(分析基盤組織)がどのように形を変えていったか」という内容です。組織設計の参考になれば幸いです。

                    分析基盤と組織のあり方 - DeNAの事例
                  • なぜセキュリティを言い訳にアジリティが犠牲になるのか - 流沙河鎮

                    ここ数年、アジリティとセキュリティ(あるいはガバナンス)の両立について考える機会が多い。伝統的で規模の大きい企業にありがちな傾向として、セキュリティやガバナンスを確保するためにはシステムの開発/運用が鈍重、高コスト、不自由になったとしても已む無しとする思想がしばしば見受けられる。結果として例えば簡単な仮想サーバ1つを用意するだけでも数ヶ月の納期と膨大な工数を要するとか、世の中で当たり前に活用されている技術やプロセスが許可されない/導入に非現実的な手続きを要求されるといった状況が生まれる。 確かにシステムの安全性を適切にコントロールすることは重要である一方で、論理的に考えれば「セキュリティのためのビジネス」ではなく「ビジネスのためのセキュリティ」なのだから、セキュリティを確保するためにビジネスの成功が妨げられてしまっては本末転倒に思える。しかし実際には「セキュリティのためなので仕方がない」と

                      なぜセキュリティを言い訳にアジリティが犠牲になるのか - 流沙河鎮
                    • Kaggleの学習から投稿までをAWS, GitHub Actionsを使って自動化する - kanayamaのブログ

                      金山(@tkanayama_)です。先日終了したKaggleの"M5 Forecasting"というコンペに参加した際、クラウドやCI/CDの勉強も兼ねて、AWS, GitHub Actionsを使って遊んでみました。 免責 N番煎じだったらすみません。一応、同じことをやっているネット記事は見つかりませんでした。 私はクラウドなど勉強中の身分ですので、もっといいやり方がある or 説明が間違っている、などありましたら教えてください。 私がこのシステムを使って参加したコンペの順位は5,558チーム中1,000,000,000位だったので、Kaggleで勝てるかどうかは別問題のようです :pien: この記事のゴール 下記のようなシステムを構築することをゴールとします。 ユーザーがやることは2つ(図中でユーザーから伸びている黄色矢印)で、 実装したコードをgit pushし、 AWSコンソール

                        Kaggleの学習から投稿までをAWS, GitHub Actionsを使って自動化する - kanayamaのブログ
                      • GitHub - openstatusHQ/openstatus: 🏓 The open-source website & API monitoring platform 🏓

                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                          GitHub - openstatusHQ/openstatus: 🏓 The open-source website & API monitoring platform 🏓
                        • メンテナンスウィンドウを使わない - @katzchang.context

                          6年ほど無停止のサービスを運用してきた私の経験からすると、メンテナンスウィンドウ、つまり計画的メンテナンスに対するアラート発砲を抑制する機能は、使わないほうがうまくいく。仕事の中でも度々メンテナンスウィンドウの話題が出てきたので、個人の見解としてまとめてみたい。 計画的メンテナンスの手順 対外的に無停止だとしても、内部的には停止を伴うメンテナンスをすることがある。たとえば、MySQLを止めることはたまにある。まずは、どのようにメンテナンスを進めていくのかを整理しよう。 内部的な停止を伴うメンテナンスの際は作業に必要な時間とともに、アラートが起こる範囲を予測し、予告しておく。予告の範囲を決めるのは単純で、アラートが届くだろうチャンネルにお知らせしておけばいい。以前のチームではメールとSlackチャンネルを使っていたので、そこに書いていた。準備はこれでいい。 メンテナンス作業が始まる(たとえば

                            メンテナンスウィンドウを使わない - @katzchang.context
                          • 先駆者に学ぶ MLOpsの実際

                            「MLOpsとはなにか?」という質問に対し、「データサイエンティストが、システム開発において、やらないことすべて」と定義した上で、MLOpsの説明、海外事例、「JapanTaxi」アプリでの事例を説明しますRead less

                              先駆者に学ぶ MLOpsの実際
                            • モバイルゲームの運営を譲り受け「長命化」させるマイネット。彼らはどのようにサービスを移管しているのか?インフラ担当会社ビヨンドと共に内情を明かす - AUTOMATON

                              サービス型のゲームには、いつか終わりが訪れる。しかし、その寿命を伸ばすことは可能。株式会社マイネットは、数々のスマホゲームを他社から譲り受け、長期運営を目指す「ゲームサービス事業」を柱としている。さまざまなスマホゲームの運営が続けられており、現状の運営タイトル数はなんと36本(※2020年9月時点)に及ぶ。中には『黒騎士と白の魔王』『ウチの姫さまがいちばんカワイイ』といった有名タイトルの名も。しかし、実際にサービス移管をするとなると、運営だけでなくサーバーやプログラムなどのシステム部分も譲渡されることになる。そうした移管は実際どのようにおこなわれるのだろうか。 マイネットの運営移管の影には、そのサーバーの運用や保守を担当する株式会社ビヨンドの貢献があるようだ。ビヨンドは、サーバーの保守運用やシステム開発を業務とする会社だ。本稿ではマイネットの膨大なゲームの同時運営を可能にしているインフラ技

                                モバイルゲームの運営を譲り受け「長命化」させるマイネット。彼らはどのようにサービスを移管しているのか?インフラ担当会社ビヨンドと共に内情を明かす - AUTOMATON
                              • 運用の考え方は「システム管理」から「サービス管理」へ ITIL4で変わってきた、運用者に求められること

                                インフラエンジニア向けの書籍を取り上げ、著者と出会い、楽しく本を知り、仲間を作る場所である「インフラエンジニアBooks」。ここで、『運用改善の教科書』の著者である近藤氏が登壇。続いて、ITIL4の登場に伴う運用の考え方の変化と、昨今の運用に求められていることを紹介します。前回はこちらから。 2019年頃に起きた運用の変化 近藤誠司氏(以下、近藤):みなさん運用をやっている方が多いということで、ご存知のITIL(Information Technology Infrastructure Library)のv3、シラバス2011をベースにしたものを貼っています。いろいろとプロセスや機能などがあって、分類がありました。 シラバス2011、ITIL v3の時点では、基本的にはサービスストラテジが戦略を練る、サービスデザインは設計するというところです。トランジションは、設計したものを作って移行する

                                  運用の考え方は「システム管理」から「サービス管理」へ ITIL4で変わってきた、運用者に求められること
                                • クラウドのシステム運用技術に機械学習を応用する研究 / CLOUD AI

                                  第6回さくらインターネット研究会

                                    クラウドのシステム運用技術に機械学習を応用する研究 / CLOUD AI
                                  • デブサミ2020で「礼節から育てるチームの健康と信頼性」という話をしました #devsumi #devsumic | DevelopersIO

                                    事業開発部の塩谷 (@kwappa) です。 2020年2月13, 14日、目黒雅叙園でDevelopers Summit 2020(通称「デブサミ」)が開催されています。その初日である2/13、 13-C-6 という枠をいただいて「礼節から育てるチームの健康と信頼性」という話をしました。 スライド セッション 昨年10月から継続してしゃべっている、チーム・心理的安全性・礼節についての総集編を目指してつくりました。過去のセッションから大きく変えてはいませんが、登壇を重ねるたびに自分でも理解が深まったように思います。 公式サイトの事前予約では「満席」の表示があり、実際のセッションもちらほら立ち見の方が出るぐらいの入場がありました。公募に通ったのも不思議なぐらいのふわっとしたタイトルでしたが、たくさんの方に聞いていてだけてとても光栄ですし、話し甲斐もありました。 聴いてくださったかたのツイート

                                      デブサミ2020で「礼節から育てるチームの健康と信頼性」という話をしました #devsumi #devsumic | DevelopersIO
                                    • 稼働中の商用ネットワークでVRRPの切替検証を実施しちゃった話 - Qiita

                                      ご挨拶 初めまして @moriya-snj です。 この記事は「本番環境でやらかしちゃった人 Advent Calendar 2019 - Qiita」の15日目の記事です。 みなさん盛大にやらかしている様で安心しております。 今回は私が社会人3ヶ月目でやらかした重大事故の記録を包み隠さず暴露するとともに当時フォローしてくださった先輩や上司お陰でなんとかこの業界で生き抜くこと出来ていることの感謝をお伝えすべく、キーボードに手を伸ばしております。 何をしでかしたか 顧客AがIP電話を導入するため、新たにVoIP用ネットワークを構築することとなった。 機器の設置等は別部署が行うため、設置依頼を出し、完了の報告をもらったため、ネットワーク機器のコンフィグなどを流し込み疎通確認などを行うこととなった。 疎通確認が完了し、お次はVRRPの切替確認を行おうとしたが、ここで誤って稼働中の顧客Bのネットワ

                                        稼働中の商用ネットワークでVRRPの切替検証を実施しちゃった話 - Qiita
                                      • Gitで継続的デリバリーを実現する「GitOps」とは? 概要とGitOpsソリューションの紹介

                                        GitOpsとは、分散バージョン管理システムであるGitを使用して、全てのアプリケーションとインフラストラクチャの望ましい状態を宣言的に記述し、管理する手法で、継続的デリバリーを実現する一つのモデルです。本連載では、GitOpsを活用した継続的デリバリーやプログレッシブデリバリーについて紹介します。第1回では、GitOpsの概要やメリット、GitOpsを実現するソリューションを紹介します。 はじめに 本連載はソフトウェアデリバリーにおける継続的デリバリー・プログレッシブデリバリーについての連載で、以下の3つの記事で構成されています。 第1回となる本記事では、継続デリバリーについての概要、話題となっているGitOpsは何か、どんなメリットがあるのか、現在のGitOpsソリューションについて紹介します。 第2回では、プログレッシブデリバリーの解説と各ソリューションの紹介・比較について説明します

                                          Gitで継続的デリバリーを実現する「GitOps」とは? 概要とGitOpsソリューションの紹介
                                        • メルカリにおける分析環境整備の取り組み - Speaker Deck

                                          Transcript 1 ϝϧΧϦʹ͓͚Δ෼ੳ؀ڥ੔උͷऔΓ૊Έ גࣜձࣾϝϧΧϦ / JP Data Analyst ӬҪ৳໻ 2 Introduction 3 ! ӬҪ ৳໻ ! גࣜձࣾϝϧΧϦ / JP ! Data Analyst ◦ ෼ੳ؀ڥͷ੔උͳͲΛ୲౰ ࣗݾ঺հ 4 ! ݱঢ় ◦ ͳͥվળʹऔΓ૊Ήͷ͔?
 ! ͋Γ͍ͨ࢟ ◦ վળͷαΠΫϧΛճ͍ͨ͠ɻ ! औΓ૊Έ ◦ ϨΨγʔͳσʔληοτΛഇࢭ͢Δɻ ◦ ͦͷͨΊʹɺۀ຿ͱKPIͱج൫ΛηοτͰߟ͑Δɻ ΞδΣϯμ : ϝϧΧϦʹ͓͚Δ෼ੳ؀ڥͷ੔උͷࣄྫ 5 ݱঢ় | ͳͥվળʹऔΓ૊Ήͷ͔? 6 ! ج൫ ◦ BigQuery + Looker ! ن໛ ◦ ΫΤϦ࣮ߦϢʔβʔ਺ 700ਓҎ্/݄ ◦ ࢀর͞Ε͍ͯΔςʔϒϧ਺ 100Ҏ্/݄ ◦ Analyst, PdM, ML, CS, ͳͲ ϝϧΧϦʹ͓͚

                                            メルカリにおける分析環境整備の取り組み - Speaker Deck
                                          • サイト信頼性エンジニアリングのドキュメント

                                            このブラウザーはサポートされなくなりました。 Microsoft Edge にアップグレードすると、最新の機能、セキュリティ更新プログラム、およびテクニカル サポートを利用できます。

                                              サイト信頼性エンジニアリングのドキュメント
                                            • State of DevOps Report 2021を日本語で解説 ーTeam Topologies Model、プラットフォームが重要な要素ー - TC3株式会社|GIG INNOVATED.

                                              State of DevOps Report 2021を日本語で解説 ーTeam Topologies Model、プラットフォームが重要な要素ー はじめに State of DevOps ReportはDevOpsの成熟度についてアンケート形式で調査しているレポート資料です。毎年アップデートされているので、直近の動向などを理解し、かつ課題解決の活路を見出すのに良いレポートです。2021版が先日リリースされていました(もとのレポートはこちら)。 デジタルトランスフォーメーションの文脈の中で、ソフトウェア開発がますます増えてきていますが、単に一発作っておしまいではなく、継続的に進化させることが求められます。継続的にサービスを進化させていくことがビジネス力の根源となるということをアンケート調査から証明したのが、このレポートで、調査内容については、『LeanとDevOpsの科学』をご一読いただく

                                                State of DevOps Report 2021を日本語で解説 ーTeam Topologies Model、プラットフォームが重要な要素ー - TC3株式会社|GIG INNOVATED.
                                              • KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部

                                                2020.10.05 KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ こんにちは。次世代システム研究室のY. O.です。 筆者はデータ分析のスキルアップのためにkaggleというデータ分析プラットフォームを活用しています。kaggleを始めてから約2年間を経て、スキルアップの枠を超え、趣味・生活の一部・etc.になってきてしまっているのも認めざるを得ません。。。 今回は、先日kaggleの自然言語処理コンペ(Tweet Sentiment Extraction)で2位になった結果を題材に、振り返りの意味を込めて”こうしておけば良かった”という点をMLOpsの観点でまとめていきたいと思います。 ここで、kaggleを取り巻くMLOpsの構成をKaggleOpsと勝手に呼ぶこととし、少なくとも筆者は今後のコンペでも以下にまとめ

                                                  KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部
                                                • Python で緊急対応時の Slack 操作を自動化してみた | DevelopersIO

                                                  このブログはこんな方におすすめ 緊急対応の初動を早めたい リモートワーク中心になり、緊急対応中の作業分担や進捗確認が難しい Google Apps Script で緊急対応時の Slack 操作を自動化してみた の Python 版がほしい 2021年6月11日に以下のセッションに登壇しました。本ブログでは登壇中に紹介するとお伝えした関数をご紹介します。また背景についても改めて少し記載しています。 業界特化事例紹介セッション SIer編 | Slack はじめに クラスメソッドでは Slack API を活用することで、いくつかある緊急対応の初動が約30分早くなりました。 では、どのように活用して初動対応を迅速化したのでしょうか。 本ブログでは、クラスメソッドの緊急対応の一つである、AWS 不正利用対応を例に紹介します。 AWS 不正利用とは、AWS アクセスキーの漏洩などが原因で発生しま

                                                    Python で緊急対応時の Slack 操作を自動化してみた | DevelopersIO
                                                  • [レポート] オペレーション、監視(Monitoring)、可観測性(Observability)… AmazonのCTOはAWS re:Invent 2020のキーノートでどう語ったか? キーワードを拾ってみた #reinvent | DevelopersIO

                                                    昨年12/18(日本時間では12/19)、AWS re:Invent 2020におけるのDr. Werner Vogels(ヴァーナー・ボーガス氏)のキーノートは皆さんご覧になられたでしょうか。 氏のキーノートセッションは毎回恒例ですが、例年だと開発環境や実行環境・AWSインフラについての話にフォーカスがあたっている印象でした。その中で「Everything fail, all the time」や「You build it, You run it」のような名言・格言が語られてきました。 ところが今回は「Developer Keynote」と銘打った上で、よりオペレーション段階の話に長く時間が割かれました。MLやインフラに特化したキーノートが別にあったことも要因のひとつでしょう。 どんなことが語られたのか? 個人的に気になったキーワードをひろってみました。 なお記事中の訳は基本的にぼくの解

                                                      [レポート] オペレーション、監視(Monitoring)、可観測性(Observability)… AmazonのCTOはAWS re:Invent 2020のキーノートでどう語ったか? キーワードを拾ってみた #reinvent | DevelopersIO
                                                    • 障害の対策というゲーム その進め方 - 虎の穴開発室ブログ

                                                      初めましての方は初めまして。お久しぶりの方はお久しぶりです。虎の穴のY.Mです。 このブログが始まった頃に、よく記事を書いていました。 月日は流れて、現在はEC開発のリーダーをやっております。 今回は技術的な内容というよりは、開発プロセスの内容を少し書きます。 書こうと思ったワケ 弊社のブログを眺めていたところ、これまで虎の穴の開発文化を紹介したことがなかったなと感じました。 チームでの開発をする上では、技術力はもちろん大事ですが、そのチームの開発文化が品質に大きく影響してきます。 ブログを読んでいただいている皆さんに、少しでも「こんな仕事のやり方をしてるよ」というのを知ってもらうべく、久しぶりに筆をとりました。 今回はそのとっかかりとして、一番エンジニアが頭と心を痛めるであろう『障害の事後対応』について書きます。 せっかくオタクエンジニアとして書くので、ちょっとゲーム仕立てにしてみます。

                                                        障害の対策というゲーム その進め方 - 虎の穴開発室ブログ
                                                      • Dependabotを導入してみた | DevelopersIO

                                                        みなさんこんにちは。 突然ですがプロジェクトで使用しているライブラリのアップデートって面倒ですよね。 活動が活発なライブラリは嬉しい反面アップデートが辛かったり、セマンティックバージョニングを採用しているからガンガン自動で上がってくれないかと思いませんか。 そんなお悩みを解決するDependabotというものがありましたので導入してみました。 Dependabotとは package.jsonやgo.modといったマニュフェストファイルをみて古いライブラリやセキュアでないものを調べてくれます。 そして必要に応じてライブラリの更新を行いPull Requestを自動で作成してくれる優れものです。我々に残された仕事はPull Requestをmergeするだけなのです(そしてそれすらも自動化できる)。 こちら からも確認できますが現在サポートしている言語は下記のようになっています。 Ruby

                                                          Dependabotを導入してみた | DevelopersIO
                                                        • 「システム運用アンチパターン」という書籍を翻訳しました|yuichielectric

                                                          こんにちは、田中裕一です。今回Jeffery Smithさんが書かれた「Operations Anti-Patterns」という書籍の日本語訳を「システム運用アンチパターン」として出版します。 発売日は4/12ですが、一部の書店では既に店頭に並んでいるようですし、オンラインでも買えるようになっています。是非一読いただけると嬉しいです。 どういった本か本書を一言で言うならDevOpsによる変革を実践する人のための一冊です。ただ、そういった書籍は「Effective DevOps」や「The DevOpsハンドブック」など、これまでもありました。そういった書籍との違いは本書についての紹介に表れています。 本書は、技術チームの運用担当や開発担当のチームリーダーや一般のエンジニアを対象としています。より上位のマネージャーやシニアリーダーも本書から多くの有用なヒントを得ることができるでしょう。しかし

                                                            「システム運用アンチパターン」という書籍を翻訳しました|yuichielectric
                                                          • Aurora MySQL 5.6のサポート終了とゼロダウンタイムアップグレードへの挑戦 - Cybozu Inside Out | サイボウズエンジニアのブログ

                                                            こんにちは、グローバル向けAWS版kintoneのバックエンドエンジニアをしている@ueokandeです。 8月になって暑い日々が続きますね。そして8月と言えば、Amazon Aurora MySQL-Compatible Edition version 1 with MySQL 5.6 compatibility(以下Aurora MySQL 5.6)のサポート終了までおよそ半年となりました。 グローバル向けAWS版kintoneでは、Aurora MySQL 5.6を採用しているバックエンドサービスがいくつかあり、チームで移行作業に取り組んできました。この移行作業は単なるアップグレードだけではなく、ダウンタイムなしでデータベースを移行するチャレンジにも取り組みました。この記事ではAmazon Auroraの移行作業の全貌と、移行戦略を紹介します。 Aurora MySQL 5.6のサポ

                                                              Aurora MySQL 5.6のサポート終了とゼロダウンタイムアップグレードへの挑戦 - Cybozu Inside Out | サイボウズエンジニアのブログ
                                                            • 軽量feature flag導入の手引き - Qiita

                                                              何か Kyashでサーバサイドのエンジニアをしているhirobeです。 業務でサーバサイドのアプリケーションへのfeature flag導入を提案および設計をしました。 どのような設計や実装にするか、なぜそうしたかを整理します。 なお、アプリケーションの特性としては以下を念頭に入れていただければと思います。 新規プロダクトではなく、5年以上動いている既存プロダクトに導入する サーバサイドアプリケーションのみをスコープとする 20~30のマイクロサービスから構成されている マイクロサービス間はREST/gRPC/SQSで通信されている そもそもなぜ導入するのか? 目的を整理しておきます! featureブランチからmainブランチにmergeされるまでの期間が長いために、以下のような問題がありました。 複数の機能開発の修正がconflictする可能性があり、またそれに気づくのが遅れる可能性が

                                                                軽量feature flag導入の手引き - Qiita
                                                              • 10倍スパイクの速報時に耐えうるAPIのスケーリングの仕組み - Gunosy Tech Blog

                                                                広告技術部のUT@mocyutoです Gunosyではニュース記事を配信運用するメディア部門とアプリ上などに広告を配信運用する広告部門があります。 (本記事では「メディア」とはグノシーやニュースパスなどのサービスを指し、「広告」はそのメディアに出す広告を指します。) 今回は広告部門が運用している広告システムのスケールの仕組みについて紹介します。 課題 解決策 仕組み スパイクスケーリング スケジュールスケーリング スケールのロジックを記述 まとめ 課題 メディア側のシステムは各サービスごとにチームが分かれており、それぞれ別のシステムで稼働しています。 しかし、広告側のシステムは単一のシステムで動いており、各メディアの広告配信すべてを担っています。 そのため、サービスが増えるごとにトラフィックが増える仕様になっています。 特に速報などのプッシュ通知をメディアが送信すると一気にユーザはアプリを

                                                                  10倍スパイクの速報時に耐えうるAPIのスケーリングの仕組み - Gunosy Tech Blog
                                                                • 小さなチームでのDevOps

                                                                  はじめに これは"小さなチーム"でDevOpsを実践する際のアイデアのポストです。 DevOpsとは、運用の知識を開発に取り入れるマインドセットであり、またそのためのプロセスやアプローチを指します。ここでの"小さなチーム"というのは開発担当と運用担当とが分かれていないようなチームを指します。 DevOpsというとよく言及されるのは開発担当と運用担当のIntegrationの話だったり、DevOps専任チームの話や、DevOpsツールに言及するものが多いかと思うのですが、今回は開発担当と運用担当とが分かれていないような"小さなチームにおけるDevOps"についての話となります。表面的な事象の裏側にある構造上の特性を考えてみます。 "小さなチームでのDevOps"の場合には、DevとOpsの2つのミッションが1つのチームに集約統合(Consolidation)されています。全員が同じミッション

                                                                    小さなチームでのDevOps
                                                                  • MySQLで3億レコード物理削除した話 - Qiita

                                                                    はじめに こんにちは。webエンジニア社会人をしている ningenMe です。 タイトル通り。MySQLで3億レコード物理削除した話。 ちょっとハマったので備忘録。 はじまりはアラート はじまりはアラートだった。 僕が運用・保守しているバッチサーバでは、mysqlからちょうど直近1ヶ月分のデータを毎日1回selectする定期処理をしている。 いつもなら1時間程度で終わる処理のはずが、その日は7,8時間経っても終わらずアラートが鳴り止まない.....。 原因追求 とりあえずリトライしたり、ログ見たりしたもののあんまり悪いところがなかった。 クエリもちゃんとindex効いてる。なんでだろうと思ったらDBの容量が結構大きくなっていたことに気づいた。 3億5千レコード。インデックスちゃんと効いてたので多分普通に遅いだけっぽい。 必要なデータ取得は1ヶ月分である12'000'000件ほど。このse

                                                                      MySQLで3億レコード物理削除した話 - Qiita
                                                                    • 第1回勉強会:なぜ今MLOpsなのか、先駆者や実際の現場からMLOpsを学ぼう

                                                                      連載目次 MLOpsコミュニティーは「全ての機械学習モデルが現場で実運用化される世界」を目指して2020年夏に始まりました。月1回程度の頻度での活動を目指し、勉強会やワークショップ、ディスカッションなどを行うことで、今後のAI技術の発展に非常に重要な、MLOps(機械学習の実運用化)の普及に貢献していきます。 このレポートでは、2020年8月に行われた第1回勉強会の様子をお伝えします。300人以上の参加者がリモートで参加し、大盛況のイベントとなりました。当日の様子はツイッターでも盛んにつぶやかれ、こちらにそのまとめがあります。 なぜ今MLOpsなのか by シバタアキラ はじめに、オーガナイザーチームの一人である、DataRobot Japanのシバタアキラから、なぜ今MLOpsが注目されているのかをお話しました。まず300人以上にGoToWebinarのアンケート機能を使って質問しました

                                                                        第1回勉強会:なぜ今MLOpsなのか、先駆者や実際の現場からMLOpsを学ぼう
                                                                      • SRE for single-tiered software applications | Google Cloud Blog

                                                                        In cloud operations, we often hear about the benefits of microservices over monolithic architecture. Indeed, microservices help manage hardware being abstracted away and push developers towards resilient, distributed designs. However, many enterprises still have monolithic architectures which they need to maintain. For this post, we’ll use Wikipedia’s definition of a monolith: “A single-tiered sof

                                                                          SRE for single-tiered software applications | Google Cloud Blog
                                                                        • データドリブンなサービスを支えるネットワークの作り方〜 ヤフーのデータセンターネットワーク紹介

                                                                          ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog ヤフーのプロダクションネットワークの設計・構築・運用を担当している津秦です。 ヤフーではオンプレミスで大量に物理サーバーを導入し、社内向けプライベートクラウドや、データ分析基盤などに利用しております。もちろんそのサーバーを接続するためのネットワークも、自分たちで設計・構築・運用を行っております。 今回はデータセンター内ネットワークの中でも、最近取り入れているClosネットワークというものに着目して、ヤフーのデータセンターネットワークをご紹介したいと思います。 なお、大量に物理サーバーを導入する点では、昨年末に同じくインフラを担当する藤見から、サーバーの調達に関する取り組みを紹介しました。合わせて参照いただければ、ヤフーのインフラ部

                                                                            データドリブンなサービスを支えるネットワークの作り方〜 ヤフーのデータセンターネットワーク紹介
                                                                          • Post-Incident Review on the Atlassian April 2022 outage - Atlassian Engineering

                                                                            This PIR is available in the following languages:日本語 | 简体中文 | 繁體中文 | Deutsch | English | Español | Français | Italiano | 한국어 | Polski | Português | русский. Letter from our co-founders & co-CEOs We want to acknowledge the outage that disrupted service for customers earlier this month. We understand that our products are mission critical to your business, and we don't take that responsibility light

                                                                              Post-Incident Review on the Atlassian April 2022 outage - Atlassian Engineering
                                                                            • 「ホットペッパービューティー」美容クリニックでのSRE活動

                                                                              美容クリニックは新規体制用の少人数体制で開発を行っており、その内の約 7 割がアプリ開発をしているエンジニアとなっています。 一方で、SRE は全体の約 1 割の人数しかいないという状況にあります。 この SRE の人数が少ないかどうかは扱っているシステムの規模や課題によって評価が変わるかと思いますが、美容クリニックが現在抱えている課題の量に対しては少ない人数だと感じています。 では、このように限られた人数の中でどのようにして SRE 活動を行ってきたのかを紹介していきます。 SRE チームの組閣 美容クリニックのリリース以前から SRE チームは存在していたのですが、リリース前後でその責務は変わってきます。 例えばリリース前はインフラの初期構築がメインの責務となってきますが、リリース後(エンハンス開発)にはインフラの保守運用がメインの責務となります。 さらに、メンバーの変動などにより当初

                                                                                「ホットペッパービューティー」美容クリニックでのSRE活動
                                                                              • たとえ障害の根本原因であっても“変化”を起こせることが大事 DevOps実現のための6つの方法と4つの文化

                                                                                DevとOpsの対立 川口恭伸氏(以下、川口):2009年からDevOpsが出てきます。 DevOpsの話、これは源流の「10+ Deploys per Day」というものがあって、ビデオを見ながら私が書き起こしたので紹介したいんですけれど。2009年に何が起きたか、どんな話だったかです。 「10+ Deploys per Day」は、1日に10回デプロイするというタイトルです。これはたぶん彼らの中で使っていたクラウドの話だと思うんですが、効率的なデータセンターを使い、デベロッパーと運用者が協調しながらガンガン10回デプロイできるようにするみたいな。それでも品質が壊れないようにするみたいな話が出ていて。 その時に、「じゃあどうやってみなさんは協調するのか」という技術論や文化の話が非常におもしろくて、DevOpsに興味がない方もぜひこれは1回見てもらいたい。特に、AWSとかインフラとかに近い

                                                                                  たとえ障害の根本原因であっても“変化”を起こせることが大事 DevOps実現のための6つの方法と4つの文化
                                                                                • [アップデート] Amazon EC2 Auto Scaling で Auto Scaling Group 内のインスタンスを最新化できるようになりました! | DevelopersIO

                                                                                  こんにちは、大前です。 久々に AWS MediaServices 以外の記事を書く気がします。 今回は、掲題のアップデートの紹介です。 Amazon EC2 Auto Scaling now supports Instance Refresh within Auto Scaling Groups どんなアップデートか Amazon EC2 Auto Scaling(以下 Auto Scaling)にて Auto Scaling Group 内のインスタンスを最新化する事が出来るようになりました。 今まで、 Auto Scaling Group の起動設定を変更(例えば、AMIの更新など)した後に既存のインスタンスを最新化するには一手間が必要だったりしたのですが、今回追加されたこの機能を使用するだけで、最新の起動設定で起動されたインスタンスに置き換える事が可能となりました。 今まで痒かった

                                                                                    [アップデート] Amazon EC2 Auto Scaling で Auto Scaling Group 内のインスタンスを最新化できるようになりました! | DevelopersIO