並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 143件

新着順 人気順

opsの検索結果41 - 80 件 / 143件

  • WebAssemblyでの機械学習モデルデプロイの動向

    本記事はMLOps Advent Calendar 2020の 2 日目の記事です。 WebAssembly(Wasm)は機械学習モデルをデプロイする新たな手段になりうるでしょうか。 この記事では、機械学習モデル(特に Deep Learning)を Wasm でデプロイする周辺技術の動向や内部の仕組みをざっくりと説明します。 Table of Contents tkat0 です。WebAssembly(Wasm)面白いですね。 私も最近はyewでフロントエンドを書いて遊んでいます。Rust で React っぽいことできるのは新鮮で面白いです。 Wasm は、なんとなく速い JavaScript?とか機械学習で何に役立つの?とか思ってる方も多いと思います。 しかし、Wasm はブラウザでの推論時に使えるだけでなく、機械学習モデルのサービングやエッジデバイスでの推論にも使えると知ったら驚き

      WebAssemblyでの機械学習モデルデプロイの動向
    • 運用技術者組織の設計と運用 / Design and operation of operational engineer organization

      第12回 インターネットと運用技術シンポジウム(IOTS 2019)~運用管理する人”も”報われるシステムの構築を考える~ にて招待講演を行った際の資料です。 概要: https://www.iot.ipsj.or.jp/symposium/iots2019/ プログラム: https://www.iot.ipsj.or.jp/symposium/iots2019-program/

        運用技術者組織の設計と運用 / Design and operation of operational engineer organization
      • エラー監視とテスト体制への改善作戦 / PHPerKaigi2022

        issueに対するエラー 数を集計 [ { … "permalink": "Sentryのエラー画面URL", "platform": "PHP", "metadata": { "value": "Fatal Error (0): Call to a member function result()....." }, … "stats": { "14d": [ [ 1541455200, // timestamp 473 // error count ], … ] }, … "title": "This is an example PHP exception" } ] • 14d制限でリクエスト • エラー内訳取得 • stats内のパラメータに日付事 のエラー数が格納 https://docs.sentry.io/api/events/list-a-projects-issues/

          エラー監視とテスト体制への改善作戦 / PHPerKaigi2022
        • 監視論 ~SREと次世代MSP~

          ITシステム監視を何故行うのか なぜ監視からオブザーバビリティーが求められるのか 次世代MSP、今後の監視エンジニアに求められる能力とは

            監視論 ~SREと次世代MSP~
          • そのコンテナ、もっと「賢く」置けますよ? #CNDT2019 / CloudNative Days Tokyo 2019

            CloudNative Days Tokyo 2019 で使用したスライドです。 Kubernetes は既にコンテナオーケストレータのデファクトを獲得し、多種多様なアプリケーションがデプロイされるプラットフォームとなりました。この流れの中で、従来の機能ではカバーできない複雑なコンテナ配置ロジックや、リソース集積率の最適化に対する需要も高まっています。本講演では、カスタマイズの手法から次世代の特殊スケジューラまで、Kubernetes におけるコンテナ配置のすべてをお話しします。 イベント概要:https://cloudnativedays.jp/cndt2019/ ブログ記事:https://ccvanishing.hateblo.jp/entry/2019/07/30/112634 録画:https://www.youtube.com/watch?v=EsZLJT5uQ5E

              そのコンテナ、もっと「賢く」置けますよ? #CNDT2019 / CloudNative Days Tokyo 2019
            • Summary of June 8 outage

              Summary of June 8 outageWe experienced a global outage due to an undiscovered software bug that surfaced on June 8 when it was triggered by a valid customer configuration change. We detected the disruption within one minute, then identified and isolated the cause, and disabled the configuration. Within 49 minutes, 95% of our network was operating as normal. This outage was broad and severe, and we

                Summary of June 8 outage
              • SRE の原則に沿ったトイルの洗い出しとトラッキング | Google Cloud 公式ブログ

                ※この投稿は米国時間 2020 年 2 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。 作業効率を検証するために Google のサイト信頼性エンジニア(SRE)が使用している主な測定指標の一つが、日々の時間の使い方です。長期間のエンジニアリング プロジェクトのために時間を確保する必要がありますが、エンジニアには Google のサービスを稼働し続ける責任もあり、そこにも手作業が生じることがあります。Google の SRE は、いわゆる「トイル」に費やされる時間を勤務時間の 50% 未満にすることを目指しています。では、トイルとは何でしょうか。トイルに邪魔されずに開発スピードを維持するには何をすべきでしょうか。本稿ではこれらの問いについて見ていきます。 まずトイルの定義ですが、『Site Reliability Engineering』の第 5 章には次の

                  SRE の原則に沿ったトイルの洗い出しとトラッキング | Google Cloud 公式ブログ
                • DevOpsトポロジー

                  みなさんこんにちは。@ryuzeeです。 2021年12月1日に発売した『チームトポロジー 価値あるソフトウェアをすばやく届ける適応型組織設計』ですが、おかげさまで多くの方に読んでいただき感謝しています。 チームトポロジー 価値あるソフトウェアをすばやく届ける適応型組織設計著者/訳者:マシュー・スケルトン、 マニュエル・パイス、 原田 騎郎、 永瀬 美穂、 吉羽 龍太郎出版社:日本能率協会マネジメントセンター発売日:2021-12-01単行本:280ページISBN-13:9784820729631ASIN:4820729632 今日はこの「チームトポロジー」の元となったDevOpsトポロジーについて紹介します。 このアイデアは2013年に著者の1人であるマシュー・スケルトンが自身のブログに書いた記事をまとめたものです。 2013年頃といえばDevOpsが流行しはじめた時期だと思いますが、こ

                    DevOpsトポロジー
                  • ごく普通のエンジニアリング運用チームを強力な SRE チームに変える | Google Cloud 公式ブログ

                    ※この投稿は米国時間 2019 年 10 月 4 日に Google Cloud blog に投稿されたものの抄訳です。 運用チームにエンジニアを絶えず増員しても、お客様の拡大には対処しきれません。Google のサイト信頼性エンジニアリング(SRE)の原則を適用すれば、運用上の問題にソフトウェア エンジニアリングによる解決手法を取り入れることで、うまく対処できます。本稿では、従来のネットワーク エンジニアリングの通例にとらわれず、SRE に転換することで、Google がグローバル ネットワーク運用チームを変革した方法をご紹介します。Google の本番環境ネットワーキング チームがこの問題にどのように取り組んだのかをお読みいただき、ご自分の組織に SRE の原則をどのように取り入れることができるのかを検討してみてください。 スケーリングの限界2011 年、Google の本番環境ネット

                      ごく普通のエンジニアリング運用チームを強力な SRE チームに変える | Google Cloud 公式ブログ
                    • もう「公開鍵送ってください」というやり取りは不要だった - Qiita

                      GitHubに登録している鍵ペアの公開鍵は公開されてる 実は、GitHubに登録している鍵ペアの公開鍵は公開されてるのです。 GitHubのユーザーページのURLの後ろに「.keys」をつけると、その人の公開鍵文字列がDLできます。 アカウントがy-tsuzakiなら https://github.com/y-tsuzaki.keys です URLにアクセスすると公開鍵の文字列が表示されます。 このURLを使うことで、 GitHubユーザーには、わざわざメールやチャットで「公開鍵送ってください」と言わなくていいのです。 これは捗りますね。 authorized_keysに設定する方法 追記する方法 コメントで教えてもらいました。 @grohiro さん @ktooi さん ありがとうございます!

                        もう「公開鍵送ってください」というやり取りは不要だった - Qiita
                      • マイクロサービスにおけるAZ間通信のコスト大幅削減した話 with Istio Locality Load Balancing - Gunosy Tech Blog

                        広告技術部のUT@mocyutoです。 大幅コスト削減シリーズ第二弾です。 前回はこちら tech.gunosy.io 今回はアベイラビリティゾーン(AZ)間通信のコストをIstioのlocality load balancingを使って削減した話になります。 概要 Istioとは どのようにコスト削減したか まとめ 概要 みなさんはマイクロサービスを導入しているでしょうか? 最近はモジュラモノリスが流行り始めている雰囲気を感じてきていますが、弊社の広告配信サーバは以下のようなマイクロサービス化された設計(と言っても2つのサービスしかないのですが)になっています。 構成図 一般的にクラウドプロバイダ上で構築している場合、耐障害性を高めるために複数AZ、複数リージョンに分散させることが基本になるかと思います。 弊社では、単一リージョン複数AZに分散させて稼働しています。 リージョン間の通信に

                          マイクロサービスにおけるAZ間通信のコスト大幅削減した話 with Istio Locality Load Balancing - Gunosy Tech Blog
                        • 75億ドキュメント以上のデータを保持するMongoDBを、Amazon EC2からMongoDB Atlasへ約3ヶ月で移設した方法 | CyberAgent Developers Blog

                          75億ドキュメント以上のデータを保持するMongoDBを、Amazon EC2からMongoDB Atlasへ約3ヶ月で移設した方法 はじめに タップル SREの赤野、CAM SREの庭木です。 タップルは2021年3月頃にMongoDB on Amazon EC2(以下EC2 MongoDB)からMongoDB Atlas(以下Atlas)への移設を行いました。 今回はこの移設での取り組みについて紹介します。 Atlasへ移設することになった経緯・目的 タップルでは定期的にキャパシティプランニングを目的とした負荷試験を実施しており、今後のDAU増加のシミュレーションに対してシステムのキャパシティが確保できるかを定期的に確認しています。 タップルSREのキャパシティプランニングの取り組みについては、以前発表させていただいた資料があるのでこちらにも目を通していただけると幸いです。 2020年

                            75億ドキュメント以上のデータを保持するMongoDBを、Amazon EC2からMongoDB Atlasへ約3ヶ月で移設した方法 | CyberAgent Developers Blog
                          • 分析基盤と組織のあり方 - DeNAの事例

                            今回のテーマは「分析基盤をうまく組織に浸透させる方法」です。 「分析基盤を浸透させていく上で、分析基盤を担う組織(分析基盤組織)がどのように形を変えていったか」という内容です。組織設計の参考になれば幸いです。

                              分析基盤と組織のあり方 - DeNAの事例
                            • なぜセキュリティを言い訳にアジリティが犠牲になるのか - 流沙河鎮

                              ここ数年、アジリティとセキュリティ(あるいはガバナンス)の両立について考える機会が多い。伝統的で規模の大きい企業にありがちな傾向として、セキュリティやガバナンスを確保するためにはシステムの開発/運用が鈍重、高コスト、不自由になったとしても已む無しとする思想がしばしば見受けられる。結果として例えば簡単な仮想サーバ1つを用意するだけでも数ヶ月の納期と膨大な工数を要するとか、世の中で当たり前に活用されている技術やプロセスが許可されない/導入に非現実的な手続きを要求されるといった状況が生まれる。 確かにシステムの安全性を適切にコントロールすることは重要である一方で、論理的に考えれば「セキュリティのためのビジネス」ではなく「ビジネスのためのセキュリティ」なのだから、セキュリティを確保するためにビジネスの成功が妨げられてしまっては本末転倒に思える。しかし実際には「セキュリティのためなので仕方がない」と

                                なぜセキュリティを言い訳にアジリティが犠牲になるのか - 流沙河鎮
                              • Kaggleの学習から投稿までをAWS, GitHub Actionsを使って自動化する - kanayamaのブログ

                                金山(@tkanayama_)です。先日終了したKaggleの"M5 Forecasting"というコンペに参加した際、クラウドやCI/CDの勉強も兼ねて、AWS, GitHub Actionsを使って遊んでみました。 免責 N番煎じだったらすみません。一応、同じことをやっているネット記事は見つかりませんでした。 私はクラウドなど勉強中の身分ですので、もっといいやり方がある or 説明が間違っている、などありましたら教えてください。 私がこのシステムを使って参加したコンペの順位は5,558チーム中1,000,000,000位だったので、Kaggleで勝てるかどうかは別問題のようです :pien: この記事のゴール 下記のようなシステムを構築することをゴールとします。 ユーザーがやることは2つ(図中でユーザーから伸びている黄色矢印)で、 実装したコードをgit pushし、 AWSコンソール

                                  Kaggleの学習から投稿までをAWS, GitHub Actionsを使って自動化する - kanayamaのブログ
                                • GitHub - openstatusHQ/openstatus: 🏓 The open-source website & API monitoring platform 🏓

                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                    GitHub - openstatusHQ/openstatus: 🏓 The open-source website & API monitoring platform 🏓
                                  • 先駆者に学ぶ MLOpsの実際

                                    「MLOpsとはなにか?」という質問に対し、「データサイエンティストが、システム開発において、やらないことすべて」と定義した上で、MLOpsの説明、海外事例、「JapanTaxi」アプリでの事例を説明しますRead less

                                      先駆者に学ぶ MLOpsの実際
                                    • メンテナンスウィンドウを使わない - @katzchang.context

                                      6年ほど無停止のサービスを運用してきた私の経験からすると、メンテナンスウィンドウ、つまり計画的メンテナンスに対するアラート発砲を抑制する機能は、使わないほうがうまくいく。仕事の中でも度々メンテナンスウィンドウの話題が出てきたので、個人の見解としてまとめてみたい。 計画的メンテナンスの手順 対外的に無停止だとしても、内部的には停止を伴うメンテナンスをすることがある。たとえば、MySQLを止めることはたまにある。まずは、どのようにメンテナンスを進めていくのかを整理しよう。 内部的な停止を伴うメンテナンスの際は作業に必要な時間とともに、アラートが起こる範囲を予測し、予告しておく。予告の範囲を決めるのは単純で、アラートが届くだろうチャンネルにお知らせしておけばいい。以前のチームではメールとSlackチャンネルを使っていたので、そこに書いていた。準備はこれでいい。 メンテナンス作業が始まる(たとえば

                                        メンテナンスウィンドウを使わない - @katzchang.context
                                      • モバイルゲームの運営を譲り受け「長命化」させるマイネット。彼らはどのようにサービスを移管しているのか?インフラ担当会社ビヨンドと共に内情を明かす - AUTOMATON

                                        ホーム PR モバイルゲームの運営を譲り受け「長命化」させるマイネット。彼らはどのようにサービスを移管しているのか?インフラ担当会社ビヨンドと共に内情を明かす 全記事PRDevlogインタビュー

                                          モバイルゲームの運営を譲り受け「長命化」させるマイネット。彼らはどのようにサービスを移管しているのか?インフラ担当会社ビヨンドと共に内情を明かす - AUTOMATON
                                        • 運用の考え方は「システム管理」から「サービス管理」へ ITIL4で変わってきた、運用者に求められること

                                          インフラエンジニア向けの書籍を取り上げ、著者と出会い、楽しく本を知り、仲間を作る場所である「インフラエンジニアBooks」。ここで、『運用改善の教科書』の著者である近藤氏が登壇。続いて、ITIL4の登場に伴う運用の考え方の変化と、昨今の運用に求められていることを紹介します。前回はこちらから。 2019年頃に起きた運用の変化 近藤誠司氏(以下、近藤):みなさん運用をやっている方が多いということで、ご存知のITIL(Information Technology Infrastructure Library)のv3、シラバス2011をベースにしたものを貼っています。いろいろとプロセスや機能などがあって、分類がありました。 シラバス2011、ITIL v3の時点では、基本的にはサービスストラテジが戦略を練る、サービスデザインは設計するというところです。トランジションは、設計したものを作って移行する

                                            運用の考え方は「システム管理」から「サービス管理」へ ITIL4で変わってきた、運用者に求められること
                                          • デブサミ2020で「礼節から育てるチームの健康と信頼性」という話をしました #devsumi #devsumic | DevelopersIO

                                            事業開発部の塩谷 (@kwappa) です。 2020年2月13, 14日、目黒雅叙園でDevelopers Summit 2020(通称「デブサミ」)が開催されています。その初日である2/13、 13-C-6 という枠をいただいて「礼節から育てるチームの健康と信頼性」という話をしました。 スライド セッション 昨年10月から継続してしゃべっている、チーム・心理的安全性・礼節についての総集編を目指してつくりました。過去のセッションから大きく変えてはいませんが、登壇を重ねるたびに自分でも理解が深まったように思います。 公式サイトの事前予約では「満席」の表示があり、実際のセッションもちらほら立ち見の方が出るぐらいの入場がありました。公募に通ったのも不思議なぐらいのふわっとしたタイトルでしたが、たくさんの方に聞いていてだけてとても光栄ですし、話し甲斐もありました。 聴いてくださったかたのツイート

                                              デブサミ2020で「礼節から育てるチームの健康と信頼性」という話をしました #devsumi #devsumic | DevelopersIO
                                            • クラウドのシステム運用技術に機械学習を応用する研究 / CLOUD AI

                                              第6回さくらインターネット研究会

                                                クラウドのシステム運用技術に機械学習を応用する研究 / CLOUD AI
                                              • 稼働中の商用ネットワークでVRRPの切替検証を実施しちゃった話 - Qiita

                                                ご挨拶 初めまして @moriya-snj です。 この記事は「本番環境でやらかしちゃった人 Advent Calendar 2019 - Qiita」の15日目の記事です。 みなさん盛大にやらかしている様で安心しております。 今回は私が社会人3ヶ月目でやらかした重大事故の記録を包み隠さず暴露するとともに当時フォローしてくださった先輩や上司お陰でなんとかこの業界で生き抜くこと出来ていることの感謝をお伝えすべく、キーボードに手を伸ばしております。 何をしでかしたか 顧客AがIP電話を導入するため、新たにVoIP用ネットワークを構築することとなった。 機器の設置等は別部署が行うため、設置依頼を出し、完了の報告をもらったため、ネットワーク機器のコンフィグなどを流し込み疎通確認などを行うこととなった。 疎通確認が完了し、お次はVRRPの切替確認を行おうとしたが、ここで誤って稼働中の顧客Bのネットワ

                                                  稼働中の商用ネットワークでVRRPの切替検証を実施しちゃった話 - Qiita
                                                • Gitで継続的デリバリーを実現する「GitOps」とは? 概要とGitOpsソリューションの紹介

                                                  GitOpsとは、分散バージョン管理システムであるGitを使用して、全てのアプリケーションとインフラストラクチャの望ましい状態を宣言的に記述し、管理する手法で、継続的デリバリーを実現する一つのモデルです。本連載では、GitOpsを活用した継続的デリバリーやプログレッシブデリバリーについて紹介します。第1回では、GitOpsの概要やメリット、GitOpsを実現するソリューションを紹介します。 はじめに 本連載はソフトウェアデリバリーにおける継続的デリバリー・プログレッシブデリバリーについての連載で、以下の3つの記事で構成されています。 第1回となる本記事では、継続デリバリーについての概要、話題となっているGitOpsは何か、どんなメリットがあるのか、現在のGitOpsソリューションについて紹介します。 第2回では、プログレッシブデリバリーの解説と各ソリューションの紹介・比較について説明します

                                                    Gitで継続的デリバリーを実現する「GitOps」とは? 概要とGitOpsソリューションの紹介
                                                  • メルカリにおける分析環境整備の取り組み - Speaker Deck

                                                    Transcript 1 ϝϧΧϦʹ͓͚Δ෼ੳ؀ڥ੔උͷऔΓ૊Έ גࣜձࣾϝϧΧϦ / JP Data Analyst ӬҪ৳໻ 2 Introduction 3 ! ӬҪ ৳໻ ! גࣜձࣾϝϧΧϦ / JP ! Data Analyst ◦ ෼ੳ؀ڥͷ੔උͳͲΛ୲౰ ࣗݾ঺հ 4 ! ݱঢ় ◦ ͳͥվળʹऔΓ૊Ήͷ͔?
 ! ͋Γ͍ͨ࢟ ◦ վળͷαΠΫϧΛճ͍ͨ͠ɻ ! औΓ૊Έ ◦ ϨΨγʔͳσʔληοτΛഇࢭ͢Δɻ ◦ ͦͷͨΊʹɺۀ຿ͱKPIͱج൫ΛηοτͰߟ͑Δɻ ΞδΣϯμ : ϝϧΧϦʹ͓͚Δ෼ੳ؀ڥͷ੔උͷࣄྫ 5 ݱঢ় | ͳͥվળʹऔΓ૊Ήͷ͔? 6 ! ج൫ ◦ BigQuery + Looker ! ن໛ ◦ ΫΤϦ࣮ߦϢʔβʔ਺ 700ਓҎ্/݄ ◦ ࢀর͞Ε͍ͯΔςʔϒϧ਺ 100Ҏ্/݄ ◦ Analyst, PdM, ML, CS, ͳͲ ϝϧΧϦʹ͓͚

                                                      メルカリにおける分析環境整備の取り組み - Speaker Deck
                                                    • サイト信頼性エンジニアリングのドキュメント

                                                      このブラウザーはサポートされなくなりました。 Microsoft Edge にアップグレードすると、最新の機能、セキュリティ更新プログラム、およびテクニカル サポートを利用できます。

                                                        サイト信頼性エンジニアリングのドキュメント
                                                      • State of DevOps Report 2021を日本語で解説 ーTeam Topologies Model、プラットフォームが重要な要素ー | TC3株式会社|GIG INNOVATED.

                                                        State of DevOps Report 2021を日本語で解説 ーTeam Topologies Model、プラットフォームが重要な要素ー はじめに State of DevOps ReportはDevOpsの成熟度についてアンケート形式で調査しているレポート資料です。毎年アップデートされているので、直近の動向などを理解し、かつ課題解決の活路を見出すのに良いレポートです。2021版が先日リリースされていました(もとのレポートはこちら)。 デジタルトランスフォーメーションの文脈の中で、ソフトウェア開発がますます増えてきていますが、単に一発作っておしまいではなく、継続的に進化させることが求められます。継続的にサービスを進化させていくことがビジネス力の根源となるということをアンケート調査から証明したのが、このレポートで、調査内容については、『LeanとDevOpsの科学』をご一読いただく

                                                          State of DevOps Report 2021を日本語で解説 ーTeam Topologies Model、プラットフォームが重要な要素ー | TC3株式会社|GIG INNOVATED.
                                                        • 障害対応、どう学ぶ? システム障害との向き合い方 Part1

                                                          2019年3月2日、TECH PLAY SHIBUYAにて「TokyoGirls.rb Meetup vol.1」が開催されました。女性でも参加しやすい、Ruby勉強会を目指して開催された本イベント。4人のエンジニアが登壇し、Rubyにまつわることをはじめとしたさまざまな技術の話題を語りました。プレゼンテーション「システム障害との向き合い方」に登壇したのは、しなもん(@sinamon129)氏。 講演資料はこちら システム障害との向き合い方 しなもん(@sinamon129)氏(以下、しなもん):お願いします。素敵なキラッとした話のあとにシステム障害の話をします。よろしくお願いします。 しなもんといいます。 今はWebメディアとECをやっているRiLiという会社で取締役CTOをやっています。RailsGirlsのコーチをやったりとかしています。アカウントは@sinamon129でやってるの

                                                            障害対応、どう学ぶ? システム障害との向き合い方 Part1
                                                          • KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部

                                                            2020.10.05 KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ こんにちは。次世代システム研究室のY. O.です。 筆者はデータ分析のスキルアップのためにkaggleというデータ分析プラットフォームを活用しています。kaggleを始めてから約2年間を経て、スキルアップの枠を超え、趣味・生活の一部・etc.になってきてしまっているのも認めざるを得ません。。。 今回は、先日kaggleの自然言語処理コンペ(Tweet Sentiment Extraction)で2位になった結果を題材に、振り返りの意味を込めて”こうしておけば良かった”という点をMLOpsの観点でまとめていきたいと思います。 ここで、kaggleを取り巻くMLOpsの構成をKaggleOpsと勝手に呼ぶこととし、少なくとも筆者は今後のコンペでも以下にまとめ

                                                              KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部
                                                            • Python で緊急対応時の Slack 操作を自動化してみた | DevelopersIO

                                                              このブログはこんな方におすすめ 緊急対応の初動を早めたい リモートワーク中心になり、緊急対応中の作業分担や進捗確認が難しい Google Apps Script で緊急対応時の Slack 操作を自動化してみた の Python 版がほしい 2021年6月11日に以下のセッションに登壇しました。本ブログでは登壇中に紹介するとお伝えした関数をご紹介します。また背景についても改めて少し記載しています。 業界特化事例紹介セッション SIer編 | Slack はじめに クラスメソッドでは Slack API を活用することで、いくつかある緊急対応の初動が約30分早くなりました。 では、どのように活用して初動対応を迅速化したのでしょうか。 本ブログでは、クラスメソッドの緊急対応の一つである、AWS 不正利用対応を例に紹介します。 AWS 不正利用とは、AWS アクセスキーの漏洩などが原因で発生しま

                                                                Python で緊急対応時の Slack 操作を自動化してみた | DevelopersIO
                                                              • [レポート] オペレーション、監視(Monitoring)、可観測性(Observability)… AmazonのCTOはAWS re:Invent 2020のキーノートでどう語ったか? キーワードを拾ってみた #reinvent | DevelopersIO

                                                                昨年12/18(日本時間では12/19)、AWS re:Invent 2020におけるのDr. Werner Vogels(ヴァーナー・ボーガス氏)のキーノートは皆さんご覧になられたでしょうか。 氏のキーノートセッションは毎回恒例ですが、例年だと開発環境や実行環境・AWSインフラについての話にフォーカスがあたっている印象でした。その中で「Everything fail, all the time」や「You build it, You run it」のような名言・格言が語られてきました。 ところが今回は「Developer Keynote」と銘打った上で、よりオペレーション段階の話に長く時間が割かれました。MLやインフラに特化したキーノートが別にあったことも要因のひとつでしょう。 どんなことが語られたのか? 個人的に気になったキーワードをひろってみました。 なお記事中の訳は基本的にぼくの解

                                                                  [レポート] オペレーション、監視(Monitoring)、可観測性(Observability)… AmazonのCTOはAWS re:Invent 2020のキーノートでどう語ったか? キーワードを拾ってみた #reinvent | DevelopersIO
                                                                • 障害の対策というゲーム その進め方 - 虎の穴開発室ブログ

                                                                  初めましての方は初めまして。お久しぶりの方はお久しぶりです。虎の穴のY.Mです。 このブログが始まった頃に、よく記事を書いていました。 月日は流れて、現在はEC開発のリーダーをやっております。 今回は技術的な内容というよりは、開発プロセスの内容を少し書きます。 書こうと思ったワケ 弊社のブログを眺めていたところ、これまで虎の穴の開発文化を紹介したことがなかったなと感じました。 チームでの開発をする上では、技術力はもちろん大事ですが、そのチームの開発文化が品質に大きく影響してきます。 ブログを読んでいただいている皆さんに、少しでも「こんな仕事のやり方をしてるよ」というのを知ってもらうべく、久しぶりに筆をとりました。 今回はそのとっかかりとして、一番エンジニアが頭と心を痛めるであろう『障害の事後対応』について書きます。 せっかくオタクエンジニアとして書くので、ちょっとゲーム仕立てにしてみます。

                                                                    障害の対策というゲーム その進め方 - 虎の穴開発室ブログ
                                                                  • Dependabotを導入してみた | DevelopersIO

                                                                    みなさんこんにちは。 突然ですがプロジェクトで使用しているライブラリのアップデートって面倒ですよね。 活動が活発なライブラリは嬉しい反面アップデートが辛かったり、セマンティックバージョニングを採用しているからガンガン自動で上がってくれないかと思いませんか。 そんなお悩みを解決するDependabotというものがありましたので導入してみました。 Dependabotとは package.jsonやgo.modといったマニュフェストファイルをみて古いライブラリやセキュアでないものを調べてくれます。 そして必要に応じてライブラリの更新を行いPull Requestを自動で作成してくれる優れものです。我々に残された仕事はPull Requestをmergeするだけなのです(そしてそれすらも自動化できる)。 こちら からも確認できますが現在サポートしている言語は下記のようになっています。 Ruby

                                                                      Dependabotを導入してみた | DevelopersIO
                                                                    • 「システム運用アンチパターン」という書籍を翻訳しました|yuichielectric

                                                                      こんにちは、田中裕一です。今回Jeffery Smithさんが書かれた「Operations Anti-Patterns」という書籍の日本語訳を「システム運用アンチパターン」として出版します。 発売日は4/12ですが、一部の書店では既に店頭に並んでいるようですし、オンラインでも買えるようになっています。是非一読いただけると嬉しいです。 どういった本か本書を一言で言うならDevOpsによる変革を実践する人のための一冊です。ただ、そういった書籍は「Effective DevOps」や「The DevOpsハンドブック」など、これまでもありました。そういった書籍との違いは本書についての紹介に表れています。 本書は、技術チームの運用担当や開発担当のチームリーダーや一般のエンジニアを対象としています。より上位のマネージャーやシニアリーダーも本書から多くの有用なヒントを得ることができるでしょう。しかし

                                                                        「システム運用アンチパターン」という書籍を翻訳しました|yuichielectric
                                                                      • Aurora MySQL 5.6のサポート終了とゼロダウンタイムアップグレードへの挑戦 - Cybozu Inside Out | サイボウズエンジニアのブログ

                                                                        こんにちは、グローバル向けAWS版kintoneのバックエンドエンジニアをしている@ueokandeです。 8月になって暑い日々が続きますね。そして8月と言えば、Amazon Aurora MySQL-Compatible Edition version 1 with MySQL 5.6 compatibility(以下Aurora MySQL 5.6)のサポート終了までおよそ半年となりました。 グローバル向けAWS版kintoneでは、Aurora MySQL 5.6を採用しているバックエンドサービスがいくつかあり、チームで移行作業に取り組んできました。この移行作業は単なるアップグレードだけではなく、ダウンタイムなしでデータベースを移行するチャレンジにも取り組みました。この記事ではAmazon Auroraの移行作業の全貌と、移行戦略を紹介します。 Aurora MySQL 5.6のサポ

                                                                          Aurora MySQL 5.6のサポート終了とゼロダウンタイムアップグレードへの挑戦 - Cybozu Inside Out | サイボウズエンジニアのブログ
                                                                        • 「なんにもしない」スクリプトを書く: 段階的な自動化を進めるために | Yakst

                                                                          [SRE]原文 Do-nothing scripting: the key to gradual automation – Dan Slimmon (English) 原文著者 Dan Slimmon 原文公開日 2019-07-15 翻訳依頼者 翻訳者 meiq 翻訳レビュアー doublemarket 原著者への翻訳報告 1724日前 Twitterで報告済み 編集 どんな運用チームにも、まだ自動化するところまで手が回っていない手作業があるものです。 トイル (toil) が完全に無くなることは決してありません。 成長企業のチームに非常にありがちなのが、インフラの変更手続きやユーザーアカウントのプロビジョニングが、最大のトイル源となっているケースです。 後者の例について手順の一部を書き出してみると、たとえば以下のようになるでしょう: ユーザーのSSHキーペアを作成する 公開鍵をGitに

                                                                          • 軽量feature flag導入の手引き - Qiita

                                                                            何か Kyashでサーバサイドのエンジニアをしているhirobeです。 業務でサーバサイドのアプリケーションへのfeature flag導入を提案および設計をしました。 どのような設計や実装にするか、なぜそうしたかを整理します。 なお、アプリケーションの特性としては以下を念頭に入れていただければと思います。 新規プロダクトではなく、5年以上動いている既存プロダクトに導入する サーバサイドアプリケーションのみをスコープとする 20~30のマイクロサービスから構成されている マイクロサービス間はREST/gRPC/SQSで通信されている そもそもなぜ導入するのか? 目的を整理しておきます! featureブランチからmainブランチにmergeされるまでの期間が長いために、以下のような問題がありました。 複数の機能開発の修正がconflictする可能性があり、またそれに気づくのが遅れる可能性が

                                                                              軽量feature flag導入の手引き - Qiita
                                                                            • 10倍スパイクの速報時に耐えうるAPIのスケーリングの仕組み - Gunosy Tech Blog

                                                                              広告技術部のUT@mocyutoです Gunosyではニュース記事を配信運用するメディア部門とアプリ上などに広告を配信運用する広告部門があります。 (本記事では「メディア」とはグノシーやニュースパスなどのサービスを指し、「広告」はそのメディアに出す広告を指します。) 今回は広告部門が運用している広告システムのスケールの仕組みについて紹介します。 課題 解決策 仕組み スパイクスケーリング スケジュールスケーリング スケールのロジックを記述 まとめ 課題 メディア側のシステムは各サービスごとにチームが分かれており、それぞれ別のシステムで稼働しています。 しかし、広告側のシステムは単一のシステムで動いており、各メディアの広告配信すべてを担っています。 そのため、サービスが増えるごとにトラフィックが増える仕様になっています。 特に速報などのプッシュ通知をメディアが送信すると一気にユーザはアプリを

                                                                                10倍スパイクの速報時に耐えうるAPIのスケーリングの仕組み - Gunosy Tech Blog
                                                                              • 小さなチームでのDevOps

                                                                                はじめに これは"小さなチーム"でDevOpsを実践する際のアイデアのポストです。 DevOpsとは、運用の知識を開発に取り入れるマインドセットであり、またそのためのプロセスやアプローチを指します。ここでの"小さなチーム"というのは開発担当と運用担当とが分かれていないようなチームを指します。 DevOpsというとよく言及されるのは開発担当と運用担当のIntegrationの話だったり、DevOps専任チームの話や、DevOpsツールに言及するものが多いかと思うのですが、今回は開発担当と運用担当とが分かれていないような"小さなチームにおけるDevOps"についての話となります。表面的な事象の裏側にある構造上の特性を考えてみます。 "小さなチームでのDevOps"の場合には、DevとOpsの2つのミッションが1つのチームに集約統合(Consolidation)されています。全員が同じミッション

                                                                                  小さなチームでのDevOps
                                                                                • MySQLで3億レコード物理削除した話 - Qiita

                                                                                  はじめに こんにちは。webエンジニア社会人をしている ningenMe です。 タイトル通り。MySQLで3億レコード物理削除した話。 ちょっとハマったので備忘録。 はじまりはアラート はじまりはアラートだった。 僕が運用・保守しているバッチサーバでは、mysqlからちょうど直近1ヶ月分のデータを毎日1回selectする定期処理をしている。 いつもなら1時間程度で終わる処理のはずが、その日は7,8時間経っても終わらずアラートが鳴り止まない.....。 原因追求 とりあえずリトライしたり、ログ見たりしたもののあんまり悪いところがなかった。 クエリもちゃんとindex効いてる。なんでだろうと思ったらDBの容量が結構大きくなっていたことに気づいた。 3億5千レコード。インデックスちゃんと効いてたので多分普通に遅いだけっぽい。 必要なデータ取得は1ヶ月分である12'000'000件ほど。このse

                                                                                    MySQLで3億レコード物理削除した話 - Qiita