並び順

ブックマーク数

期間指定

  • から
  • まで

481 - 520 件 / 891件

新着順 人気順

SREの検索結果481 - 520 件 / 891件

  • SRE実践の形:7種類の SRE 実践パターン - 株式会社X-Tech5

    SRE (Site Reliability Engineering)の実践パターンの話をします。 わたしたちが自身の経験をもとに書いたものですが、参考資料の影響を多大に受けています。参考資料がどれも厚すぎて参考にしきれていない感はあります。 これらの実践パターンはどれかが優れているというものではなく、組織やプロダクトの状況によって選択するものだと考えています。 なお次のエントリでSREを成していく道のりの話をしています。 SRE実践への道:ボトムアップの場合 SRE実践への道:トップダウンの場合 7種類のSRE実践パターン これらは順番に発生していくものではありません。また これらの実践パターンは排他的ではなく、複数を並行実施する ことがあります。 わたしたちが知る限りSREのミッション(あるいはSREに対する期待値)は両極端で、全体を俯瞰し全体最適を図る方向性の場合と、可用性・パフォーマ

      SRE実践の形:7種類の SRE 実践パターン - 株式会社X-Tech5
    • 6年のスケジュールの変化 - Konifar's WIP

      Kyash Advent Calendar 2023 23日目の記事です。 Kyashに入社して6年が経ちました。 Androidアプリのエンジニアとして入社し、Androidを書いたりiOSを書いたりGoを書いたり、CSチームで問合せ対応をしたり、MobileチームのEMをやったりQAとしてテストの自動化をやったりして、今は開発組織全体のマネジメントをしています。あと4年前には子も産まれました。色々ありましたね。 最近他社のマネージャーに時間の使い方の話を聞いた時にとても面白かったので、自分の6年間のGoogleカレンダーのスケジュールの変遷を書いてみます。 2017/12 1週間 Android開発に集中する 真っ白ですね!Android開発に集中って感じでした 3週間くらいはこんな感じで、その間に送金時の39アニメーションとアプリロックの指紋認証機能を作ってリリースしました 2018

        6年のスケジュールの変化 - Konifar's WIP
      • Why Twitter Didn’t Go Down: From a Real Twitter SRE

        Twitter supposedly lost around 80% of its work force. What ever the real number is, there are whole teams with out engineers on it now. Yet, the website goes on and the tweets keep coming. This left a lot wondering what exactly was going on with all those engineers and made it seem like it was all just bloat. I’d like to explain my little corner of Twitter (though it wasn’t so little) and some of

          Why Twitter Didn’t Go Down: From a Real Twitter SRE
        • 今年読んだ技術書籍(2019年)

          今年読んだ技術書籍やレポートなどをざっくりまとめてる.Infrastructure Engineer・Platfomerとして日々の業務に直結するものから1年くらいかけてやっていきたいと思っていることなどを中心に. Kubernetes 業務ではメインにKubernetesを使っているのでKubernetesに関わる書籍は発売されれば大体目を通すようにしている. 今年発売されたので良かったのはProgramming Kubernetes.この本はCRDやOperatorによってKubernetes nativeなアプリケーションを構築することにフォーカスしている.昨年のJapanContainerDaysでのMicroservices Platform on Kubernetes at Mercariでも話したようにKubernetesを使う大きな理由の1つはその拡張性にある.Kubebu

          • オブザーバビリティの最前線 OpenTelemetryで下げる認知負荷~活用事例4選~ - Findy Tools

            公開日 2024/05/29更新日 2024/06/06オブザーバビリティの最前線 OpenTelemetryで下げる認知負荷~活用事例4選~ 近年マイクロサービスアーキテクチャの普及やクラウドネイティブの普及が進み、システムの複雑性は増す一方です。システムの動作を正確に把握することはますます困難になっており、そのような状況の中で、オブザーバビリティはシステムを安定的に運用するために必要不可欠な要素になってきています。 そして、オブザーバビリティの重要性の認知が高まるにつれて、多くの企業でオブザーバビリティに関するツールの導入も進み始めています。 そのような潮流の中、オブザーバビリティ分野でさらなる大きな可能性を持つプロジェクトがOpenTelemetryになります。 本記事では、OpenTelemetryとは一体どんなものなのか、そして実際にOpenTelemetryの導入・活用に成功し

              オブザーバビリティの最前線 OpenTelemetryで下げる認知負荷~活用事例4選~ - Findy Tools
            • Google Cloudの主要サービスが10時間ものあいだ障害発生。原因は分散アクセスコントロールへの大量の変更要求が引き起こしたメモリ不足

              Google Cloudの主要サービスが10時間ものあいだ障害発生。原因は分散アクセスコントロールへの大量の変更要求が引き起こしたメモリ不足 Google Cloudは、米国太平洋時間の3月26日木曜日16時50分(日本時間27日金曜日 午前8時50分)頃から約10時間ほどのあいだ、Google Compute EngineやCloud Storage、Cloud SQLなどをはじめとする主要なサービスで障害を起こしていました。 受けた影響はリージョンごとに異なりますが、ほぼすべてのリージョンで何らかの影響を受けたようです。 Googleはその原因についての調査結果を発表。原因はGoogle Cloud内部でアクセスコントロールを司る部分に障害が発生したことだったと説明しました。 アイデンティティマネジメントへの大量の更新要求がキャッシュサーバの障害に クラウド内部では、APIへのアクセス

                Google Cloudの主要サービスが10時間ものあいだ障害発生。原因は分散アクセスコントロールへの大量の変更要求が引き起こしたメモリ不足
              • 明日から、仕事するー! - Mitsuyuki.Shiiba

                昨日、4月1日に株式会社カケハシへ入社した。 株式会社カケハシに入社しました - Mitsuyuki.Shiiba 明日から仕事が始まるので、ひとつの区切りとして、この3ヶ月半をふりかえっておこうと思う。ちょっと長くなっちゃった。 前職を退職 ウェブアプリケーションエンジニアとして転職活動をしますー! - Mitsuyuki.Shiiba 12月15日付けで前職を退職することになったため、ブログを書いて「転職活動します!」とツイッターにポスト。ありがたいことにたくさんの方が声をかけてくれたり、応援してるよって言ってくれたりして嬉しかった。 外資への応募も少し考えてたけど、こんなに声をかけてくれたので、その中で探すことにした。レイオフじゃないと、こういう形で転職活動をすることもないから、いい経験だなと思いつつ。 カジュアル面談 12月から1月にかけて77社にお声がけいただき、42社とカジュア

                  明日から、仕事するー! - Mitsuyuki.Shiiba
                • SREは大規模なリプレイスプロジェクトで発生した様々な問題にどう取り組んだか【Backlog Play 化プロジェクト】 | Backlogブログ

                  Backlog SREチームのmuziです。2018年4月から2019年7月まで、BacklogをJavaからScala / Play Frameworkに移行する大規模なリプレイスプロジェクトに参加していました。 SREとして、このリプレイスにはかなりの困難が伴いました。特にBacklogのサービス安定性は大きな問題でした。 本記事では、こうした問題に対して、SREである私がどういうアプローチを取ったのか、そしてこのプロジェクトで得られた教訓を今後チームや組織全体でどのように活かそうとしているかをご紹介します。 正直言って、泥臭い話だらけの内容です。それでも、技術的負債を抱えたプロジェクトでSREが取れるアプローチの事例の一つとして、読者の参考になれば幸いです。 はじめに ヌーラボでは2015年11月から2019年7月まで、BacklogをJavaからScala / Play Frame

                    SREは大規模なリプレイスプロジェクトで発生した様々な問題にどう取り組んだか【Backlog Play 化プロジェクト】 | Backlogブログ
                  • SREチームがスクラムを導入し1年でタスクの可視化と脱属人化を実現した話

                    ビズリーチ事業部のSREチームは、スクラムを導入して1年が経ち、タスクの可視化と脱属人化を実現しました。 導入にあたって何をしたのか、開発チームとは異なる工夫が必要だったところはどこか、導入後何が変わったのかを振り返ってみました。 ビズリーチ事業部のSREチームについて 「ビズリーチ」を担当していて、SRE(Site Reliability Engineer)としてアプリケーションエンジニアと共にプロダクトの継続的な成長のため信頼性・可用性の向上、自動化、効率化などに取り組んでいます。 なお、チームの構成は以下のようになっています。 開発者: SREチームのメンバー(5人) PO: SREチームのマネージャー スクラムマスター: 社内横断組織に所属している専任のスクラムマスター SREチームが抱えていた課題とスクラムの導入目的 まず、SREチームがスクラムを導入した背景を説明します。 PO

                      SREチームがスクラムを導入し1年でタスクの可視化と脱属人化を実現した話
                    • 「社員体験」を追求したWi-Fi打刻システムWIASを開発、メンテナンスしている話 | メルカリエンジニアリング

                      Icon made by Freepik from www.flaticon.com こんにちは。 今年度、新卒で株式会社メルペイに入社し、SREチームの配属になったkeke(Twitter: @_k_e_k_e)です。 本記事では、メルカリの社内サービスであるWi-Fi打刻システムWIAS(Wi-Fi Attendance System)のお話をします。 会社に所属すると出退勤を記録する必要があります。その中で面倒に感じる、忘れてしまう、記録方法が分からない……など色々な問題が出てきます。しかし、Wi-Fiと勤怠システムをうまく組み合わせることによって社員体験を向上させることができた私達のチャレンジを紹介します。 目次 本記事は以下のセクションで構成されています。ご興味のあるセクションだけでもご覧ください。 目次 WIASとは 「社員体験の向上」というゴール WIASの開発背景 旧システ

                        「社員体験」を追求したWi-Fi打刻システムWIASを開発、メンテナンスしている話 | メルカリエンジニアリング
                      • 時系列でみる!4年の歳月をかけてPlay Frameworkで「大規模リプレイス」した話【Backlog Play 化プロジェクト】

                        ヌーラボの松浦です。私がSREのエンジニアリングマネージャーとしてプロジェクトのサポートに携わっているプロジェクト管理ツールのBacklogは、2019年7月にJavaからScala / Play Frameworkに完全移行をしました。 このPlay化プロジェクトは、10年がかりで改良され仕様が明文化されていなかったBacklogを、JavaからScala / Play Frameworkに移行するという壮大なプロジェクトでした。 約4年にわたる「Backlog Playプロジェクト」(以下、Play化プロジェクト) で体験した“紆余曲折”を記録に残し、後のプロジェクトにつなげるために、今回から7回に渡って、技術的な挑戦やプロジェクト管理の視点など、当時のチームメンバーが独自の目線でPlay化プロジェクトを振り返った記事を連載します。 連載第1回目の本記事では、序章としてPlay化プロジ

                          時系列でみる!4年の歳月をかけてPlay Frameworkで「大規模リプレイス」した話【Backlog Play 化プロジェクト】
                        • 【OpenTelemetry】オブザーバビリティバックエンド8種食べ比べ

                          sumirenです。 技術顧問やSREをしています。 背景 2024年現在、OpenTelemetryが盛り上がっており、ベンダへの依存度を下げてテレメトリを収集・送信することがトレンドになってきているように思います。多くの企業様で、OpenTelemetry対応のオブザーバビリティバックエンドを選定されているのではないでしょうか。 一方で、E2E自動テストツールなどもそうですが、デベロッパーツールは画面やUXの情報がパブリックな情報として出回ることが少ないように思います。オブザーバビリティバックエンドの場合、シグナル3種に関してOpenTelemetryベースでもフルに機能が活用できるのかという疑問もあります。 そうしたこともあり、オブザーバビリティバックエンドは実際にトライアルしてみないと選定しづらいです。監視など狭義のオブザーバビリティ外の機能や、OpenTelemetryの範囲外の

                            【OpenTelemetry】オブザーバビリティバックエンド8種食べ比べ
                          • セキュリティインシデント疑似体験調査ワークショップに参加すべき3つの理由 - Techtouch Developers Blog

                            はじめに こんにちは。最近はテックタッチの同僚とボルダリング同好会のようなものを作ってワイワイしてます!SRE の izzii です。 7月27日、社内の有志を集めて AWS ジャパン主催のセキュリティインシデント疑似体験 調査ワークショップに参加しました。このイベントは、AWS 環境上の典型的なセキュリティインシデントを再現したログを用いて、CTF (Capture The Flag、旗取りゲーム) 形式で AWS のセキュリティで気をつけるべきことを学べるイベントです。 テックタッチからは、izzii (SRE), roki (SRE), canalun (フロントエンド), kacchan (コーポレートセキュリティ) が参加し、その4名で構成されたチーム 「gokigen」 は約40チーム中で3位に入賞することができました!(記事のトップ画像はその時のキャプチャです ※AWS 様に

                              セキュリティインシデント疑似体験調査ワークショップに参加すべき3つの理由 - Techtouch Developers Blog
                            • 『LeanとDevOpsの科学』まとめ - Qiita

                              以前からAmazonの欲しいものリストにはあったのですが、なかなか読みたい気持ちにならずリストを整理するときに削除しちゃっていたのですが 2月ぐらいからTwitterでこの本についての言及が増えたし、ちょうどそのころ開発生産性とは何か、について一考していたこともあったので、読んでみました。 LeanとDevOpsの科学 一旦さらっと読んで、面白いなー、やっぱデリバリ大事だなーと思って読了したんですが 先日texta.fmでこの本のことが取り上げられており、あー、そんな読み方があったかーと思って改めてちゃんと読み直してみました。 構成 第一部: 調査結果から見えてきたもの(パフォーマンスを向上させるケイパビリティとは何かの話。特にデリバリを中心に多面的に検討している) 第二部: 調査・分析方法 第三部: 改善努力の実際(いろんな会社の取り組みの事例) 読み方 常に付録Aの図A.1を開いてお

                                『LeanとDevOpsの科学』まとめ - Qiita
                              • メルペイのマイクロサービスとCloud Native / CloudNative Days Kansai2019

                                CloudNative Days Kansai 2019のキーノートの資料です

                                  メルペイのマイクロサービスとCloud Native / CloudNative Days Kansai2019
                                • ワークフロー実行基盤をFargateからEC2へ変更したらコストもパフォーマンスも改善できて幸せになった話 - ZOZO TECH BLOG

                                  はじめに こんにちは、ブランドソリューション開発本部バックエンド部SREブロックの小林(@mirai_kobaaaaaa)です。普段はWEARやFAANSというサービスのSREとして開発、運用に携わっています。 WEARではAmazon Elastic Kubernetes Service(以下、EKSと呼ぶ)を用いて複数システムのインフラ基盤を構築・運用しています。その中の1つとして、ワークフロー処理の実行基盤が存在しています。 本記事では、そのワークフロー実行基盤が抱えていた課題と、それらをどのように解決したのかを紹介します。また、付随して得られたメリットについても紹介いたします。 目次 はじめに 目次 WEARにおけるワークフロー ワークフロー処理内容 ワークフロー実行基盤の構成 ワークフロー実行基盤の課題 コスト内訳の調査 過剰なPodスペック Fargate実行時間の増大 ワーク

                                    ワークフロー実行基盤をFargateからEC2へ変更したらコストもパフォーマンスも改善できて幸せになった話 - ZOZO TECH BLOG
                                  • ITエンジニアから研究者へ。社会人博士として大学院にも再挑戦し、自分の「代表的プロダクト」を追求するわけ - Findy Engineer Lab

                                    こんにちは、坪内佑樹です。Web上では、ゆううき(@yuuk1t)と呼ばれています。 僕は現在、さくらインターネット研究所で研究員を務めています。専門領域は、ITエンジニアが情報システムに対して常に変化をもたらしながら、同時に情報システムの信頼性を高めていくための技術である、Site Reliability Engineering(SRE)です。 これまで、大学院を中途退学したのち、Webサービス企業でWebオペレーションエンジニアおよびSREを5年間務めました。そして昨年(2019年)の2月から現職で研究開発に取り組んでおり、今年はさらに情報系の大学院の博士課程に社会人博士として進学します。 本記事では、昨今注目を浴びているSRE分野において「代表的プロダクト」を作ることに憧れ、それを目標の軸に据えて、なぜエンジニアから研究者になる「選択」をしたのかをご紹介します。 大学で研究するより、

                                      ITエンジニアから研究者へ。社会人博士として大学院にも再挑戦し、自分の「代表的プロダクト」を追求するわけ - Findy Engineer Lab
                                    • メルペイのエンジニアが教えるマイクロサービスアーキテクチャを安全かつ継続的に運用する方法

                                      KubeFest Tokyo 2020は、Kubernetes を利用している人、これから導入したい人が新しいことを学んだり、ネットワーキングすることを狙いとして開催するワンデイのオンラインイベントです。Kubernetes環境におけるCI/CDの問題をOpen Policy AgentとSpinnakerを導入することで解決する方法について、メルペイの山下氏が話をしました。前半はメルカリのマイクロサービスアーキテクチャについて。 自己紹介とアジェンダ 山下慶将氏(以下、山下):「Open Policy AgentとSpinnakerで実現するマイクロサービスの安全な継続的デリバリー」というタイトルで発表いたします。よろしくお願いします。 はじめに自己紹介します。山下慶将と言います。Twitterは@_k_e_k_eでやっているので、よかったらフォローしてください。今はメルペイSREに所属

                                        メルペイのエンジニアが教えるマイクロサービスアーキテクチャを安全かつ継続的に運用する方法
                                      • データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ

                                        JX通信社シニア・エンジニア兼データ基盤担当大臣の@shinyorke(しんよーく)です. 最近やった「ちょっとした贅沢」は「休日, 自宅で🍺片手に野球を見ながらUberEatsで注文したランチを楽しむ」です. ⚾と飲食を提供してくださる皆さまに心から感謝しております🙏 JX通信社では, 機械学習を用いたプロダクト開発・施策 プロダクト・サービスの改善に関する分析 日々のイベントをメトリクス化して可視化(いわゆるBI的なもの) を円滑かつ効率よく行うため, 昨年からデータ基盤を整備・運用しており, 現在では社員のみならず(スーパー優秀な)インターンの皆さまと一緒に活用し, 成果を出し始めています. ainow.ai なぜデータ基盤が必要か?どういった事をしているのか?...は上記のインタビューに譲るとして, このエントリーでは「データ基盤を支える技術 - ETL編」と称しまして, Py

                                          データ基盤を支える技術 - ETLフレームワークの実践的な選び方・組み合わせ方 - JX通信社エンジニアブログ
                                        • クラウドを扱うエンジニアにとって「Terraform」は必須ツール!? 〜エンジニアが語る技術愛 #05〜|ミクシル

                                          ホーム カルチャー クラウドを扱うエンジニアにとって「Terraform」は必須ツール!? 〜エンジニアが語る技術愛 #05〜 ミクシィには、探究心溢れるエンジニアがたくさん在籍しています。 その探究心は業務で扱う技術にとどまらず、趣味で書いているプログラムだったり、個人的に研究している言語だったりと、自身の気になった技術への追求も留まることを知りません。 そこで、社内のエンジニアに“好きな技術”について、思う存分に語ってもらうシリーズを始めました。 ルールはこの通り。 ・業務で使っている技術でも、使われていない技術でもOK ・あくまでも個人的な見解で ・その技術のどこが面白いのか ・愛を込めて語り尽くしてもらう 第5回目は、みてね事業部 開発グループ SREチームの清水に「Terraform」について語ってもらいました。 清水 勲(しみず いさお)Vantageスタジオ みてね事業部 開

                                            クラウドを扱うエンジニアにとって「Terraform」は必須ツール!? 〜エンジニアが語る技術愛 #05〜|ミクシル
                                          • タクシーアプリ『GO』におけるプラットフォームエンジニアリングの実践

                                            開発生産性Conference 2024で発表した資料です。 https://dev-productivity-con.findy-code.io/2024?m=2024/m/XmiKkhYo

                                              タクシーアプリ『GO』におけるプラットフォームエンジニアリングの実践
                                            • SRE NEXT 2022を開催します - SRE NEXT Staff Blog

                                              SRE NEXT Logo はじめに こんにちは!SRE NEXT 2022実行委員会委員長のnari です。 先日、SRE NEXT公式Twitter アカウントにてSRE NEXT 2022の5/14,15の日程でのオンライン開催が発表され、オフィシャルサイトも公開されました! この投稿では、なぜ我々はSRE NEXT 2022を開催するのか・どんなカンファレンスにしたいかを書いていきます。*1 2022/2/7追記: スポンサー募集開始しました SRE NEXT 2022 スポンサー応募フォーム 2022/2/7追記: CFP Openしました SRE NEXT 2022 の CFP についてのご案内 - SRE NEXT Staff Blog SRE NEXTとは 信頼性に関するプラクティスに深い関心を持つエンジニアのためのカンファレンスであり、同じくコミュニティベースのSRE勉強

                                                SRE NEXT 2022を開催します - SRE NEXT Staff Blog
                                              • 75億ドキュメント以上のデータを保持するMongoDBを、Amazon EC2からMongoDB Atlasへ約3ヶ月で移設した方法 | CyberAgent Developers Blog

                                                75億ドキュメント以上のデータを保持するMongoDBを、Amazon EC2からMongoDB Atlasへ約3ヶ月で移設した方法 はじめに タップル SREの赤野、CAM SREの庭木です。 タップルは2021年3月頃にMongoDB on Amazon EC2(以下EC2 MongoDB)からMongoDB Atlas(以下Atlas)への移設を行いました。 今回はこの移設での取り組みについて紹介します。 Atlasへ移設することになった経緯・目的 タップルでは定期的にキャパシティプランニングを目的とした負荷試験を実施しており、今後のDAU増加のシミュレーションに対してシステムのキャパシティが確保できるかを定期的に確認しています。 タップルSREのキャパシティプランニングの取り組みについては、以前発表させていただいた資料があるのでこちらにも目を通していただけると幸いです。 2020年

                                                  75億ドキュメント以上のデータを保持するMongoDBを、Amazon EC2からMongoDB Atlasへ約3ヶ月で移設した方法 | CyberAgent Developers Blog
                                                • ふるさとチョイスのSREとしてこの1年やってきたこと - Qiita

                                                  この記事は、トラストバンク Advent Calendar 2021の20日目です トラストバンクでSREをしている@Tocyuki(としゆき)です! トラストバンクへ入社してちょうど1年となるので本記事ではこの1年SREとしてやってきたことを書きたいと思います! 一人目のSREとして 私は去年の12月に一人目のSREとしてトラストバンクへ入社しました。 入社の経緯やキャリア等については弊社Wantedlyのストーリーにインタービュー記事があるので是非見てみて下さいー! https://www.wantedly.com/companies/trustbank/post_articles/305115 トラストバンクの運営しているサービスにふるさとチョイスというふるさと納税サイトがあります。 ふるさと納税サイトの先駆けであり、入社前から知っているサイトでもありました。 入社前までは社内にイン

                                                    ふるさとチョイスのSREとしてこの1年やってきたこと - Qiita
                                                  • 「仕事ではじめる機械学習 第2版」を読んで思った「ソフトウェアエンジニアとデータサイエンティスト, ML Ops」のこと - Lean Baseball

                                                    このエントリーのテーマです このエントリーは, 「仕事ではじめる機械学習 第2版」出版お祝いのエントリーとなります. 仕事ではじめる機械学習 第2版 作者:有賀 康顕,中山 心太,西林 孝オライリージャパンAmazon 私自身, 第1版登場の2018年頃*1から「機械学習エンジニア」「企画・提案のフェーズから機械学習プロジェクトを回すマン」など, まさに機械学習を仕事とするロール・立ち位置で働いたり個人開発をしたりしていた身として, 色んな場面で参考にしていた書籍の待望の第2版登場で嬉しいです. 待ちに待った仕事ではじめる機械学習第2版、戴きました🙏 週末読んで感想書くぞ📕 pic.twitter.com/66mcTzxja5— Shinichi Nakagawa / 中川 伸一 / Senior Engineer (@shinyorke) 2021年4月15日 縁あって著者の皆様およ

                                                      「仕事ではじめる機械学習 第2版」を読んで思った「ソフトウェアエンジニアとデータサイエンティスト, ML Ops」のこと - Lean Baseball
                                                    • Kubernetes CronJobと仲良くなりたい | メルカリエンジニアリング

                                                      この記事は、Merpay Tech Openness Month 2020 の17日目の記事です。 こんにちは。メルペイのSREの駒崎(@komattaka)です。 暑かったり台風だったりと大変な日々が続いていますが、ご自愛ください。 目次 対象読者 得られるもの 説明しないこと はじめに CronJobの仕組 そもそもCronJobとは何か パラメータの解説 CronJobが作成される流れ メルペイでは何に困っていた? suspend: trueにしていたCronJobがfalseにした後もJobを生成しない (GKE特有) NodeがCluster Autoscalerによって停止されると、そのNodeで稼働していたJob(Pod)のEvictをCronJobが正常終了したと誤解しconcurrencyPolicy: Forbid(Replace)なのに並列稼働した ユースケース別に設

                                                        Kubernetes CronJobと仲良くなりたい | メルカリエンジニアリング
                                                      • 事業とプロダクトで転職先を選んだら一致する技術スタックがほぼ0個だった話|sys1yagi

                                                        Ubie(ユビー)株式会社でソフトウェアエンジニアをしている八木(@sys1yagi)です。Ubieに入社してすでに1年8ヶ月くらい経ってますが(2019年4月入社)、入社エントリを書いていなかったので書きます。 【特にこんな人に読んでほしい】 ・Ubieに興味があるけど、技術スタック全然違うしな〜って思ってる人 ・キャリアとか転職とか皆どういう観点で考えてるんだろと気になる人これまでのキャリアソフトウェアエンジニアになって2021年でちょうど15年になります。Ubieに入社する2019年までは10年間ほどAndroidアプリケーションエンジニアをしていました。クックパッドのAndroid版をスクラッチしたり、新規事業のAndroid部分を担当したり(当時は一つのクックパッドアプリケーション内で複数事業の機能が入ってました)、新規事業がMBOして独立する際に技術部長を兼任しつつAndroi

                                                          事業とプロダクトで転職先を選んだら一致する技術スタックがほぼ0個だった話|sys1yagi
                                                        • Team Topologiesを読んだ

                                                          https://teamtopologies.com/ DevOps consultantとして技術と組織の両面からDevOpsの支援を行なってるMatthew SkeltonとManuel Paisによる本.Consultant本は大体中身が薄く感じることが多くなり手に取ることは少なくなってきたが,各所で見かけたり,2人によるDevOpsにおけるチームのあり方のパターンをまとめたWhat Team Structure is Right for DevOps to Flourish?が良かったので読んでみた. 本書はDevOpsの視点から高速なDeliveryを実現するためにどのようなチームや組織を作るべきかについてまとめている.個人ではなくチームをDeliveryの最も重要な単位と考え(Team first-thinking),チームが最大限にパフォーマンスを発揮するために,チームの人数

                                                          • GitHub Flow with GitOpsの導入 - ZOZO TECH BLOG

                                                            はじめに こんにちは、計測プラットフォーム開発本部SREブロックの近藤です。普段はZOZOMATやZOZOGLASS、ZOZOFITなどの計測技術に関わるシステムの開発、運用に携わっています。 計測プラットフォーム開発本部では、複数のプロダクトを開発運用していますが、リリース作業はプロダクト単位で行っています。プロダクトによってローンチから数年経過し安定傾向のものもあれば、ローンチしたばかりで機能開発が盛んなものもある状態です。 複数のプロダクトを管理する上では当然の状況ですが、プロダクト単位でリリース作業手順が異なり、手順そのものにも課題がある状態でした。 本記事では、リリース作業で課題となっていた部分の紹介と、それぞれの課題に対する対応策についてご紹介します。 目次 はじめに 目次 現状 課題と対応方針 リリース作業の自動化 リリース作業の自動化をする上での必須条件の確認 自動化が必要

                                                              GitHub Flow with GitOpsの導入 - ZOZO TECH BLOG
                                                            • SRE四大行 | 外道父の匠

                                                              元々なんでも屋ってたけど、我が部署名もSREになったし、インフラエンジニアって書くと『IT』警察が寄ってくるからSREでいきましょう。短いのはイィ。 SREがやることは書籍『O’Reilly Japan – サイトリライアビリティワークブック』がほぼ語っていますが、もうちょっと噛み砕いて自分的にはこの四大行を軸に活動すれば、いっぱしのSREになれんじゃねっていう戯れであります。 SREのお仕事を大雑把に表現すると、サービス開発者が作成したアプリケーションを、動かす環境を用意し、安全・効率的に動かし続けることだと思っています。 IT業界の事情変化につれて、SREの重要性は高まる傾向にあり、それに伴いSREとして活動を希望する人材も増えたような、そうでもないような。気がするけど、SREとして食ってく気ならこれら四大行が基本であり奥義になるよって話です。 『構築』 アプリケーションを動かすための

                                                                SRE四大行 | 外道父の匠
                                                              • コアメンバーの連続退職、エンジニア組織崩壊の危機から、退職ゼロ・人員倍増に至るまでの話

                                                                2023年の4月から、プロダクト開発チームのEMを務めている岩谷です。本記事では、当時プロダクトエンジニア13人中3人の退職が重なる中々しびれる状況から、エンゲージメントや開発品質の改善に向き合い、怒涛の半年間が過ぎ、現在21人の組織になるまでに取り組んできたことや学びについてご紹介できればと思います。 事業背景2023年3月以前、以下のような組織体制で、私はML Engineering / MLOpsを推進する基盤チームのEMを勤めておりました。 プロダクト開発チームは、いわゆるマトリクス組織で、3つの職能横断のフィーチャーチームを構成し1つのAnewsというプロダクトを開発していました。エンジニアは全体でEMが1名、チームごとにエンジニアのリーダーがおり、開発の運用方法は全て各チームに委ねられている状態でした。 そんな中、EM1名、リーダー1名、エンジニア1名が新しいチャレンジの場を求

                                                                  コアメンバーの連続退職、エンジニア組織崩壊の危機から、退職ゼロ・人員倍増に至るまでの話
                                                                • 検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ

                                                                  エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。最近、AI・機械学習チーム配下の検索基盤チームでElasticsearchのAnalyzerをKuromojiからSudachiに移行しました。今回はSudachi移行の背景と、Sudachiの概要、実際に移行するにあたってのプロセスや注意事項をお話しします。 対象読者 なぜSudahchiに移行したのか 検索基盤チームが抱えていた検索の課題 Sudachiとは Sudachiへの移行戦略と実践 今使っているKuromojiユーザー辞書をSudachiユーザー辞書に移行する 今使っているシノニム辞書からSudachi正規化機能でまかなえるものを削除する 平仮名/カタカナの正規化辞書を作る 移行時のSudachi切り替え戦略 移行後の影響の事前確認 Sudachi移行時のハ

                                                                    検索基盤チームのElasticsearch×Sudachi移行戦略と実践 - エムスリーテックブログ
                                                                  • 踏み台サーバー、SSMセッションマネージャー、EC2 Instance Connect Endpoint サービスを使用したEC2インスタンスへの接続方法と特徴を比較してみた - NRIネットコムBlog

                                                                    はじめに 踏み台サーバー経由で接続する方法 ①セキュリティグループを作成する ②パブリックサブネットに踏み台サーバを作成する ③プライベートサブネットにEC2インスタンスを作成する ④踏み台サーバーにプライベートサブネットに配置されたEC2インスタンスのキーペアをコピーする ⑤踏み台サーバーにアクセスする ⑥踏み台サーバーからプライベートサブネットにあるEC2インスタンスにアクセスする SSMセッションマネージャー経由で接続する方法 VPCエンドポイントを使用した方法 ①セキュリティグループとIAMロールを作成する ②プライベートサブネットにEC2インスタンスを作成する ③VPCエンドポイントを作成する ④SSMセッションマネージャー経由でEC2インスタンスに接続する NATゲートウェイを使用した方法 ①IAMロールを作成する ②プライベートサブネットにEC2インスタンスを作成する ③NA

                                                                      踏み台サーバー、SSMセッションマネージャー、EC2 Instance Connect Endpoint サービスを使用したEC2インスタンスへの接続方法と特徴を比較してみた - NRIネットコムBlog
                                                                    • Dockerで動かして学ぶモニタリングの基礎 - Progate Tech Blog

                                                                      はじめまして、Progateの村山です。 本記事はProgateAdventCalendarの2日目の記事です。 普段はSREチームでProgateの開発や運用を支える仕事をしております。Progateには今年の7月に入社しました。前職はElixirやk8sなどを使ったWebアプリケーションの開発や運用をしていました。ProgateにElixirのコースを作るのがちょっとした野望です。 本稿ではサービスや開発のモニタリングについて紹介しようと思います。 モニタリングとは モニタリングは日本語で監視と言い、主にサービスの障害検知や可用性向上のために利用されています。ここで紹介するモニタリングは大きく2種類に分類したいと思います。 1つ目は死活監視するためのモニタリングで、サービスやアプリケーションの可用性監視し、必要に応じてフェイルオーバーさせたりアラートを飛ばして開発者へと共有します。 2

                                                                        Dockerで動かして学ぶモニタリングの基礎 - Progate Tech Blog
                                                                      • エンジニアリングマネージャーになって1年がたった

                                                                        私は,あるスタートアップ企業でエンジニアリングマネージャー(の,1人)をしている。toB向けSaaSを提供している数百名規模の会社で,社名が少しずつ世の中に知られるようになってきたくらいのフェーズ。会社からはDirectorという肩書をもらっていて,トラディショナルな日本企業だといわゆる部門長の層にあたる。中間管理職の中では上のほうで,執行役員の下あたり,というと伝わりやすいだろうか。 様々な事情(会社が大きくなった,比較的社歴が長い,そこそこの業界経験値がある,自分の専門領域(*1)に社内のフォーカスがあたるようになり,チームをスケールする必要が出てきた,etc.)から,半ば必要にかられて,重い腰を上げてエンジニアリングマネージャーとして活動を始めたのがちょうど1年ほど前。 決してマネージャーとして早咲きのほうではなく,IT業界でのキャリアは15年くらいで,これまではずっとプレイヤー,ま

                                                                        • データ系エンジニアの職種の違い - satoshihirose.log

                                                                          はじめに 自分は Martin Kleppmann が言うデータ指向アプリケーションやそれを実現する周辺の技術領域が好きで、業務としてそのような領域のエンジニアリングを引き続きやっていけたらなと思っています。 世の中には関連する職種の求人が多々ありますが、同じ名前のロールでも職務内容がコンテキストによって異なることが多かったりします。 ここではそれぞれの職種の違いについて自分の観点からまとめます。 1. データエンジニア 求人を眺めていると、データエンジニアは企業によって割と役割がぶれるので分けて説明します。 1-1. 小さめの事業会社のデータエンジニア まずは、小さめの事業会社のデータ分析基盤の構築・運用をするロールです。 ここでは ETL 処理の実装・運用のほかに、各種ツールを使ったデータ基盤の構築・運用知識やクラウド上のアプリケーション構築の知識などが求められることが多いです。 さら

                                                                            データ系エンジニアの職種の違い - satoshihirose.log
                                                                          • ZOZOTOWNのProduction Readiness Checklistと信頼性向上の取り組み / Improvement the reliability of ZOZOTOWN with Production Readiness Checklist

                                                                            ZOZOTOWNのProduction Readiness Checklistと信頼性向上の取り組み / Improvement the reliability of ZOZOTOWN with Production Readiness Checklist

                                                                              ZOZOTOWNのProduction Readiness Checklistと信頼性向上の取り組み / Improvement the reliability of ZOZOTOWN with Production Readiness Checklist
                                                                            • 『家族アルバム みてね』を支えるオンコールエンジニア制度 | gihyo.jp

                                                                              株式会社MIXIで『家族アルバム みてね』(⁠以下みてね)のSREグループに所属している本間です。 みてねは現在、1,500万人を超えるユーザに175の国と地域でサービスを提供しています(2022年8月現在)。そこで、より高い信頼性と可用性を担保するためにみてねのSREグループではオンコールエンジニア制度を設けています。 今回はこの「みてねのSREグループにおけるオンコールエンジニア制度の取り組み」についてご紹介させて頂きます。 オンコールの定義 まず、どのような条件でアラートを設定しオンコールを実施するかの定義について簡単に触れておきます。 現在はさまざまなソースから多種多様な情報を収集することができます。 たとえば、みてねではKubernetes(Amazon EKS)を採用しています。Kubernetesだけでも非常に多くのメトリクスが収集できますが、それだけではなくアプリケーション

                                                                                『家族アルバム みてね』を支えるオンコールエンジニア制度 | gihyo.jp
                                                                              • メルカリCTO名村が目指す「統率のとれた有機的な組織」とは? Developers Summit 2019 Summerレポート | mercan (メルカン)

                                                                                メルカリCTO名村が目指す「統率のとれた有機的な組織」とは? Developers Summit 2019 Summerレポート 2019年7月2日に開催された、アプリケーション開発を支えるエンジニアたちが登壇するイベント「Developers Summit 2019 Summer」。今回は、テクノロジーやプロダクト、開発プロセス、エンジニア組織をテーマに、登壇企業それぞれの知見が共有されました。 メルカリからはCTOである名村卓と、VP of Backendの田中慎司が登壇。2018年7月に導入を発表したマイクロサービスについて「どういった背景でマイクロサービス化に踏み切ったのか」「どのようなエンジニア組織を目指しているのか」「具体的なマイクロサービス化への道のり」を、組織編成や技術的な事例を交えて発表しました。 そこで今回は、名村が登壇したイベントレポートを公開。名村が感じる「メルカリ

                                                                                  メルカリCTO名村が目指す「統率のとれた有機的な組織」とは? Developers Summit 2019 Summerレポート | mercan (メルカン)
                                                                                • RDBMSの先を行く?NewSQLを支えるアルゴリズムRaftをGoで紐解く - カミナシ エンジニアブログ

                                                                                  初めまして。株式会社カミナシPMの@gtongy1です。 みなさんはNewSQLをご存知ですか? 強い整合性を持つ分散型のSQLデータベースサービスのことをNewSQLと呼びます。 RDBMSではなし得なかった分散アーキテクチャを、またNoSQLではなし得なかった強い整合性をいいとこ取りした新しいSQLデータベースサービスです。 なんかとても理想的な仕組みに見えますね。この裏にはどのような知識が詰め込まれているのでしょうか。 今回はそんなNewSQLを支える仕組みを一緒に紐解いていきましょう! NewSQLが乗り越えた壁 どんな仕組みが動いているのか、の前にNewSQLはこのSQLデータベース界へ何を投げ込んだのでしょうか。 NewSQLには以下のような特徴があります。 SQL-Likeなクエリ言語のサポート 強い整合性 ACIDサポートのトランザクション NewSQLの有名所であるCoc

                                                                                    RDBMSの先を行く?NewSQLを支えるアルゴリズムRaftをGoで紐解く - カミナシ エンジニアブログ