並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 126件

新着順 人気順

gkeの検索結果1 - 40 件 / 126件

  • エンジニアは全員おうちKubernetesをやるべし【Part 1:なぜやるのか】 - Qiita

    こんにちは。おうちKubernetesを勧めるためにやってきました。 このシリーズでは、Part 1で「なぜやるのか」、Part 2で「どうやるのか」について話します。 この記事は自宅サーバー上のKubernetesで不特定多数向けのサービスを展開することを勧めるものではなく、自分用・身内用のアプリを自宅サーバー上のKubernetesで運用することを勧めるものです。 エンジニアは全員おうちKubernetesをやるべき絶対的な理由 自己研鑽のために (鑽←この字「研鑽」と「大鑽井盆地」でしか見ない) 企業がKubernetesを採用する場合、ほとんどがEKSやGKEといったクラウド上で動作するマネージドKubernetesサービスを使用すると思います。ただ、Kubernetesであればコマンドやマニフェストファイルの書き方は共通なので、おうちKubernetesで学んだことがそのまま業務

      エンジニアは全員おうちKubernetesをやるべし【Part 1:なぜやるのか】 - Qiita
    • 2024年に読んだほうがいいエンジニアな書籍10冊+α - CloudとSREそしてキャリア本 - Lean Baseball

      Google Cloud Partner Top Engineer 2024を頂いた者です. 仕事はエンジニア系のコンサルとSRE, 趣味(と前職以前の仕事)で機械学習や生成AI*1をやっとります. この記事は当ブログの名物かつ人気シリーズである, 主に技術書を中心としたオススメ書籍(元々はPython本メイン)の紹介エントリーです. ※去年の記事はこちら. 本年のこのエントリーは, 2024年の推し本4冊 CloudおよびSREな4冊 いい感じな技術書2冊 この三本立て(+私の完全なる趣味チョイスで数冊)でご紹介できればと思います. というわけで, 本年のラインナップは以下の通りです. この記事の著者 2024年の推し技術書10冊 特に推したい4冊 クラウドストラテジー 世界一流エンジニアの思考法 仕事に役立つ新・必修科目「情報Ⅰ」 キャリアづくりの教科書 CloudおよびSREな4冊

        2024年に読んだほうがいいエンジニアな書籍10冊+α - CloudとSREそしてキャリア本 - Lean Baseball
      • 注目のITサービスを支えるアーキテクチャ特集 技術選定のポイントと今後の展望 - Findy Tools

        公開日 2024/05/27更新日 2024/05/27注目のITサービスを支えるアーキテクチャ特集 技術選定のポイントと今後の展望 現代のITサービスは、ユーザーに高品質で安定した体験を提供するために、より効率的で柔軟な技術選定が不可欠です。 本特集では、注目企業のシステムアーキテクチャ設計に携わるエンジニアの方々より、それぞれの技術選定における工夫と、未来を見据えた展望についてご寄稿いただいています。 各企業がどのように課題を乗り越え、開発生産性や品質を向上させるためにどのようなアプローチを採用しているのか ー この記事を通じて、実際の現場で活用される最先端の技術や戦略を学び、皆さんのプロジェクトに役立つ洞察を得ていただければ幸いです。 ※ご紹介はサービス名のアルファベット順となっております airCloset - 株式会社エアークローゼット エアークローゼットは日本初・国内最大級、女

          注目のITサービスを支えるアーキテクチャ特集 技術選定のポイントと今後の展望 - Findy Tools
        • 個人開発者がGoogle Cloudの環境構築でお財布を守るために最初にすべきこと - Qiita

          初めに 自分は2年くらい業務でGCP(今はGoogle Cloudですね)を使っていたのですが、友達が個人開発でGoogle Cloud使いたいから手伝ってとのことで、久々にコンソール触りたいなーと思ったので環境構築を手伝うことにしました。友達のクレジットカードが紐づいた環境なので自分の環境以上に課金やセキュリティに対して注意しなくてはなりません。課金だけでなく友情も爆発してしまいかねませんので 今回は最初期から構築するということで個人開発者向けにお財布や環境を守るうえでの最初にやったほうがよい課金のセーフティ的な設定をまとめていきたいと思います。企業で検証環境管理している人にも参考になるかと思いますので是非最後まで見てもらえると嬉しいです! 前提 Google Cloudのプロジェクトを作成していること 課金アカウントを作成していること(クレジットカードの紐づけできていること) その1

            個人開発者がGoogle Cloudの環境構築でお財布を守るために最初にすべきこと - Qiita
          • プライベートの時間は極力削らない。Kubernetesエキスパート青山真也氏のコスパ最高な情報収集術

            プライベートの時間は極力削らない。Kubernetesエキスパート青山真也氏のコスパ最高な情報収集術 2024年3月5日 株式会社サイバーエージェント インフラエンジニア 青山真也 (Masaya Aoyama) 2016年、新卒でサイバーエージェントに入社。OpenStackを使ったプライベートクラウドやGKE互換なコンテナプラットフォームをゼロから構築し、国内カンファレンスでのKeynoteに登壇。著書に『Kubernetes完全ガイド』『Kubernetesの知識地図』『みんなのDocker/Kubernetes』。現在はKubernetesやOpenStackなどOSSへのコントリビュート活動をはじめ、CloudNative Days Tokyo Co-chair、CNCF Japan ChapterのOrganizer、Kubernetes Meetup TokyoのOrgani

              プライベートの時間は極力削らない。Kubernetesエキスパート青山真也氏のコスパ最高な情報収集術
            • Google Cloud案件を1年半程度経験してみてAWSと比較しながら違いを整理してみた - NRIネットコムBlog

              本記事は 【Advent Calendar 2023】 15日目の記事です。 🎄 14日目 ▶▶ 本記事 ▶▶ 16日目 🎅 はじめに 想定している読者 一覧 まとめてみて 参考 はじめに クラウド事業推進部の小野内です。昨年5月にキャリア入社してから早1年半以上が経ちました。 入社以降、AWS、Google Cloud のデータ分析基盤の開発・運用に関わっておりますが、現在はGoogle Cloud メインでやってます。 試行錯誤の毎日ですが、Google Cloud案件をどんどん盛り上げていきたい所存です。 1年ほど前の投稿記事では、 Google Cloudの学び方について触れましたが、本記事ではGoogle Cloud案件を1年半程度経験してみて、 AWSと比較しながら、Google Cloudの主要なサービスについて、違いを整理しました。 想定している読者 AWS案件に半年以

                Google Cloud案件を1年半程度経験してみてAWSと比較しながら違いを整理してみた - NRIネットコムBlog
              • モノレポの開発環境でDocker ComposeをやめてTaskfileを導入した話

                こんにちは、Sally社 CTO の @aitaro です。 マーダーミステリーアプリ「ウズ」とマダミス制作ツール「ウズスタジオ」、マダミス情報サイト「マダミス.jp」を開発しています。 はじめに この記事ではウズの開発当初から利用していた Docker Compose をやめることにした背景についてご紹介します。 Docker Compose は各マシンの開発環境での差異を吸収するというメリットがあり、多くの開発現場で導入されていますが、Docker Composeの抱えているデメリットを勘案して、最終的に一部を残して辞める決断をしました。 Docker Composeの特徴 Docker Composeは、複数のコンテナを定義し、管理するためのツールです。ウズの開発環境では、バックエンド、フロントエンド、データベースなどをそれぞれコンテナ化して、Composeで一括管理していました。こ

                  モノレポの開発環境でDocker ComposeをやめてTaskfileを導入した話
                • カプコン: Cloud Spanner や GKE を用いて『ストリートファイター6』のためのクロスプレイ プラットフォームを構築 | Google Cloud 公式ブログ

                  カプコン: Cloud Spanner や GKE を用いて『ストリートファイター6』のためのクロスプレイ プラットフォームを構築 『ストリートファイター』や『バイオハザード』、『モンスターハンター』など、世界中で愛されるゲームシリーズでその名を知られる株式会社カプコン(以下、カプコン)。その最新 AAA タイトル『ストリートファイター6』では、ユーザーのすそ野を広げる意欲的な取り組みを多数実施して注目を集めています。そこに Google Cloud のテクノロジーがどのように役立てられているのか、開発の中核メンバーにお話を伺いました。 利用しているサービス: Cloud Spanner, Memorystore for Redis, Google Kubernetes Engine, Anthos Service Mesh, Cloud Monitoring, Cloud Logging

                    カプコン: Cloud Spanner や GKE を用いて『ストリートファイター6』のためのクロスプレイ プラットフォームを構築 | Google Cloud 公式ブログ
                  • 「入門 継続的デリバリー」は継続的デリバリーを学ぶのに最適な教科書だった. - Lean Baseball

                    最近読んだ「入門 継続的デリバリー」がとても良かったので紹介しますね, というエントリーです. 入門継続的デリバリー良かったです. 「継続的デリバリー(Continuous Delivery)」とか「DevOps」ってどこから学ぶかわからんな!? というのは割とあるあるだと思っています, そもそもめちゃくちゃ難しい話なので(ちゃんと学ぼうとすると). そんな中, 「入門 継続的デリバリー」がよく説明できてて良かったので感想と関連する書籍を紹介できればと思っています. TL;DR 入門 継続的デリバリー 我々はなぜCDをするのか? 具体的なプラクティス 入門後に読むべき良著 Kubernetes CI/CDパイプラインの実装 継続的デリバリー チームトポロジー 結び - 我思うCDとDevOps TL;DR 「入門 継続的デリバリー」は継続的デリバリーの大切さと概念, 手法を現実にありそうな

                      「入門 継続的デリバリー」は継続的デリバリーを学ぶのに最適な教科書だった. - Lean Baseball
                    • プラットフォーム エンジニアリングに関する 5 つの誤解: プラットフォーム エンジニアリングとは一体なのか | Google Cloud 公式ブログ

                      Darren EvansEMEA Practice Solutions Lead, Application Platform ※この投稿は米国時間 2024 年 5 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。 なぜ新しいトピックに対して否定的になってしまう人がいるのか、その理由は、群盲象を評すの寓話からわかります。その人自身の視点からのみで物事を見てしまうと、その全体像を見失ってしまうということです。プラットフォーム エンジニアリングはソフトウェア デリバリーの比較的新しい手法です。現在、IT 組織やソフトウェア エンジニアのチームの多くがプラットフォーム エンジニアリングについて検討している段階にあるのですが、プラットフォーム エンジニアリングとは何なのか、プラットフォーム エンジニアリングで何ができるのか、プラットフォーム エンジニアリングを導入す

                        プラットフォーム エンジニアリングに関する 5 つの誤解: プラットフォーム エンジニアリングとは一体なのか | Google Cloud 公式ブログ
                      • Railsでブログ自作(2024) - osyoyu.com/blog

                        こんにちは osyoyu です。 人々がNext.jsとかAstroとかで新しいブログを作っては放置する季節になってきたな — おしょうゆ (@osyoyu) January 1, 2024 ブログシステム自作のシーズンですね。ご多分に漏れずブログシステムを作ってました。実はこれは最初の記事ではなくて、こっそり事前に2023年の振り返り記事などを書いたりしています。 ちょっと気に入っているのが記事のタイトルを未設定のままにすると投稿日がタイトルになる仕様で、タイトルをつけるほどでもない2段落ぐらいの文を投稿しやすくなった、気がしてます。 ブログシステム自作のモチベーション 目的は一応ちゃんとあって、一定量のリクエストを受けるRubyのWebサーバーがほしかったというのが大きいところ。最近Rubyプロファイラを開発していて、プロファイル対象のひとつとしてWebサーバーがほしかったのです。正常

                        • Docker/Kubernetes 実践コンテナ開発入門 改訂新版を出版します

                          こんにちは、ビコーペガサスです。この度、「Docker/Kubernetes 実践コンテナ開発入門 改訂新版」を出版します。本書は2018年に出版した初版を全面改訂したものです。 【新刊】2024年2月24日発売『Docker/Kubernetes実践コンテナ開発入門 改訂新版』本体3,600円+税,山田明憲 著,Docker/Kubernetesを実践で使いこなす!コンテナ開発・運用の第一歩!https://t.co/jRfsDFnuKu pic.twitter.com/dd0qo4DZM1 — 技術評論社販売促進部 (@gihyo_hansoku) February 13, 2024 「改訂新版」のモチベーション 初版の出版から早5年半が過ぎ、コンテナ技術の情報は大きく変化しました。コンテナ技術の基本的な部分は変わらないとはいえ、初版の内容が陳腐化するだけの時間が流れたことは否定しよう

                          • Platform Engineering on Kubernetes を読んでCloud Native の現在地を理解する - じゃあ、おうちで学べる

                            はじめに 近年、Kubernetesの採用が進む中、複数のチームが関わり、複数のクラウドプロバイダーへのデプロイを行い、異なるスタックを扱う組織では、その導入の複雑さが新たな問題となっています。本書 『Platform Engineering on Kubernetes』は、Kubernetes に登場しつつあるベストプラクティスとオープンソースツールを活用し、これらのクラウドネイティブの問題を技術的に組織的にどのように解決するかを示してくれます。 learning.oreilly.com 本書では、Kubernetes上に優れたプラットフォームを構築するための要素を明確に定義し、組織の要件に合わせて必要なツールを体系的に紹介しており、実際の例とコードを交えながら各ステップをわかりやすく説明することで、最終的にはクラウドネイティブなソフトウェアを効率的に提供するための完全なプラットフォーム

                              Platform Engineering on Kubernetes を読んでCloud Native の現在地を理解する - じゃあ、おうちで学べる
                            • 「ダブルチェックを頑張る」でごまかさない、スクウェア・エニックスのサーバ設定漏れ防止策

                              「ダブルチェックを頑張る」でごまかさない、スクウェア・エニックスのサーバ設定漏れ防止策:たくさんのサーバを一気に構築できる“自律構築の仕組み”とは(1/3 ページ) スクウェア・エニックスは膨大な数のゲームを提供している。当然、それらを支えるインフラも大量で、運用管理にかかる手間も大きい。「Cloud Operator Days Tokyo 2023」のセミナーを基に、大量サーバの最適な管理法を紹介する。 変化の激しい現在のビジネス環境において、アプリケーションやサービスもその変化に素早く対応する必要がある。もちろん、それを支えるインフラについても同様だ。クラウドサービスやIaC(Infrastructure as Code)などを活用し、効率的にインフラを管理している企業も多いだろう。 ただ、ある意味でインフラは生き物だ。作った当初は問題なくても、管理する対象が増えたり、長期間運用してい

                                「ダブルチェックを頑張る」でごまかさない、スクウェア・エニックスのサーバ設定漏れ防止策
                              • 第10回:Cloudflareの紹介と運用のポイント - CADDi Tech Blog

                                ※本記事は、技術評論社「Software Design」(2024年1月号)に寄稿した連載記事「Google Cloudを軸に実践するSREプラクティス」からの転載1です。発行元からの許可を得て掲載しております。 はじめに 前回はDatadogによるクラウド横断のモニタリング基盤について解説しました。 今回はCloudflareとは何か、なぜ使っているのか、各サービスとポイント、キャディでの活用例を紹介します。 ▼図1 CADDiスタックにおける今回の位置付け Cloudflare とは 本記事では、Cloudflare社が提供しているプラットフォーム全体を「Cloudflare」とします。 Cloudflareは、ひと昔前までは数あるシンプルなCDN(Contents Delivery Network)サービスの1つでした。CDNとは、コンテンツの配信を最適化するためのネットワークです。

                                  第10回:Cloudflareの紹介と運用のポイント - CADDi Tech Blog
                                • Kubernetes初学者が担当したGKE移行プロセスの全貌 - Gaudiy Tech Blog

                                  はじめまして。Gaudiyでエンジニアをしているあんどう(@Andoobomber)です。 クラウドネイティブ全盛の世の波に乗り、この度 Gaudiy では Cloud Run から Google Kubernetes Engine (GKE) への移行を行いました。 この記事では、その移行プロセスの全体像を共有し、得られた教訓と今後の展望を探ってみたいと思います。 1. Before After: 移行の概観 1-1. Before 1-2. After 2. なぜGKE環境に移行したのか 3. 移行のプロセス 3-1. Kubernetesを学ぶ (1週間: 2023/10/01~) 3-2. Dev on GKE環境作成 (2-3週間) 3-3. Staging on GKE環境作成 (2日) 3-4. Private Clusterへの移行 (1-2週間) 3-5. Prod on

                                    Kubernetes初学者が担当したGKE移行プロセスの全貌 - Gaudiy Tech Blog
                                  • チームトポロジーの観点で見直すプラットフォーム開発組織 - enechain Tech Blog

                                    はじめに チームトポロジーとは プラットフォーム開発組織に存在した課題 SRE何でも屋問題 中長期課題に取り組めない問題 チームトポロジーを元にした組織見直し SRE Deskを3つのDeskに分割 SRE DeskとPlatform Engineering Deskの違いを明文化 見直しの効果 見直しを通じての所感 最後に はじめに こんにちは。enechainでCTOを務めている@sutochin26です。 enechainでは、組織拡大に伴いSRE/Platform関連業務を行うチームの体制見直しを行ないました。 その際に、チームトポロジーの考え方を参考にする事で方針の言語化がしやすくなり、認識合わせの助けになりました。 SREとPlatform Engineeringをチームトポロジー視点で定義すること自体は新しくはないですが、本記事では実際に現場で生じていた課題と共にお話します。

                                      チームトポロジーの観点で見直すプラットフォーム開発組織 - enechain Tech Blog
                                    • メルカリ ハロの技術スタックとその選定理由 | メルカリエンジニアリング

                                      こんにちは。メルカリ ハロのSoftware Engineer (Engineering Head)の@napoliです。連載:Mercari Hallo, world! -メルカリ ハロ 開発の裏側-の2回目を担当させていただきます。 2024年3月上旬にメルカリ ハロという新しいサービスが公開されました。メルカリ ハロは好きな時間に最短1時間から働ける「空き時間おしごとアプリ」です。 この記事ではメルカリ ハロを作るにあたり、どういった技術スタックやアーキテクチャを選定したのか、さらにその背景と意思決定をご紹介したいと思います。 この記事で得られること メルカリ ハロで採用されている技術スタックやアーキテクチャの全体像 その意思決定の理由とプロセス これから新規サービスを立ち上げるうえでのヒント 主な技術スタック メルカリ ハロで利用されている主な技術スタックは以下のとおりです。 バッ

                                        メルカリ ハロの技術スタックとその選定理由 | メルカリエンジニアリング
                                      • Migrating to OpenTelemetry | Airplane

                                        At Airplane, we collect observability data from our own systems as well as remote “agents” that are running in our customers’ infrastructure. The associated outputs, which include the standard “three pillars of observability” (logs, metrics, and traces) are essential for us to monitor our infrastructure and also help customers debug problems in theirs. Over the last year, we’ve made a concerted ef

                                          Migrating to OpenTelemetry | Airplane
                                        • OpenTelemetry Collector導入の実践編とその後 - Gaudiy Tech Blog

                                          はじめまして。Gaudiyでエンジニアをしているあんどう(@Andoobomber)です。 以前、「OpenTelemetry Collector導入のPoCと今後に向けて」という記事を弊エンジニアの sato(@yusukesatoo06)より公開しました。簡単に記事を要約すると、 OpenTelemetry及びOpenTelemetry Collectorの説明 実際にPoCを作ってみる 実導入を試みたがOpenTelemetry Collectorのホスティングに悩み、今後の課題として保留となった といった内容でした。 あれから1年経ち、GaudiyではOpenTelemetry Collectorを本番環境に組み込み、OpenTelemetryの仕様に準拠して計装し、データの分析や監視を行っています。この記事では、前回からの進捗を紹介すると共にOpenTelemetryの導入方法を

                                            OpenTelemetry Collector導入の実践編とその後 - Gaudiy Tech Blog
                                          • Go製CLIツールGatling Commanderによる負荷試験実施の自動化 - ZOZO TECH BLOG

                                            はじめに こんにちは、ML・データ部MLOpsブロックの岡本です。 MLOpsブロックでは機械学習モデルの実験基盤の作成、機械学習モデルを組み込んだAPI・Batchの開発・運用・保守を行なっています。APIを開発する際には負荷試験を実施し、本番環境で運用する際に求められるスループット・レイテンシを達成できるか確認します。 MLOpsブロックでの従来の負荷試験実施には人手を要する定型的な作業が複数ありました。また頻繁に行う作業でもありトイルとなっていました。 本記事ではMLOpsブロックで抱えていた負荷試験実施の課題と、解決のために開発したOSSのCLIツール、Gatling Commanderについて紹介します。Gatling Commanderが負荷試験の実施におけるトイル削減の一助になれば幸いです。 github.com 目次 はじめに 目次 背景・課題 従来の負荷試験実施の方法 分

                                              Go製CLIツールGatling Commanderによる負荷試験実施の自動化 - ZOZO TECH BLOG
                                            • 2023年に読んだ本

                                              転職ドラフトからオライリーの本たくさんもらったので欲しかったやつとりあえず全部読んでみた。 <pr> 紹介コード RVSC を使うとお互いにもらえるので気になる人は是非。 https://job-draft.jp/sign_up?utm_term=RVSC </pr> オブザーバビリティ・エンジニアリング 良い本。トレーシングやOpenTelemetryの本と思って買っていたが、実際はオブザーバビリティを確保するための色々な手法を紹介している。そのような手法が発達するまでの歴史の流れの解説も面白かった。従来のメトリクスとモニタリングだけでは現代の分散システムのデバッグが困難ということで、 オブザーバビリティ・エンジニアリングを導入する上での説得に使えそうな文言がたくさん散りばめられている。その手法の一つが、そもそも問題が起きてからデバッグのためにデバッガを挟み込んでデプロイしたくないという

                                                2023年に読んだ本
                                              • Google Cloud認定試験対策(AWS認定試験経験者向け) - NRIネットコムBlog

                                                こんにちは、上野です。 本記事ではGoogle Cloudの認定試験について紹介します。AWSの認定試験に関してはNRIネットコムのブログでも多く紹介されており、取得されている方も多いと思います。私自身も最初はAWSの認定資格を取得し、その後Google Cloudの認定資格を取得しています。私と同じようにAWS→Google Cloudの認定試験を受けるという順番の方もいるのかなと思いまして、AWS認定試験をよく知っている前提でその違いも含めて紹介していきたいと思います。 Google Cloudの認定資格 現時点では、以下のとおり11個の認定資格が存在します。 詳細は公式ページもご確認ください。 私自身は7個の認定を取得しています。(あと4個です。) 区分 資格名 受験料 言語 Foundational Cloud Digital Leader $99 日本語/英語 Associate

                                                  Google Cloud認定試験対策(AWS認定試験経験者向け) - NRIネットコムBlog
                                                • NetworkPolicyでtrafficを制御しよう - enechain Tech Blog

                                                  はじめに こんにちは。enechainのPlatform Engineering Deskで働いているsoma00333です。 enechainではproductのdeploy先としてGKEを採用しており、Platform Engineering DeskではKubernetes Clusterの運用業務を行っています。 enechainは「エネルギーの取引所を作る」というmissionを持っており、productも増えてきています。 Platform Engineering Deskも今後ますますsecurityに力を入れていく予定です。 前回は、Platform Engineering Deskのsecurityに関する取り組みの一例として、Pod Security Admissionを紹介しました。 ※ Pod Security Admissionの紹介 今回は、引き続きsecuri

                                                    NetworkPolicyでtrafficを制御しよう - enechain Tech Blog
                                                  • 【Kubernetes】未経験から1か月経ったので振り返る - APC 技術ブログ

                                                    こんにちは、クラウド事業部の中根です。 未経験からKubernetesに入門して約1か月が経ったので、振り返りたいと思います! 実務に入る前の予習なので、実務を通した実践的な学習はしていない点はご了承ください。 学習の動機 入門前のレベル感 学習プロセス 入門0~7時間 入門7~32時間 入門32~60時間目 入門60~71時間目 入門71~132時間目 +α できるようになったこと 次のステップ これから入門する方へ おわりに お知らせ 学習の動機 私は中途入社で、案件は決まったのですが、参画まで1か月半ほど待機期間となりました。 クラウドネイティブな案件ということで、この期間を活かしてKubernetesのキャッチアップをすることになりました。 入門前のレベル感 IT業界経験が3年と1か月です。 以下、関係する領域の詳細です。 Kubernetes ほぼ未経験。 OpenShiftをち

                                                      【Kubernetes】未経験から1か月経ったので振り返る - APC 技術ブログ
                                                    • モノリシックなAPIでのカナリアリリース導入と開発者の認知負荷を減らすためConfigMapを使わない選択をした話 - MonotaRO Tech Blog

                                                      こんにちは、プラットフォームエンジニアリング部門コンテナ基盤グループの岡田です。 当社ではECサイトの裏側で利用されているモノリシックなAPIをコンテナ化し、Elastic Kubernetes Service (EKS) に移行しました。 移行直後は下記のようにトラブルに見舞われましたが、現状安定した運用ができています。 EKSコンテナ移行のトラブル事例:推測するな計測せよ -CoreDNS暴走編- - MonotaRO Tech Blog EKSコンテナ移行のトラブル事例:FargateにおけるAZ間通信遅延の解消 - MonotaRO Tech Blog 今回はトラブル事例ではなく活用事例になりますが、アプリケーションリリース起因でのトラブル影響を減らすため、コンテナ化したAPIに対してカナリアリリース導入を行いました。そのため、導入に際して生じたConfigやSecret周りの課題

                                                        モノリシックなAPIでのカナリアリリース導入と開発者の認知負荷を減らすためConfigMapを使わない選択をした話 - MonotaRO Tech Blog
                                                      • Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog

                                                        こんにちは!ABEJAでデータサイエンティストをしている大谷です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」が採択されたことを受け、LLMの事前学習を実施しました。 以降、本LLMプロジェクトをGENIAC(Generative AI Accelerator Challenge)と表記します。 開発内容は表題の通り、Mistral社のMIxtral 8x7Bをベースにした日本語の語彙拡張版継続事前学習です。弊社が調べた限り、Megatron-LMでMixtralモデルを継続事前学習するソースコードは2024年4月12日時点(執筆時)では存在していません。 GENIACの計算資源提供の

                                                          Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog
                                                        • ピクシブ社エンジニアが語る、機械学習基盤とその技術 「GCPバッチ基盤」「リアルタイムの推論基盤」「ノートブック開発環境」整備の裏側

                                                          登壇者の自己紹介とアジェンダの紹介 sugasuga氏:こんにちは。今日は、ピクシブの機械学習基盤に関する発表をいたします。 まずは自己紹介から始めさせてください。自分は、機械学習チームでエンジニアをしているsugasugaといいます。サブで採用・広報活動にも関わっています。最近の趣味は、トレーニングです。 今日お話しすることは、(スライドを示して)こちらを予定しています。機械学習基盤について。そして、基盤で使われている技術について。運用してみて感じたメリットとデメリットについてお話しします。 大規模なデータの効率的な処理、機械学習サービスの展開のしやすさ、効率的な開発などに課題があった 本題に移る前に、導入として、どういったところで機械学習が活用されていて、なぜ機械学習基盤が必要かについてお話しします。 活用されている場面としては、違反検知、レコメンド、広告、3Dなど多岐にわたります。こ

                                                            ピクシブ社エンジニアが語る、機械学習基盤とその技術 「GCPバッチ基盤」「リアルタイムの推論基盤」「ノートブック開発環境」整備の裏側
                                                          • 1,800万人が利用する『家族アルバム みてね』におけるK8s基盤のアップグレード戦略と継続的改善 / FamilyAlbum's upgrade strategy and continuous improvement for K8s infrastructure

                                                            SRE NEXT 2023 https://sre-next.dev/2023/schedule/#jp093

                                                              1,800万人が利用する『家族アルバム みてね』におけるK8s基盤のアップグレード戦略と継続的改善 / FamilyAlbum's upgrade strategy and continuous improvement for K8s infrastructure
                                                            • Kubernetes の upstream のキャッチアップ

                                                              先日、Kubernetes Meetup Tokyo #59 で「KEP から眺める Kubernetes」というタイトルで発表しました。発表の後で Kubernetes の upstream のキャッチアップ方法について質問を受けました。その場で回答はしたのですが、ちょうど社内の共有会で似たような話をしたところだったので、加筆修正したものを公開しておきます。 はじめに Kubernetes の upstream を追いかけ始めて 1 年ちょっと経ったので、その経験をまとめます。Kubernetes の upstream やエコシステムを観察しているだけで、コントリビュータではありません。間違っている部分があったらごめんなさい...! Kubernetes の開発体制や開発者の所属組織の分布、新しい機能を追加する際のプロセスの話を簡単にしてから私のキャッチアップ方法についてまとめています。

                                                                Kubernetes の upstream のキャッチアップ
                                                              • SREエンジニアが目指すGKE共通デプロイ基盤の完成形 - ぐるなびをちょっと良くするエンジニアブログ

                                                                こんにちは。開発部門 開発部 Data AI Strategyセクション データ基盤 Unitの小野です。 2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。 ここ一年ほど、DAOという組織改善プロジェクトを推進していく中で、Google Kubernetes Engine (GKE)を使ったGKE共通デプロイ基盤の整備も進めてきました。 ※ DAOについての詳細はSREエンジニアが組織改善プロジェクトを立ち上げてみたを参照ください SREエンジニアの責務の一つは、プロダクトのリリースサイクルを極限まで短くし、次々と新しいサービスを世の中にリリースすることです。ChatGPTのような誰でも簡単に扱えるAIモデルが誕生したことで、プロダクト開発競争は今後ますます激しくなっていくと予想しており、SREエンジニアの責務の重要性をヒシヒシと感じています。 そう

                                                                  SREエンジニアが目指すGKE共通デプロイ基盤の完成形 - ぐるなびをちょっと良くするエンジニアブログ
                                                                • コンテナ プラットフォームの新たな進化について | Google Cloud 公式ブログ

                                                                  ※この投稿は米国時間 2023 年 8 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。 Google Cloud は、コンテナ化されたワークロードを実行するための最適な場所になるという使命を担ってきました。それは 2014 年に始まり、Google の内部クラスタ管理システムである Borg を元に、Google は Kubernetes を発明し、世界初のマネージド Kubernetes サービスである Google Kubernetes Engine(GKE)を導入しました。GKE は、現在利用できる最もスケーラブルな、業界をリードする Kubernetes サービスです1。2019 年には、当社はコンテナとサーバーレスの利点を組み合わせた初のサーバーレス プラットフォームである Cloud Run をリリースしました。現在 Cloud Run は、ク

                                                                    コンテナ プラットフォームの新たな進化について | Google Cloud 公式ブログ
                                                                  • Cloud Run に ko と skaffold を使ってデプロイまでやってみる | フューチャー技術ブログ

                                                                    はじめにこんにちは! TIG コアテクチームの川口です。本記事は、CNCF連載 の5回目の記事になります。 本記事では、CNCF の Knative を基盤として利用している Cloud Run と CNCF の各種ビルドツール ko, skaffold、Cloud Deploy を用いたうえで、アプリケーションのビルドからデプロイまでを行います。 扱う技術要素今回は、合計5つの技術要素を扱います。 全体感を掴むため、それぞれの技術とそれらの関連について図示します。 Cloud Run (Knative)Cloud Run は、Google Cloud におけるコンテナベースのサーバーレスコンピューティングサービスとしてよく知られているものかと思います。こちらは、基盤として Knative を採用しています。 この Knative は 2022年の3月に CNCF の Incupating

                                                                      Cloud Run に ko と skaffold を使ってデプロイまでやってみる | フューチャー技術ブログ
                                                                    • Google CloudとHugging Faceが提携 AI開発者にH100などのパワーを提供へ

                                                                      米GoogleのクラウドサービスGoogle Cloudは1月25日(現地時間)、オープンソースのAI開発プラットフォームを手掛ける米Hugging Faceと「生成AIおよびML開発を加速する戦略的パートナーシップ」を結んだと発表した。開発者はGoogle Cloud上でオープンモデルを迅速かつコスト効率よくトレーニング、調整、提供できるようになるとしている。 Hugging Faceを利用する開発者は、プラットフォームから数回クリックするだけでGoogle CloudのVertex AIを使ってモデルをトレーニングできるようになり、モデルのトレーニングと微調整を支援するGoogle Kubernetes Engine(GKE)も使えるようになる(2024年前半)。 Google Cloudでは、米NVIDIAのH100 TensorコアGPU搭載のA3 VMのサポートが追加される見込み

                                                                        Google CloudとHugging Faceが提携 AI開発者にH100などのパワーを提供へ
                                                                      • Kubernetes Pod の IP アドレスが枯渇しかけている場合に役立つ実証済みの解決策を紹介 | Google Cloud 公式ブログ

                                                                        Gemini 1.5 モデル をお試しください。Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。 試す ※この投稿は米国時間 2024 年 4 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。 Kubernetes の大きな強みの 1 つは、Pod ごとに固有のネットワーク アドレスがあることです。これにより、Pod が VM のように機能するため、デベロッパーはポートの競合などの煩わしい問題を気にする必要がありません。Kubernetes のその特性のおかげで、デベロッパーやオペレーターは作業を簡略化できます。また、設計機能の 1 つとして高い信頼性を獲得しているため、コンテナ オーケストレーターとしての人気が非常に高くなっています。Google Kubernetes Engine(GKE)は、VPC 内

                                                                          Kubernetes Pod の IP アドレスが枯渇しかけている場合に役立つ実証済みの解決策を紹介 | Google Cloud 公式ブログ
                                                                        • GoとCobraを用いた新規マイクロサービス用ボイラープレートの自動生成CLIツールでコスト削減した話 - Gaudiy Tech Blog

                                                                          こんにちは。ファンと共に時代を進める、Web3スタートアップ Gaudiy でソフトウェアエンジニアをしている ryio1010です。 私は弊社が提供するファンコミュニティプラットフォーム「Gaudiy Fanlink」の開発において、フィーチャーチームの一員として、主にバックエンド開発を担当しています。 バックエンドのアーキテクチャにはマイクロサービスを採用していますが、会社のフェーズ的に試行錯誤の段階であることや、それに伴うチーム体制の変更がよく起きていることもあり、新しいマイクロサービスの立ち上げも頻繁に行われています。 私自身もこれまでの業務で2〜3つの新しいマイクロサービスを立ち上げる経験をしてきました。 今回は、これらのマイクロサービスの立ち上げと運用の経験から、特に立ち上げフェーズにフォーカスし、改善を行った事例をご紹介したいと思います。 1. マイクロサービスの概要とGau

                                                                            GoとCobraを用いた新規マイクロサービス用ボイラープレートの自動生成CLIツールでコスト削減した話 - Gaudiy Tech Blog
                                                                          • あえて手動アップグレードを選ぶ〜マネージドサービス(GKE)で手作業による対応をした話〜 - MonotaRO Tech Blog

                                                                            こんにちは。データ基盤グループ データエンジニアリングチームの宮口です。 この記事ではGoogle Cloud Platform(以下、GCP)のサービスの1つであるGoogle Kubernetes Engine(以下、GKE)のクラスタを手動アップグレードした話を紹介します。 私が所属するデータエンジニアリングチームでは、社内システムに保存されたデータをGCPのBigQueryにニアリアルタイムで同期するシステムや、BigQueryに保存されている大容量のデータを低レイテンシなAPIとして提供するシステムなど、モノタロウのビジネスを裏側で支えるシステムの管理を行っています。それらのシステムは全てのコンポーネントをコンテナ化しており、その実行環境としてGKEを採用しています。 また、それとは別に社内でGKE共通環境と呼んでいる、マルチテナント方式のクラスタによるアプリケーション実行基盤を

                                                                              あえて手動アップグレードを選ぶ〜マネージドサービス(GKE)で手作業による対応をした話〜 - MonotaRO Tech Blog
                                                                            • DeNA 的 GKE 運用 ~ Pod 集約率編 ~ [DeNA インフラ SRE] | BLOG - DeNA Engineering

                                                                              はじめに こんにちは。インフラエンジニアの松浦です。 IT 基盤部に所属し、全世界向けのゲームタイトルのインフラ運用を担当しています。 先日あるプロジェクトで Google Kubernetes Engine (以降 GKE) でインフラを構築することになり、そこで GKE のコスト削減のために、 ノード 数削減すなわち Pod 集約率の向上 (1台のノードで出来るだけ多くの Pod を動かす) に取り組みました。 今回はそこで行ったことをご紹介します。 概要 今回のプロジェクトでは、 Kubernetes (以降 K8s) の Horizontal Pod Autoscaler 使用してアプリケーション Pod をオートスケールさせます。 このため、スケールアウト・スケールイン後 (Pod の増減により クラスタオートスケーラー (以降 CA) がノードを増減させた後) でも、Pod 集

                                                                                DeNA 的 GKE 運用 ~ Pod 集約率編 ~ [DeNA インフラ SRE] | BLOG - DeNA Engineering
                                                                              • 道を照らす: プラットフォーム エンジニアリング、ゴールデンパス、セルフサービスのパワー | Google Cloud 公式ブログ

                                                                                ※この投稿は米国時間 2023 年 9 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。 入社したばかりの Java デベロッパーが、簡単な Java サービスを作る仕事を割り当てられたとしましょう。DevOps モデルでは開発チームと運用チームが責任を共有するので、Java コードだけでなく、ビルド パイプラインやモニタリング計測のような運用コードの作成も求められるかもしれません。しかも、クラウド プラットフォームは以前の仕事で覚えたものとは異なります。 あっという間に YAML ファイルの山に溺れ、簡単な Java サービスの構築が難事業になってしまいました。決めなければならないことがたくさんあります。コードの構成はどうしよう?継続的デリバリーにはどのツールを使用したらいいのだろう? DevOps モデルは開発者に耐えられないほどの学習の手間をもたらすこ

                                                                                  道を照らす: プラットフォーム エンジニアリング、ゴールデンパス、セルフサービスのパワー | Google Cloud 公式ブログ
                                                                                • Cloud RunのDirect VPC Egressを解説 - G-gen Tech Blog

                                                                                  G-gen の佐々木です。当記事では、Google Cloud (旧称 GCP) のサーバーレスコンテナサービスである Cloud Run の Direct VPC Egress 機能について解説します。 前提知識 Cloud Run とは サーバーレス VPC アクセスコネクタとは 概要 Direct VPC Egress とは 使用方法 サーバーレス VPC アクセスコネクタと Direct VPC Egress の比較 コスト パフォーマンス 構成図 比較表 ユースケース 制限事項 スケーリングの上限 サポートされているリージョン サブネットに十分な IP アドレスが必要 その他の制限事項 ロギング・モニタリングに関する制限事項 セキュリティに関する制限事項 Cloud Run jobs の実行時間に関する制限事項 Cloud Run 前提知識 Cloud Run とは Cloud

                                                                                    Cloud RunのDirect VPC Egressを解説 - G-gen Tech Blog