23新卒技術研修で実施しコンテナ研修(Kubernetes編)の講義資料です。 動画:https://youtu.be/Dk0isJQ6a80 こちらは後編になります。前編はこちら:https://speakerdeck.com/mixi_engineers/2023-container-t…
任天堂:新しい汎用ゲームサーバーを Google Kubernetes Engine、Cloud Spanner などを駆使して構築 世界中で愛好されている任天堂株式会社(以下、任天堂)の家庭用ゲーム機「Nintendo Switch」。そのオンライン マルチプレイを担う汎用ゲームサーバーの動作基盤に新たに Google Cloud が採用されました。多くのユーザーとの通信を処理しなければならないこの仕組みを、なぜ Google Cloud 上に構築したのか。どのような工夫を施すことで、安定性・可用性と運用負担の軽減を両立させたのか。構築に携わったエンジニアのお二人に話を伺いました。 利用しているサービス: Google Kubernetes Engine、Agones、Anthos Service Mesh、Cloud Spanner、Cloud Load Balancing、Cloud
くら寿司:GKE や Edge TPU などを駆使して来店から会計までを完全自動化し、新しい生活様式のためのサービスを提供 大阪を起点に日本全国 47 都道府県すべてに店舗を展開する大規模回転寿司チェーンくら寿司株式会社(以下、くら寿司)。浅草や道頓堀、原宿、押上に「食」と「エンターテイメント」の融合を掲げ、「ジャパンカルチャー」の発信拠点とするグローバル旗艦店をオープンするなど、とりわけ “体験” にこだわる同社が、最新のクラウド テクノロジーをどのように活用しているのか。その取り組みと成果を、テクノロジー開発部の皆さんに伺いました。 利用しているサービス: Google Kubernetes Engine、Compute Engine、App Engine、Edge TPU 利用しているソリューション: アプリケーションのモダナイゼーション コンテナや AI など Google Clo
当記事は みずほリサーチ&テクノロジーズ × G-gen エンジニアコラボレーション企画 で執筆されたものです。 G-gen の佐々木です。当記事では、Google Cloud (旧称 GCP) でマネージドな Kubernetes クラスタを使用することができる Google Kubernetes Engine (GKE) を解説します。Amazon Elastic Kubernetes Service (EKS) や Azure Kubernetes Service (AKS)など、kubenetes をマネージドに提供するサービスは存在しますが GKE はそれらの中でもよい評判を耳にします。例えばマスターノードの料金が不要、起動が早いといった具合です。GKE は Google Cloud 採択の理由たりえるサービスのため、優先的に仕様を調査することにしました。 Google Kube
こんにちは。EC基盤グループの宮口(@smiyaguchi)と池田(@progrhyme)です。 モノタロウではKubernetesのマネージドサービスであるGoogle Kubernetes Engine(以下、GKE)を利用しています。 このKubernetesですがとても便利な反面、管理が大変で開発者がアプリケーションの開発とKubernetesの運用を同時に行うのは負荷が高くなりあまり好ましくありません。 そこでモノタロウでは開発と運用を分離できるように、社内でGKE共通環境と呼んでいるマルチテナント方式のクラスタによるアプリケーションの実行基盤を構築しました。 今回はその紹介をします。 マルチテナント・シングルテナントとは? なぜマルチテナントのGKE環境を作ることにしたのか 全体概要 前提・環境情報 GKE共通環境の特徴 Namespace・ノードプールの分離 RBACによる権
※この記事は、"Blog Series of Introduction of Developer Productivity Engineering at Mercariの一環で書かれています。 はじめに こんにちは、メルカリ、サーチインフラチームのshinpeiです。今回はメルカリの検索基盤の裏側について、そのアーキテクチャ変遷について書こうと思います。2018~2021年の4年間で、大きく3回、変化をしました。設計の段階では希望と期待にあふれているアーキテクチャでも、問題は後からやってきます。設計には良し悪しがあり、変化することで知見を得ながら、改善を続けています。え、これだと危ないのでは?、、あぁ、やはりそうなるのね。などと、ご笑覧いただければ幸いです。 前回までのお話 メルカリの検索は、創業時から、Solrをベースにしたシステムで組まれてました。その変遷はこちらのスライドにまとめてあ
はじめまして。Gaudiyでエンジニアをしているあんどう(@Andoobomber)です。 クラウドネイティブ全盛の世の波に乗り、この度 Gaudiy では Cloud Run から Google Kubernetes Engine (GKE) への移行を行いました。 この記事では、その移行プロセスの全体像を共有し、得られた教訓と今後の展望を探ってみたいと思います。 1. Before After: 移行の概観 1-1. Before 1-2. After 2. なぜGKE環境に移行したのか 3. 移行のプロセス 3-1. Kubernetesを学ぶ (1週間: 2023/10/01~) 3-2. Dev on GKE環境作成 (2-3週間) 3-3. Staging on GKE環境作成 (2日) 3-4. Private Clusterへの移行 (1-2週間) 3-5. Prod on
はじめに こんにちは!コンテナ基盤グループの楠本です。 今回はマルチテナント運用におけるKubernetesクラスタ内のコスト把握方法についてご紹介します。 見どころは EKSでKubecostを使ってみたがうまくいかなかったこと OpenCostを導入して解消したこと Datadogを使ってマルチクラウドのKubernetesを把握できるようにしたこと の3点です。 はじめに 結果:OpenCost・Datadogを使って出来たもの EKSにKubecostを試験導入してみた スプレッドシートで頑張っていた頃 EC2にかわって出番が回ってきた 過去分は取得できない EBSボリュームの管理 EBSボリュームタイプ レポート出力 インスタンスの割引率 Kubecostに躓いた コストに対するモチベーション OpenCostでリトライ 必要なものはOpenCostとPrometheus Pro
はじめに いろんな話題が出ているコロナ予約サイトですが、横浜市の予約サイトが公開すぐに落ちたことでまず話題になりました。 ただ、最大34万人の予約者なので 1分あたり最大100万件のアクセスを想定していたが、開始直後に200万件のアクセスがあったということで33,000TPSというかなりのトラフィックが来た事が予想されます。 対応策がサーバを増やして目標値を当初設計の6倍に引き上げるとの事だったのですが、空席照会のついた予約システムってDBにある程度同期的に書き込む必要があるので、そんな簡単にスケールアウト出来ないはずです。 JSとかCSSとかも含めてるならさておき、メインのページなどのHTMLなどを含めたPVだと仮定してもDBに数千アクセスが行きますし参照だけではなく更新も入ります。どうやったのか本当に謎なんですが、特に工夫のないアプリ実装でどのくらいスケールするのか少し気になったので試
1回のポーリングで9回のAPIを呼び出していたのは、予約一覧、予約詳細、ステータス情報など、画面表示に必要な情報を複数のエンドポイントから取得していたためです。これに加えて、多数の薬局クライアントが同時にポーリングを実行するため、リクエスト数が膨大になっていました。 また、予約データは日々構造が複雑になっていき、検索のためにデータベースのテーブルにインデックスを張っても大きな負荷がかかる状況だったため、より本質的な問題の解決を行う必要がありました。 問題の本質:「無駄な」リクエスト ポーリング方式の根本的な問題は、データに変更があってもなくても、定期的にリクエストが発生するという点にあります。 実際の運用データを分析してみると、興味深い事実が分かりました。予約データに変更が発生する頻度は、ポーリング頻度と比較するとかなり低いのです。つまり、大半のリクエストは「変更なし」という結果を返すだけ
一人でインフラ周りなど色々と見て毎日を過ごしているのですが、ある日「そういえば全然Billing情報確認してないぞ」となり確認してみるとえらいことが。 なんか一部のSKUで料金が爆上がりしてる!!! サービス全体からするとそこまで大きなインパクトではない額だったのですが、それでも見過ごせない不穏な上がり方です。 10/1を契機に上がっていたので、GCPのお知らせを確認してみると・・・ cloud.google.com これや〜〜〜 GKEでContainer Registryを利用していたので、Podを生やす際にContainer Registryからイメージをダウンロードしてくるタイミングで新たにお金がかかるように😇 えらいこっちゃとすぐさまダウンロード時の料金がかからないArtifact Registryへの移行を準備しました。 Artifact Registryへの移行 まずはCD
Beatrust で SRE をやっている Yuta(中川 裕太)です.運用がラクにできように色々と改善したり,セキュリティ向上したり,インフラ作ったり API 開発したりしています. 今回のブログでは,Google App Engine (GAE) から Google Kubernetes Engine (GKE) Autopliot へ移行し半年間運用してみて感じたメリットやハマりポイントについて紹介します. モチベーション Beatrust では初期立ち上げの開発コストを下げるため,もともと GAE を用いて開発運用してきました.様々なお客様にご利用いただく中で,嬉しいことに今後 10 倍,100 倍のユーザ数成長が見込めるようになってきました.そういった状況下で以下のような GAE の課題も顕在化しており,インフラの抜本的見直しを実施する必要がありました. GAE では Auto
はじめに こんにちは、技術本部ML・データ部MLOpsブロックの鹿山(@Ash_Kayamin)です。先日、20個の開発環境APIを用意し、各APIをリクエストに応じて動的に起動できる仕組みをKnative Servingを用いて構築しました。 この記事ではKnative Servingを利用した背景と、利用方法、はまりどころ、利用によって得られたコスト削減効果についてご紹介します。なお、今回はKubernetesクラスタのバージョンとの互換性の都合でKnativev1.3.1を利用しました。2022/9現在の最新バージョンはv1.7.1になりますのでご注意ください。 目次 はじめに 目次 課題:20個の異なる開発環境APIを低コストで提供したい 解決策:Knative Servingを用いて、リクエストに応じて動的にAPIサーバーを起動する仕組みを導入する Google Cloud上でA
この記事はenechain Advent Calendar 2024の10日目の記事です。 はじめに enechain データサイエンスデスク エンジニアの藤村です。 我々データサイエンスデスクは、電力や燃料に関するデータ分析や予測モデルの構築などの他に、enechainの様々なビジネスをサポートする社内向けツールの開発・運用も行っています。機械学習や数理最適化を活用したアプローチを中心に、最近ではLLMの活用にも取り組んでいます。 本稿では、この取り組みでStreamlitアプリケーションをGKEでホストするに至った経緯や、その運用について紹介します。 なぜ Streamlit なのか 社内の業務を支援するツールを構築する際、常に課題となるのが「人間の判断をどのように介在させるか」という点です。ドメインやアルゴリズムの性質上、自動化が難しい部分も多く、人間の判断を介在させる必要のある場面
2022 年 4 月 27 日 追記: 2022 年 3 月末に GKE で Gateway API の v1alpha2 が利用可能になりました。それに伴い本記事の内容も v1alpha2 を前提としたものに更新しています。 重要 2022 年 4 月 27 日時点の既知の問題として、元々 v1alpha1 CRDsをインストールし利用していたクラスタに v1alpha2 CRDs をインストールした場合、新規設定が可能になるまで最大 1 週間程度が掛かる場合があります。元々 v1alpha1 を使っていたクラスタとは別のクラスタを用意して v1alpha2 を試して頂くことを推奨します。 Kubernetes / GKE ファンの皆様、こんにちは。Google Cloud の Kazuu (かずー) です。 さて、2021 年に一番話題に挙がった GKE のアップデートと言えば、GKE
こんにちは。開発部門 開発部 Data AI Strategyセクション データ基盤 Unitの小野です。 2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。 ここ一年ほど、DAOという組織改善プロジェクトを推進していく中で、Google Kubernetes Engine (GKE)を使ったGKE共通デプロイ基盤の整備も進めてきました。 ※ DAOについての詳細はSREエンジニアが組織改善プロジェクトを立ち上げてみたを参照ください SREエンジニアの責務の一つは、プロダクトのリリースサイクルを極限まで短くし、次々と新しいサービスを世の中にリリースすることです。ChatGPTのような誰でも簡単に扱えるAIモデルが誕生したことで、プロダクト開発競争は今後ますます激しくなっていくと予想しており、SREエンジニアの責務の重要性をヒシヒシと感じています。 そう
ナレッジワークでソフトウェアエンジニアをしている @yudoufu です。 先日、ナレッジワークのプロダクトBackendはGKEからCloud Runへの移行を終え、サブシステムを含むプロダクト全体がServerless化されました。 今回は、ナレッジワークのプロダクト本体のAPI BackendをGKEからCloud Runに移植した話を紹介します。 初期のナレッジワークのシステム構成ナレッジワークでは立ち上げ当初より、サービス本体とも言えるAPIバックエンドをGKE(Standard)環境で構築・運用されていました。 開発最初期には当然、PMFを目指すためにプロダクトには様々な試行錯誤的な機能追加が行われることになり、またシステムのワークロードなども含めて今後の運用形態に不透明な部分が多くあります。 そのため、システムの機能面・性能面の両面で拡張に対する柔軟性が高く、かつIaC運用と
はじめに こんにちは。ブランドソリューション開発本部 WEAR部 SREの笹沢(@sasamuku)です。 FAANSはショップスタッフの効率的な販売をサポートするスタッフ専用ツールです。FAANSの一部機能は既にリリースされており全国の店舗で利用いただいております。正式リリースに向け、WEARと連携したコーディネート投稿機能やその成果をチェックできる機能などを開発中です。 FAANSのコンテナ基盤にはCloud Runを採用しており、昨年にSREとしての取り組みをテックブログでご紹介しました。しかし、運用していく中で機能需要や技術戦略の変遷があり、Cloud RunからGKE Autopilotへリプレイスすることを決めました。本記事ではリプレイスの背景と、複数サービスが稼働している状況下でのリプレイス方法についてご紹介します。 目次 はじめに 目次 リプレイスの背景 なぜCloud R
※この投稿は米国時間 2023 年 8 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。 Google Cloud は、コンテナ化されたワークロードを実行するための最適な場所になるという使命を担ってきました。それは 2014 年に始まり、Google の内部クラスタ管理システムである Borg を元に、Google は Kubernetes を発明し、世界初のマネージド Kubernetes サービスである Google Kubernetes Engine(GKE)を導入しました。GKE は、現在利用できる最もスケーラブルな、業界をリードする Kubernetes サービスです1。2019 年には、当社はコンテナとサーバーレスの利点を組み合わせた初のサーバーレス プラットフォームである Cloud Run をリリースしました。現在 Cloud Run は、ク
KubernetesのPod利用料金が最大で91%値引きされる「Spot Pods for GKE Autopilot」、Google Cloudが発表 Google Cloudは、Kubernetesでアプリケーションを実行するPodの料金が60%から最大91%まで値引きされる新サービス「Spot Pods for GKE Autopilot」をプレビュー版としてリリースしました。 Autopilot is already great at running stable, production-grade workloads and is backed by a Pod-level SLA—a first for GKE. Now we're introducing Spot Pods to save you money on your fault-tolerant workloads
はじめにKubernetes クラスタやその上で動くワークロードに対する脅威は多様化しており、クラスタ コンポーネントだけではなくコンテナ アプリケーションやソフトウェア サプライチェーンも含めた多層的な防御が求められます。 Google Cloud では Google Kubernetes Engine (以降 GKE) やその周辺エコシステムにおけるセキュリティ機能が活発に開発されており、これらの機能を上手く活用することで Kubernetes 環境の多層防御を実現可能です。 とはいえ、Google Cloud で提供している コンテナ セキュリティ関連機能 / サービスは種類が多すぎて何がなんだか分からない方も多いのではないでしょうか。本記事では、GKE 周辺のセキュリティ機能 / サービスの概要や使い所、おすすめの設定等について紹介していきます。 ちなみに本記事は Cloud Na
こんにちは。データ基盤グループ データエンジニアリングチームの宮口です。 この記事ではGoogle Cloud Platform(以下、GCP)のサービスの1つであるGoogle Kubernetes Engine(以下、GKE)のクラスタを手動アップグレードした話を紹介します。 私が所属するデータエンジニアリングチームでは、社内システムに保存されたデータをGCPのBigQueryにニアリアルタイムで同期するシステムや、BigQueryに保存されている大容量のデータを低レイテンシなAPIとして提供するシステムなど、モノタロウのビジネスを裏側で支えるシステムの管理を行っています。それらのシステムは全てのコンポーネントをコンテナ化しており、その実行環境としてGKEを採用しています。 また、それとは別に社内でGKE共通環境と呼んでいる、マルチテナント方式のクラスタによるアプリケーション実行基盤を
どうもこんにちは。間瀬です。 2026/4/22 - 4/24でラスベガスで開催された Google Cloud Next'26 に参加しています。 本イベントで開催された「Explore Google's Agent Development Kit capabilities and roadmap」というセッションで agents-cli が発表されました。 本記事では、agents-cliについて解説しつつ、本ツールの中でどのような操作が行われるかに触れていきたいと思います。 agents-cli とは? AIエージェントの開発に必要となる実装、評価、デプロイといったプロセスを実行するためのインタフェースを提供するツールです。 手動で操作することはもちろん、Gemini CLIや Claude Codeといったコーディングエージェントから実行することができます。 また、これらのエージェ
※この投稿は米国時間 2024 年 4 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。 Kubernetes の大きな強みの 1 つは、Pod ごとに固有のネットワーク アドレスがあることです。これにより、Pod が VM のように機能するため、デベロッパーはポートの競合などの煩わしい問題を気にする必要がありません。Kubernetes のその特性のおかげで、デベロッパーやオペレーターは作業を簡略化できます。また、設計機能の 1 つとして高い信頼性を獲得しているため、コンテナ オーケストレーターとしての人気が非常に高くなっています。Google Kubernetes Engine(GKE)は、VPC 内のあらゆるクラスタ用にフラットなネットワーク構造を追加導入しています。そのため、各クラスタのそれぞれの Pod に VPC の固有 IP があり、他のクラス
インフラの駒崎です。 Google Kubernetes Engine (GKE) の 1.20+ で有効な kubelet graceful node shutdown と、それを活用した preemptible VM の利用について書かせていただきます。 GCP の Preemptible VM とは Preemptible VM は、いくつかの制限があるかわりに通常のインスタンスよりも安く利用できるインスタンスです。制限はいくつかありますが、最も留意すべきは 「いつでも停止される可能性があり、最長でも起動から 24 時間で停止される」点でしょうか。 ※ Preemptible VM の新バージョンとして Spot VM もアナウンスされました (2021/10/13 現在 preview) 。 Graceful node shutdown GKE 1.20 以降のバージョンでは ku
はじめに こんにちは。インフラエンジニアの松浦です。 IT 基盤部に所属し、全世界向けのゲームタイトルのインフラ運用を担当しています。 先日あるプロジェクトで Google Kubernetes Engine (以降 GKE) でインフラを構築することになり、そこで GKE のコスト削減のために、 ノード 数削減すなわち Pod 集約率の向上 (1台のノードで出来るだけ多くの Pod を動かす) に取り組みました。 今回はそこで行ったことをご紹介します。 概要 今回のプロジェクトでは、 Kubernetes (以降 K8s) の Horizontal Pod Autoscaler 使用してアプリケーション Pod をオートスケールさせます。 このため、スケールアウト・スケールイン後 (Pod の増減により クラスタオートスケーラー (以降 CA) がノードを増減させた後) でも、Pod 集
株式会社Colorful Palette:GKE で構築されたリアルタイム通信エンジン『Diarkis』の導入で約 10 万ユーザーがバーチャル ライブに同時接続し体験を共有 2020 年 9 月にリリースされ、わずか半年で早くも 300 万ダウンロードを突破したスマートフォン向けリズム&アドベンチャー ゲーム『プロジェクトセカイ カラフルステージ! feat. 初音ミク』。そのサービスを支えるリアルタイム通信エンジン『Diarkis』は Google Kubernetes Engine(GKE) 上で動作しています。年末年始のカウントダウン イベントでは 10 万ユーザーに迫る同時接続があったという本サービスが、どのようにしてその難局を乗り切ったのか、開発に携わるエンジニアの皆さんにお伺いしました。 (利用している Google Cloud ソリューション) アプリケーションのモダナイゼ
Scaling Kubernetes Tenant Management with Hierarchical Namespaces Controller Author: @deeeeeeeet from Platform Developer Experience Team Three years ago, we took the decision to break our monolithic API into microservices, and move from the physical machine deployment on-premise to container deployment on GCP by using Google Kubernetes Engine (GKE). We architected our Kubernetes cluster with multi
関連キーワード SDN(Software Defined Networking) | オープンソース | Docker 第9回「『Kubernetes』を使うなら、まず知っておきたい『Flannel』と『Calico』の通信」は、「Pod」(コンテナの集合体)同士の通信を実現する仕組みとして、オープンソースのCNI(Container Networking Interface)プラグインを紹介しました。コンテナオーケストレーター「Kubernetes」はクラウドサービスで利用することも一般的になっています。今回はクラウドサービスにおけるKubernetesのネットワークの仕組みを紹介します。 併せて読みたいお薦め記事 コンテナの基礎知識 いまさら聞けない「Kubernetes」と「Rancher」の違いとは? いまさら聞けない「OpenShift」と「Kubernetes」の基礎 どう違う
こんにちは。AI・機械学習チーム(以下AIチーム)チームリーダー、兼、エンジニアリンググループゼネラルマネージャーの横本(@yokomotod)です。 AIチームでは開発したMLプロダクトの実行基盤としてGoogle Kubernetes Engine(以下GKE)を採用しています。デプロイ関連コードのテンプレートも整備され、新しいプロダクトをスタートさせるときはGKE初心者でも簡単にデプロイまで持っていけるようになっています。 しかし自動生成は一方で、なにがどうなってデプロイされているのかブラックボックスのままになってしまいがちという問題もあります。 そこで今回は、チームメンバーへのオンボーディング、そしてKubernetesを触ってみたい人の参考になればと期待して、 ゼロからGKEにデプロイするハンズオン形式のチュートリアルを作ってみました。 What's this 前提条件 GKEク
リブセンスで機械学習基盤の開発・運用をしている赤坂(yyyyskkk)です。 我々のチームでは今年の7月ごろにGKE Standard(以下Standardクラスタ)上に構築していた機械学習基盤をGKE Autopilot(以下Autopilotクラスタ)に移行しました。GKE Autopilotとはノードやポッドを自動で管理してくれるクラスタです(詳しくはGoogleのブログをご覧ください)。この記事ではなぜAutopilotクラスタに移行したのか、移行する上でどんな作業が必要だったかという話を書きます。 なぜAutopilotクラスタに移行したのか 高額なノードが複数立ち上がる問題 system podが原因? StandardクラスタとAutopilotクラスタの違い 検証 移行に必要だった作業 Argo WorkflowsのExecutorを変更した メモリ不足が発生したためres
この記事は Google Cloud Japan Advent Calendar 2025 の2日目の記事です。 こんにちは。Google CloudのTechnical Solutions Engineerのカケルです。 Google Cloud の技術サポートのチームでは、お客様のお問合せをもとに Google Kubernetes Engine(GKE) をはじめとする多様な Kubernetes 環境で発生した障害の原因調査をお手伝いすることがあります。 はじめに Kubernetes における障害原因調査(Root Cause Analysis,RCA)の難しさ Kubernetes 環境はお客様の利用方法に応じてスケールや稼働しているワークロードが大きく異なります。また、「動的なスケーリング」、「障害に対する自動的な回復」、「アップグレード」など様々な理由で稼働しているワークロ
この記事はエムスリーAdvent Calendar 2023とMLOps Advent Calendar 2023の12日目の記事です。 AI・機械学習チームの北川です。 最近は猫のかまってアピールがすごすぎて、よく仕事の邪魔されます。 かまって欲しがる猫 現在AI・機械学習チームではMLのバッチをGoogle Kubernetes Engine(GKE)上で運用しています。 現在数えてみたところ240個以上のバッチがGKE上で動いているようです。 AI・機械学習チームでは2019年頃から約4年ほどGKE上でMLバッチを運用しています。 その間にコストの最適化や安定したバッチの運用などに力を入れてきました。 この記事では、主にスケールインとコスト最適化について説明しようと思います。 チームのMLについて全体を把握したい場合は以下の記事が詳しいです。 www.m3tech.blog GKEの
はじめに こんにちは。ML・データ部MLOpsブロックの築山(@2kyym)です。 MLOpsブロックでは2022年の上期からArgo CDの導入に着手しました。本記事ではArgo CDの導入を検討した背景から導入のメリット、また導入における公式マニフェストへの変更点や、運用において必須である認証や権限管理など、具体的な手順についてご紹介します。少しでもArgo CDの導入を検討している方の助けになれば幸いです。 またArgo CDを導入するきっかけとなった、複数運用していたKubernetesクラスタを1つに集約するマルチテナントクラスタへの移行についても触れます。マルチテナントクラスタの設計や具体的な移行作業については述べると長くなってしまうため、詳細については改めて別の記事にてご紹介できればと思います。 Argo CDについては、昨年の計測SREブロックの記事でも触れられていますので
WINTICKET の Web 版(以降 WINTICKET Web)のテックリードを担当している @dora1998 です。 サービス開始以来、WINTICKET Web は Google Kubernetes Engine(以下 GKE)へデプロイして稼働していました。2022 年 10 月に Cloud Run を採用した構成へリアーキテクチャを行ったので、この記事ではその背景や具体的な構成、付随して行った改善について紹介します。 抱えていた課題 WINTICKET Web ではリアーキテクチャ前のバックエンド構成について、大きく 3 つの課題を抱えていました。 リリースの安定性 これまでのリリースフローでは段階的なリリース手段がなく、リリース内容に不具合が含まれていた場合にほぼ全てのユーザーが影響を受ける問題がありました。 加えて、WINTICKET はレース情報を提供する競輪シス
はじめに こんにちは、技術本部 データサイエンス部 MLOpsブロックの鹿山(@Ash_Kayamin)です。 みなさんは2021年4月にGCPから「GKE Gateway コントローラによる Kubernetes ネットワーキングの進化」という記事が投稿されたのを覚えていますでしょうか。 cloud.google.com この記事は、Kubernetesコミュニティが発表したKubernetes Gateway APIに対し、そのGKE(Google Kubernetes Engine)版実装であるGKE Gateway Controllerのリリースをアナウンスするものでした。 それから半年が経ち、本番導入の可能性を模索するためにKubernetes Gateway APIとGKE Gateway Controllerを調査、動作検証しました。本記事では、Kubernetes Gate
こんにちは。Platform チームの飯迫 (@minato128)です。 CADDi ではこれまで Hosted Redash(app.redash.io) を利用していたのですが、残念ながら 2021/11/30 に End of Life になるので、10 月末に Self-Hosted Redash 環境を構築して移行しました。今回はそのときやったことを紹介します。 移行の流れ 新しい Redash 環境を v10 で構築する 公式の移行ツールを利用してデータ移行する 監視を追加する 新しい Redash 環境を v10 で構築する まず、移行ツールは移行先として v10 を前提としているので、新しい環境は v10 である必要があります。ちなみに、v10 は 10/2 にリリースされた現時点の最新版です。 v10 であればどんな方法で構築しても問題ないのですが、今回は社内用 GKE
こんにちは。 GMOアドマーケティングの@zakisanbaimanです。 GMOアドマーケティングのDMPサービスであるMinervaはGKEを利用しているのですが、Googleから以下のメールが届きました。 Kubernetes v1.26 以降にて GKE クラスタに引き続きアクセスするためには、gke-gcloud-auth-plugin という新しいバイナリを Kubectl(および Kubernetes カスタム クライアント)とともにインストールする必要がございます どうやら1.25以前で利用していた認証方法が利用不可になり、代わりに新しいプラグインを利用して欲しいとのことのようです。 なぜ認証方法が変わるのか? 背景を知ることは作業の精度を上げるためにも重要です。 KubernetesはOSSであり、OSSをそのまま使ったりサービスプロバイダー(GCPのGKE、AWSのEK
※この投稿は米国時間 2023 年 8 月 25 日に、Google Cloud blog に投稿されたものの抄訳です。 Google Cloud の Cloud Storage は、AI ワークロードへのトレーニングと処理に必要な大量のトレーニング データ、モデル、チェックポイントを格納でき、クラウド ストレージ システムの特徴であるスケール、パフォーマンス、シンプルさ、優れた費用対効果を備えています。ただし、AI ワークロードが実際にそのデータにアクセスする際、常に簡単にアクセスできるとは限りません。AI ワークロードのほとんどが、Cloud Storage から提供されるオブジェクト セマンティクスではなく、ファイル システム セマンティクスを必要とするからです。 Linux の Filesystem in Userspace(FUSE)は、ファイル システムを Linux カーネル
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く