はじめに こんにちは。SRE部フロントSREブロックの三品です。 3月19日から3月22日にかけてKubeCon + CloudNativeCon Europe 2024(以下、KubeCon EUと呼びます)が行われました。今回弊社からはZOZOTOWNのマイクロサービスや基盤に関わるエンジニア、推薦システムに関わるエンジニアの合わせて4人で参加しました。 本記事では現地の様子や弊社エンジニアが気になったセッションや現地の様子について紹介していきます。 目次 KubeConEU2024の概要 セッションの紹介 現地の様子 ブースについて 参加に向けてのTips 最後に KubeCon EU 2024の概要 昨年4月にオランダ アムステルダムで行われたKubeCon EUの様子については昨年の参加レポートをご覧ください。 techblog.zozo.com 今年のKubeCon EUはフラ
こんにちは、もーすけです。 今回はTerratest を用いたKubernetes環境のテストについて検討します。 TerratestはGruntwork.ioが作成しているインフラのテスティングソフトウェアです。 もともとは、Terraformで作成したクラウド環境のテストとして発達がしましたが、いまの時代となってKubernetes環境やコンテナイメージもテストできるようになっています。 Kubernetesマニフェストにより、宣言的にインフラ環境を表現できるようになってきているととはいえ、その結果が期待通りに動作しているのかは日々の悩みのタネであることはかわりません。 Terratestがこの悩みを解消するのにイケてそうなので調査してみます。 かつて仮想サーバでアプリケーションを運用している時代に、Serverspecを用いてテスト駆動のインフラ構築を行っていてとても気持ちがよかった
1. はじめに こんにちは、SWEのあかりです。 今回は、SREの角井さん(@cass7ius)と一緒に、Kubernetes(以降、K8sと表記)のPodを事前にスケールアウトする仕組みをK8sのCronJobで構築したので、その実装背景・技術選定・実装方法について実例を紹介します。 この記事を読んで得られるものは以下の3点です。 Podを事前にスケールアウトさせて、ジョブの遅延を低減した実例 技術選定時に行った定性分析の実例 Podからkubectlコマンドを実行する実装例 2. 前提の説明 掲題の実装対象は施工管理サービスであり、これは社内で最も古くから稼働しているモノリシックなRailsアプリケーションです。施工管理サービスのおおよそのインフラ・技術構成は下図の通りになっています。 施工管理サービスのインフラ構成図 上図の通り、施工管理サービスはEKSクラスター上で稼働しており、お
本連載ではKubernetesやマイクロサービスを活用するにあたりどんな準備を進めておけばいいか整理します。第4回はDaprを活用したアプリケーションの構築方法を紹介します。 1. はじめに これまでの連載でKubernetes(AWS EKS)を構築するIaCやアプリケーションのデプロイ手順、ローカルで開発するためのツールなどを紹介してきました。今回はその上で動作するマイクロサービスの連携を考えてみたいと思います。 マイクロサービスは個々のサービスでチームが形成され実装が進められますが、サービス間やシステム全体についても目を向ける必要があります。例えば下記のようなポイントがあるかと思います。 サービス間通信(同期・非同期) サービス間での状態共有 システム全体の観測 部分稼働(障害部分のみ切り離してサービス継続) etc… 今回これらのポイントをアプリケーションに組み込まずに実現する手段
名前空間が Terminating 状態でスタックする 症状 名前空間が Terminating 状態でスタックする 原因 Kubernetes API 拡張機能が使用可能でない場合、その拡張機能によって管理されるリソースは削除できません。 API 拡張機能の削除失敗は、名前空間の削除が失敗する原因になります。 問題の解決 削除されていない API の説明を取得します。 以下のステップを実行して、削除されない API の説明を取得します。 Terminating 状態でスタックしている名前空間を表示します。 kubectl get namespaces 削除されていないリソースを次のように見つけます。 kubectl api-resources --verbs=list --namespaced -o name | xargs -n 1 kubectl get --show-kind --
こんにちは!KEELチームの花塚です。 最近一番驚いたことは、OPA Gatekeeperの「OPA」を「オーパ」と発音するらしいということです。 さて今回は、OPA GatekeeperやConftestなどを用いてKubernetesのセキュリティ面を強化した話です。 以前からチームメンバー全員がセキュリティに気を配っているものの、今まで対策していることが妥当なのか、考慮漏れはないだろうかということを定期的に確認する機会がありませんでした。 闇雲に対策せず一度自分たちの対策を見直し、継続的にセキュリティを向上していける仕組み作りの過程をお伝えできればと思います。 目次 目次 解決したかった課題 OPA Gatekeeperとは Pod Security Policyの廃止 Kubernetesへの脅威 本番環境に導入するまで GatekeeperとConftestで使用するRegoを同
こんにちは、SRE の @int128 です。 Quipper では日本やグローバル向けのサービスをそれぞれの Amazon EKS クラスタで提供しています。Service Level を保ちながらクラスタを運用していくには Cluster Autoscaler や Datadog Agent などのコンポーネントが必要不可欠になります。また、Developer Productivity を改善していくために内製ツールで GitHub や CI などのメトリクスをモニタリングする取り組みを進めています。Quipper ではこのようなシステム共通のコンポーネントを System Components と呼んでいます。 Service Level や Developer Productivity を継続的に改善していくには、コンポーネントの設定変更を素早く試したり、新しいコンポーネントを簡単
社会人生活の半分をフリーランス、半分をIIJで過ごすエンジニア。元々はアプリケーション屋だったはずが、クラウドと出会ったばかりに半身をインフラ屋に売り渡す羽目に。現在はコンテナ技術に傾倒中だが語りだすと長いので割愛。タグをつけるならコンテナ、クラウド、ロードバイク、うどん。 Kubernetes 1.23から標準で利用できるようになったエフェメラルコンテナ(Ephemeral Container)をご存じですか? セキュアにKubernetesを運用していくには必須の機能になることは間違いなく、IKE(IIJ Kubernetes Engine)では早速活用が始まっています。実利用に耐える環境が整うにはまだ少し時間がかかるかもしれませんが、今のうちから使いこなせるように紹介します。 エフェメラルコンテナ 一般的には聞きなれないかもしれませんが、IaaSを使っていればエフェメラル(Ephem
|はじめに こんにちは。株式会社CAMでSRE をしている岡です。 この記事では、弊社で使用している独自の負荷試験環境の紹介をします。 |なぜ独自の負荷試験環境が必要になったのか 弊社で抱えているサービスは多数存在し、新規のサービスリリースも頻繁に行われています。 そのような状況下で、負荷試験環境を都度構築・運用していくのはとてもコストの高いことであり、長年解決したいと思っていた課題の一つでした。 上記のような課題に併せて、新規でリリースするサービスに高い性能要件が求められたため、この機会に全サービス共通で使用できる負荷試験環境の設計・構築に踏み切りました。 |負荷試験環境の設計 要件 1 サービスを横断して使用できることで、負荷試験のノウハウをサービス間で共有できる 2 少ないコンピューティングリソースで負荷試験を行える 3 デベロッパーフレンドリーなシナリオ作成が行える 4 負荷試験の
ヨドバシカメラが運営する国内の代表的なECサイトの1つである「ヨドバシ.com」は、同社が内製するプライベートクラウドによって支えられています。 そのプライベートクラウドはどのように作られ、どのような機能を備えているのかについて、クリエーションラインが主催し10月14日に開催されたオンラインイベント「Actionable Insights Day 2022」でその内幕がはじめて語られました。 この記事では、その内容をダイジェストで紹介します。 はじめて語られるヨドバシ.com を支えるプライベートクラウドの全容 株式会社ヨドバシリテイルデザイン サービスデプロイメント事業部 事業部長 戸田宏司氏。 ヨドバシリテイルデザインの戸田と申します。よろしくお願いいたします。「はじめて語られるヨドバシ.comを支えるプライベートクラウドの全容」というタイトルでお話をさせていただきます。 弊社は「いつ
Beatrust で SRE をやっている Yuta(中川 裕太)です.運用がラクにできように色々と改善したり,セキュリティ向上したり,インフラ作ったり API 開発したりしています. 今回のブログでは,Google App Engine (GAE) から Google Kubernetes Engine (GKE) Autopliot へ移行し半年間運用してみて感じたメリットやハマりポイントについて紹介します. モチベーション Beatrust では初期立ち上げの開発コストを下げるため,もともと GAE を用いて開発運用してきました.様々なお客様にご利用いただく中で,嬉しいことに今後 10 倍,100 倍のユーザ数成長が見込めるようになってきました.そういった状況下で以下のような GAE の課題も顕在化しており,インフラの抜本的見直しを実施する必要がありました. GAE では Auto
この記事はJX通信社 Advent Calendar 2019の1日目の記事です。 こんにちは、SREのたっち(TatchNicolas)です。 先日開催されたKubeCon 2019でもセッションで紹介されていた、Admission Webhooksについて書きます。 Admission WebhooksとはKubernetesリソースを操作(CREATE/UPDATE)する時に、作成や変更の内容をチェックしたり、書き換えたりすることができる機能です。 TL;DR Admission Webhooksを使うと、あらゆるKubernetesリソースの操作をトリガーに 「チェック(Validation)」「変更(Mutation)」 を行える 身近なところでは、Istioでサイドカーのauto-injectionで使われています どの種類のリソースにどんな操作をするときにWebhookを呼ぶ
※岡本、正野、宇都宮はNTTデータ所属 Kubernetesやクラウドネイティブをより便利に利用する技術やツールの概要、使い方を凝縮して紹介する本連載「Cloud Nativeチートシート」。前回から複数回に分けて「Observability(オブザーバビリティ)」「可観測性」にフォーカスして解説しています。 Kubernetesを使っていてトラブルが発生したけど、原因究明をどう進めればいいか分からない……ということはありませんか? コンテナを利用したシステムでは、マイクロサービス化が容易なので、コンポーネントやサービスの数が従来のシステムに比べて非常に多くなります。そのため、障害が発生した場合の原因の究明も大変になります。 そこで今回は、「Observabilityでいろいろとデータが取れるのは分かったけど、何からどう見ていけばいいのか分からない」という方向けに、Kubernetesで実
はじめに 1/15、今回で 3 回目となる Prometheus Meetup Tokyo が開催されたため参加してきました。 今回のテーマは「Prometheus を取り巻くエコシステム達」ということで、Thanos や Victoria Metrics、Grafana Loki など、Prometheus の機能を拡張するソリューションやその事例について熱いプレゼンテーションが行われました。 会場は東京・田町駅から徒歩圏内にある、 NTT ソフトウェアイノベーションセンタさまのイベントスペースでした。こちらの会場は OSS に関する非営利イベントであれば貸し出せるとのことです。 「Prometheus Meetup Tokyo」の会場準備完了!あとはみなさんが来るのを待つだけ!今日は、Prometheus のエコシステム回なので楽しみ?https://t.co/M8WOgemcRO #
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く