![あんどぅ on Twitter: "本番運用するといずれ誰もがたどり着く、公式ドキュメントには書かれてないログ管理の現実解が資料化されていてすばらしい そう、CloudWatch LogsにはDev環境 or ERRORの場合のみ飛ばすFluentdの設定をすることで利便性と料金のバランスをとるのである これは公式ドキュメントにすべき https://t.co/RE4FmPCpJX"](https://cdn-ak-scissors.b.st-hatena.com/image/square/3e60f98c4edd7a3b02e7460a7e8da5027823d944/height=288;version=1;width=512/https%3A%2F%2Fpbs.twimg.com%2Fprofile_images%2F478521168794619905%2FImzs0Q8B.jpeg)
課題 数年前と比較すると、GKEやECSを始めとするコンテナ実行環境でのアプリケーション運用を行うサービスはかなり増えてきた印象があります。 コンテナを運用する上では、アプリケーションのイベントを追跡する上でログをどう扱うかが課題になります。今までのように古いログを定期的にローテートして別のストレージに転送するといった手法はクラウドネイティブなアーキテクチャには最適とは言えません。 アプリケーション開発の方法論として、Twelve Factor App ではログをイベントストリームとして扱うためのガイドラインが示されていますが、近年のWebアプリケーションではシステムを疎結合に連携するマイクロサービスという考え方が主流になりつつあります。 アプリケーションログはサービスごとにフォーマットを整形した上で、ログ収集サービスに配送。必要に応じてリアルタイム分析や異常データの通知、そしてデータの可
「Kubernetes、考えることがいっぱいあって楽しいですね。今日はそんなKubernetesのお話です」 こんな謎の問いかけから始まった、Kubernetesセッション、皆さんご覧になりましたか? Kubernetesで実現するアプリケーションの未来まで見据えたとき、最初に検討しないと一生後悔する忘れがちだけど考えないといけない知見がてんこ盛りのセッションでした。このブログでは、そのセッション内容を余すことなく解説。 EKS/Kubernetesの運用に自信がない Kubernetesクラスタの長期運用を真剣に考えたい クラスターのアップデートができず不安 そんなあなたの未来を明るく照らす知見が、このセッションには詰まっています。ぜひ、Kubernetesクラスタ運用に迷いがあるかたはこのブログご覧になって、未来の負債をこの場で削ぎ落としましょう。 もう、アレコレ悩まなくても良いの…!
こんにちは!スタンディングデスクを導入して快適な開発環境と運動不足の両方を解消できるようになったのではと感じている、広告技術部のUT@mocyutoです。 今回は半年ほどEKSを運用して秒間3万リクエストのトラフィックをさばくほどになりました。 秒間3万は広告システムだと割とあるとは思いますが、kubernetesでも運用できているので紹介しようと思います。 対象のEKSで構築したサービスは広告の配信サーバです。 広告配信サーバの要件として、まず50ms以内にレスポンスを返さなければいけません。 構築したk8sのレスポンスタイムの99パーセンタイルは10msほどで返せています。 以下は必要最小限のクラスタの構成図です。 全体像 API 弊社のサーバサイドはほぼGoで作られているので、例に漏れずGoで作られています。 pod構成はAPI、fluentd、envoyの サイドカーパターン です
「AWSを使って構築したお客さまの環境を日々運用していく中で、これまでさまざまな失敗を経験してきた」――アイレットの古屋啓介さん(クラウドインテグレーション事業部インフラエンジニア)は、クラウドインフラの運用管理者向けイベント「Cloud Operator Days Tokyo 2020」のセッションでこう明かした。 【画像】「Amazon Elastic Compute Cloud」(EC2) アイレットはクラウド専業のSIer。AWS(Amazon Web Services)のマネージドサービス「cloudpack」なども提供しているが、細かい仕様の見落としなどが原因で、cloudpackの運用でいくつかの“しくじり”があったという。 身に覚えのない170万円の高額請求がAWSから来た 古屋さんによると、特に印象に残っている失敗は4つ。その1つ目は「Amazon Athena」で170
マイクロサービス移行後のテスト、CI/CD、運用監視で現場が疲弊しないためのポイント:特集:マイクロサービス入門(終) マイクロサービスアーキテクチャへの移行を進める上で生まれた課題にどう取り組んだのか。オイシックス・ラ・大地の川上徹氏がOisixのマイクロサービス移行後のテスト、CI/CD、運用監視を紹介します。 これまでの連載では、ECサイトであるOisixをマイクロサービスアーキテクチャへ移行させていくアプローチについて解説してきたが、今回は移行させた後の開発・運用について解説する。 併せて前回まで触れてこなかった開発時に留意しておいた方がいい継続的なメンテナンスや運用に関する内容についても解説する。 CI/CDパイプラインを生かした機動力のある開発 本連載の第5回でも「パイプラインファースト」という言葉について説明したが、開発当初からCI/CD(継続的インテグレーション/継続的デプ
スマートキャンプ、エンジニアの入山です。 弊社で技術的挑戦の意味も込めて始めたKubernetes(k8s)も、小規模ながら運用を開始して1年以上が経ちました! 現在では、k8sでのインフラを採用したプロダクトが無事に本番リリースを迎え、ユーザーが本番稼働を行うまでになっており、躓きながらも少しずつ運用知見が溜まってきています。 今回は、k8sを実際に運用してわかった3つの知見を紹介したいと思います! PodのNode配置が偏る 解決策 ローリングアップデート時にダウンタイムが発生する 解決策 Pod削除時にコンテナによってプロセスが終了するタイミングが異なる 解決策 最後に PodのNode配置が偏る k8sではPodを新規作成する場合に、kube-schedulerが各ノードのリソース使用状況等から判断した最適なNodeへスケジューリング(配置)を行います。 しかし、このスケジューリン
はじめに 資産運用で 99 点をとる方法とその考え方について説明します。この記事の対象はいわゆる「普通の人」です。 資産運用は趣味ではない。 資産運用を始めてみたいが何をしてよいのかわからない。 資産運用をすでに行っているが毎年ころころと方針を変えてしまっている。 資産運用に無駄に時間ばかり費やしている。 今のところ資産はすべて銀行の普通口座や定期預金にいれている。このまますべて現金でおいておくのも何か損しているみたいでモヤモヤする。だけど難しいことは勉強したくないし時間も使いたくない。 といった人たちです。 記事では最初に結論、すなわち「やるべきこと」を述べます。資産運用で 99 点の投資効率を達成するためにはこの結論部分だけを実行するだけでよいです。 次に、それだけでどうして 99 点といえるのか、その裏付けとなる考え方や理論を中心に説明します。 99 点をとるにあたってこれらの知識を
Kubernetes・Knativeを用いたプライベートクラウドの実装 たった5人で130クラスタ、2,000超ノードを開発・運用する仕組み Cloud Native Challenges in Private Cloud with K8s, Knative #2/2 2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「Cloud Native Challenges in Private Cloud with K8s, Knative」に登
SingleAZ配置のEC2インスタンスにおいて、障害発生時にどのような対応が取れるのか整理してみました。 西澤です。8/23(金)に東京リージョンにおいて大規模な障害が発生し、多くのシステムが影響を受けました。この障害に際して、可用性を担保する設計の重要性を考えさせられた一方で、切り捨てるものを決め、迅速に復旧し、障害の影響を最小限に抑えることも大切なことだと痛感しました。シングル構成のシステムを運用されていて、復旧に苦労された方も、運良く被害に遭わずに済んだ方も、一緒に考える機会となればと思い、考えたところを残しておきたいと思います。ご意見大歓迎です。 前提 そもそもAWSのベストプラクティスとしては、すべてのシステムはMultiAZで動作するように設計すべきです。では、SingleAZ構成で本番システムを運用することは論外ですか?果たしてそうでしょうか? 初期コストも運用コストも無限
VMwareは、仮想化ハイパーバイザであるvSphereにKubernetesを統合する「Project Pacific」を発表しました。vSphere上で直接KuberenetesクラスタやPodsを実行し、運用管理できるようになります。 VMworld 2019の基調講演では、Kubernetesのオリジナル開発者の一人であり現在はVMwareでプリンシパルエンジニアを務めるJoe Beda氏がProject Pacificについて、「vSphereがKubernetesを実行するためのより優れた場所になる」と説明しました。 VMware CEOのパット・ゲルシンガー氏は「vSphereがモダンアプリケーションのプラットフォームになる。VMwareは現時点でもっとも信頼できるプラットフォームであるだけでなく、将来においても信頼できるプラットフォームになるのだ」と、Project Pac
AWSのマネージドサービスを活かした Kubernetes 運用とAmazon EKS によるクラスタのシングルテナント戦略について
IBMは、同社が1万以上のKubernetesクラスタを25人以下のスタッフで運用してきた経験を元に開発した継続的デリバリツール「Razee」をオープンソースで公開しました。 1万以上のKubernetesクラスタを効率よく運用するには 同社はIBM Cloud上でKubernetesのマネージドサービスを提供しており、これまでに10万以上のKubernetesクラスタを作成し、現在でも6つのリージョンにある35以上のデータセンターで、1万以上のKubernetesクラスタを運用中だとしています。 IBMの説明によると、これだけ大規模になると、Kubernetesを運用管理するためのコントロールプレーンもKubernetesクラスタ上で稼働させており、Kubernetesを運用するためにKubernetesを運用しているという状態。 この規模で、しかも急速に成長中のサービス運用を25人以下
こんにちは。インフラエンジニアの永井(shnagai)です。 今回は、Fargateを本番投入し1ヶ月強が過ぎたので、運用する中で気付いた点について書こうと思います。 以前書いた、Fargateに関する調査のまとめ記事はこちら。 tech.connehito.com 内容はざっくり下記3項目です。 いきなりFargateはハードルが高め 良かった点 コンテナのリソースキャパシティを簡単に変更出来る オートスケーリングもシンプルに組める 安定運用 つらい点 タスクの起動速度がEC2バックエンドと比べるとやはり遅い 料金面 いきなりFargateはハードルが高め Fargate導入を通して一番感じたのは、新規にコンテナ化するアプリケーションをECSで動かす場合、EC2バックエンドで試験をパス出来る状態まで持っていった後に、最後にFargateで動かすパターンがよさそうということです。 今回のF
内容がネガティブに取られそうで、公式なところに書くべきではないので個人ブログで書きます。 この記事は、公式なブログで僕が書いた「社内横断の技術組織をはじめました」という記事へのアンサーブログになります。 ※元の記事は探せば出てきそうだし、個人的なブログと紐付けるべきではないのであえて出しません。 特定の誰かを陥れる目的ではなく、完全に個人の責任として、始めたものを終わらせてしまったことへの事の顛末を記録する目的で書きます。 はじめに 始めた理由 CTOの不在 品質面に対するレビュー不足 技術広報の不足 それぞれの施策の結果 時間がかかってみんなストレスが溜まる新規レビュー 当たり障りの無いことしか表現できない運用レビュー 兼任状態が続き、進まない新規技術検証 やる必要の薄い「全社」広報 終わった理由 成果が出せなくて、そもそも証明出来ないかもしれない 問題解決は組織じゃなくても出来ると気が
社内で機械学習の案件があった際に、機械学習の経験者しか担当できないと後々の引き継ぎで問題が起こりがちです。これを防ぐために、機械学習に興味があり、これまで機械学習を経験したことがないエンジニアにも担当できる体制を整えられることが望ましいです。しかし、機械学習のことに詳しく知らないディレクターやエンジニアにとっては、どのような機械学習の理解段階ならばタスクを任せられるかの判断をするのはなかなか困難です。そこで、このエントリでは機械学習を実タスクでやるまでに乗り越えるべき壁だと私が思っているものについて説明します。 第一の壁: 綺麗なデータで機械学習の問題を解ける 講義で扱われるような綺麗なデータを扱える 行列形式になっていて、欠損値や異常値もない 上記のデータを回帰や分類問題として解くことができる 実際に解く際にはライブラリを使って解いてよい 手法を評価する上で何を行なえばよいか(Preci
遅めですが明けましておめでとうございます。そんな感じで。 基本的に社内向け。あとは特定のお客さん向け。 自分の意見を詳記しとく。あとこれは日本の話で、海外の状況は知りません。 ■「パブリック」クラウド ここでは、大規模メガクラウドを指す。よって、AWS・Azureあたりを考えている。国内クラウドとは明確に規模・技術力で差がついており、はっきり分けるべきと思っているので、ここではAWS・Azureとしている。多分SalesforceとかIBMのやつも入るとは思う。Googleのクラウドについては技術はぶっちぎりだけど、一般民間人には意図していること天才すぎて理解できる気がしないので範囲外とする。 基本的に「所有より利用を」コンセプトにし、使いやすさと低コストを全面に打ち出し、トレードオフとして共有故の仕組み/運用の「ある種の不透明性」を要求する仕組み。なお、不透明性ってのは、これは提供者の企
Google Cloud Platform(2) Advent Calendar 2016 8日目を担当するk-bataです。 Qiitaへ投稿するのは初めてで読みづらい点もあるかと思いますが、最後までお付き合いくださいませ。 今年になってGCPの東京リージョンが発表され、AWSにしか関心がなかった自分がGCPを触ってみたところ、非常に使いやすいと感じました。 特に運用フェーズではGCPの方が使いやすいと感じるところがありましたので、AWSと比較しながら紹介したいと思います。 対象となるかた AWSでたくさんのアカウント(VPC)を管理しているインフラ担当 GCPに興味はあるが、運用で楽できるのか不安に思っている方 ハードウェアメンテナンスで仮想マシンが停止しない AWSで100台以上のインスタンスを運用していると、月に一度はどこかの仮想マシンがメンテナンス再起動の必要に迫られます。 AW
運用の問い合わせチケットを10分の1に削減した話 の続きです。 気がつけば100ストックを超えていて、はてブコメントもたくさんついてありがとうございます。 前回の記事は、運用の起票ルールによった話をしてしまったので、開発チームで取り組んだ問い合わせ削減の話をします。 コメントに書いてもらっているとおり、チケットの数が減ることよりも本当に今やらなければいけないことに集中することが大事です。 減ったことはいいことなの?質で評価した方がよいのでは? http://b.hatena.ne.jp/entry/305264434/comment/chess-news 優先順位を話し合い決定する 問い合わせが、毎日上がってくる中で全ての問い合わせに対応し通常業務を遂行することは、不可能です。 取捨選択しなければなりません。 実際に、割り込みが原因でリリースが伸びてしまったこともあります。 もっと俯瞰して
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く