CloudNative Days Winter 2024 の登壇スライドです。 https://event.cloudnativedays.jp/cndw2024/talks/2440

前記事 AWS ECS Fargate Autoscaling の実戦的な基礎知識 の続きというか派生的なところで、こんな監視項目がこんな理由でえぇんちゃうん、という基礎知識的なお話です。 当ブログでは『監視よければ全てヨシ!』という格言を推していますので、監視の仕込みをサボっている人は今からでも頑張っていきましょう。 はじめに もともと書くつもりでいた本タイトルは、公式からこのドキュメントが出たことで、ゴミ箱行きかと思いました。 推奨アラーム – Amazon CloudWatch > Amazon ECS んが、まぁ所詮はドキュメントということで、ここではもう少し実戦に寄り添う形でまとめていければと思います。 あったら嬉しい監視項目をカテゴリごとに整理しつつ、その理由やら補足情報によって、楽しく監視できるようにしていきたいところです。合わせて読みたいところとしては、この辺もどうぞ。 ミ
こんにちは。Data Engineeringチームの河野(@matako1124) です! 今年のData Engineering業務としてデータマネジメントからデータ活用促進の仕組み化まで幅広く活動してきましたが、その中でも特に事業にインパクトの大きい変革のお話をしていこうと思います。 結論から言うと、Supersetの新規導入とRedashからの乗り換えを試みています。 注意 執筆に当たり細心の注意を払っておりますが、不十分な説明や誤りがある可能性もございます。 記事内で紹介しているコードは部分的なものです。参考程度にご参照ください。 目次 2024年時点でのLuupのデータ基盤のご紹介 現状の課題 Superset導入の目的と理由 構築事例 Superset推し機能 Superset改善したい機能 まとめ、今後の施策 終わりに 2024年時点でのLuupのデータ基盤のご紹介 本編に入
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? BIをコード管理したくないですか?私はしたいです。 BI as Codeを謳うOSSがあるようなので、Get Startedしてみます。 環境構築 公式ドキュメントを見ると、VSCodeのExtensionを入れて開発することを推奨しているようです。 2.Open the Command Palette (Ctrl/Cmd + Shift + P) and enter Evidence: New Evidence Project 3.Click Start Evidence in the bottom status bar 拡張機能のイ
はじめに Hi 👋 この記事では SQS を介して Lambda を呼び出す非同期処理の一連の流れを Datadog で可視化する方法を紹介します。 Datadog の提供している Tracer や Lambda Extension Layer については前提知識として解説していきます。 やりかた Python アプリから呼び出す場合は dd-trace-py を使うことで自動計装で Python アプリ -> SQS -> Lambda をトレースすることができます。これは dd-trace-py が SQS を呼び出すクライアントライブラリである botocore の自動計装をサポートしているためです。 では PHP アプリや Go アプリの場合はどうでしょう。実際 PHP で SQS を呼び出す aws/aws-sdk-php は dd-trace-php の自動計装対象ではないで
sumirenです。 技術顧問やSREをしています。 背景 2024年現在、OpenTelemetryが盛り上がっており、ベンダへの依存度を下げてテレメトリを収集・送信することがトレンドになってきているように思います。多くの企業様で、OpenTelemetry対応のオブザーバビリティバックエンドを選定されているのではないでしょうか。 一方で、E2E自動テストツールなどもそうですが、デベロッパーツールは画面やUXの情報がパブリックな情報として出回ることが少ないように思います。オブザーバビリティバックエンドの場合、シグナル3種に関してOpenTelemetryベースでもフルに機能が活用できるのかという疑問もあります。 そうしたこともあり、オブザーバビリティバックエンドは実際にトライアルしてみないと選定しづらいです。監視など狭義のオブザーバビリティ外の機能や、OpenTelemetryの範囲外の
こんにちは。メルペイでバックエンドソフトウェアエンジニアをしている id:koemu です。 バッチプログラムのお話、今回は運用・監視についてお話したいと思います。当社はすべての業務が24時間行われていますので、システムがオンラインのときに動作するバッチプログラムについてのみ議論します。 過去の記事はこちらにあります。 運用に備えて バッチプログラムの運用について、「プリモーテム」「実行管理」そして「ログ管理」の3点について述べていきます。 プリモーテム ポストモーテムという言葉を聞いたことがある方はいらっしゃるかと思います。ポストモーテムとは、GoogleのSRE本の15章*1によれば、障害などの失敗を振り返り、今後に活かすプロセスの総称と捉えることができます。 さて、プリモーテム(プリモータム)とは何でしょうか。この言葉は、私が最近読んだThe Manager’s Path*2*3で使
このシリーズでは本番環境でのモデルの監視の必要性について考えていきます。全3回を予定しています。今回はその最初の回です。データの集計処理に不具合が発生してしまい、すべてのユーザーのログイン回数が0となってしまった場合に発生する事象について、ケーススタディとして見ていきます。 今回の要旨 機械学習を本番環境で用いる場合、モデルに投入するデータが壊れると結果が壊れる機械学習モデルの精度指標を監視するだけでは不十分なことがあるデータの型だけではなく、欠損を表す値の割合や値の分布の変化についても監視が必要TOC· はじめに · 主旨 · 前提: EC サイトのマーケティングキャンペーン · 背景 · 机上検証 · 評価結果 · ケーススタディ すべてのユーザーのログイン回数が0 · 問題発生 · 発生した事象 · 原因 ∘ 他チームの行った変更に対応できていない ∘ データの欠損について気がつけて
この記事はMLOps Advent Calendar 2021の18日目の記事です。 2016年にもTensorFlowとMLサービスの2016年の布教活動報告を書きましたが、ここ3年くらいはMLOps系の活動をメインにしてきたので、その報告です。COVID後はイベント登壇も減り、ブログ記事の執筆が多くなりました。その裏話的な内容です。 Feature Store のブログ記事 今年5月のGoogle I/OでVertex AIのMLOps系プロダクトがいくつかリリースされたので、その後にフォローアップのブログ記事を出し始めました。まずは6月にPMのAnandと書いた Kickstart your organization’s ML application development flywheel with the Vertex Feature Store(日本語版)です。 このプロダクト
初めてFargateを触ったので、運用保守の観点で構築時に設定しておいた方が良いポイントをまとめました。 デプロイの自動化と書いているのにデプロイの話薄めになってしまいました…。 こちらはJAWS-UG朝会 #28で発表したものになります。
この記事はCyberAgent Developers Advent Calendar 2021 11日目の記事です。 みゆっきこと山中勇成(@toriimiyukki)です。普段は、ABEMAで動画配信基盤の開発運用を担当しています。 直近では、配信システムの大規模刷新プロジェクトなどを担当しており、こちらの模様はCA BASE NEXTの発表からアーカイブを閲覧可能です。 ABEMAでは、24時間365日のリニア型配信やVOD配信など、昼夜を問わず落とすことができないミッションクリティカルなサービスを運用しています。サービスを支えるマイクロサービスは、配信分野に限っても20サービスを超えています。 既にPrometheusなど、各種モニタリングソリューションでの監視やアラーティングなども行っていますが、この記事では、あえて手動監視を定期的に行う、モニタリング定例を勧めたいと思います。 な
エムスリーエンジニアリンググループ AI・機械学習チームの中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。最近、ユーザーの検索体験の向上のために、以下の検索評価に関する本を読んでいました。 情報アクセス評価方法論 作者:酒井 哲也発売日: 2015/05/19メディア: 単行本 そこで今回は検索評価指標の1つであるsDCG (session-based Discounted Cumulative Gain)を使ってエムスリーの検索ログから体験の悪かった検索を抽出してみたのでその方法を紹介します。 現状の検索監視 現状の検索監視の問題 nDCG sDCG 線形横断 最下位クリックにおける検索結果の破棄 クリック=適合文書 nsDCGを実際の検索ログに使ってみる sDCGを使って感じたこと まとめ We're hiring !!! Reference 現
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 医師に質問ができるサービスであるAskDoctorsではユーザーが質問を検索できる機能があり、今回は検索改善タスクのために検索ログデータ分析基盤を構築したお話をします。これにより改善サイクルを回せるようになったり、検索ログを使った各種アルゴリズムが利用可能になりました。 データ基盤構築では他チームとの連携が必要不可欠であり、コミュニケーションで工夫した点などもお話できればと思います。 Overview なぜ検索ログデータ分析基盤が必要なのか 検索を監視して改善サイクルを回したい 各種アルゴリズムに利用できるデータを取得したい データ分析に利用したい データアーキテクチャを書き出す イベントとデー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く