[B! mlops] clavierのブックマーク

機械学習ソフトウェアにおけるテスト手法

2023/11/29(水)の第36回MLOps勉強会に登壇した際の資料です。

clavier 2024/01/15

リンク

サイバーエージェントの生成AI開発を支える機械学習基盤 | CyberAgent Developers Blog

この記事は CyberAgent Developers Advent Calendar 2023 12日目の記事です。はじめに CIU (CyberAgent group Infrastructure Unit) の西北（@nishi_network）です。普段はプライベートクラウド (Cycloud) や機械学習基盤の運用、それに伴う開発業務に従事しています。今回は、サイバーエージェントの生成AI開発を支える裏側にフォーカスを当て、機械学習基盤の設計や運用、また最新のNVIDIA H100 機械学習基盤構築プロジェクトの裏側について紹介していきます。サイバーエージェントの機械学習基盤サイバーエージェントでは、社内向けにAI用途向け機械学習基盤をパブリッククラウド環境だけではなくオンプレミス環境でも運用しています。これらは全社組織であるCIUが運用しており、データセンターの運用か

clavier 2024/01/02

リンク

車両情報のリアルタイム特徴量基盤の構築

GO TechTalk #24 タクシーアプリ『GO』のAIサービスを支えるMLOpsを体感しよう！で発表した資料です。 ■ YouTube https://www.youtube.com/live/r_oYsac9Hvo?si=6fajvCDKzA-zQe3m&t=1514 ■ conn…

clavier 2024/01/02

MLOps
slide

リンク

Terraformとdriftctlで行うGoogle Cloud 権限管理の省力化 - ZOZO TECH BLOG

はじめにこんにちは、ML・データ部MLOpsブロックの岡本です。 MLOpsブロックでは日々複数のGoogle Cloudプロジェクトを管理しています。これらのプロジェクトでは、データサイエンティストやプロジェクトマネージャーなど別チームのメンバーが作業することもあり、必要に応じてメンバーのGoogleアカウントへ権限を付与しています。権限の付与はプロジェクトの管理者であるMLOpsブロックメンバーが行いますが、これは頻繁に発生する作業でありトイルとなっていました。また権限付与後はこれらを継続的に管理し、定期的に棚卸しすることで不要になった権限を削除する必要があります。しかし当初の運用だと権限の棚卸しの対応コストが大きく、これが実施されずに不要な権限が残り続けるという課題もありました。本記事ではMLOpsブロックで抱えていたGoogle Cloudプロジェクト内での権限管理における

clavier 2023/10/08

リンク

インフラだけではないMLOpsの話

MLOpsの前提となる「ML」がプロダクトの成長に貢献している状態を実現するために、AWSが実施している ML Enabl ement Workshop の内容や提供の経緯をお話しした資料です。 ML Enabl ement Workshop は GitHub で公開しています。 https://g…

clavier 2023/10/08

リンク

LLM開発のためにMLOpsチームがやるべきこと | フューチャー技術ブログ

はじめにこんにちは、SAIG/MLOpsチームでアルバイトをしている板野・平野です。今回は「LLM開発のためにMLOpsチームがやるべきこと」というテーマで、従来のMLOpsとの違い・ツール・構成例等について調査・整理しました。 LLMとはLarge Launguage Model（大規模言語モデル）の略であり、ここでのLLM開発とは、「LLM自体の開発」および「LLMを活用したシステム開発」の両方を含むものとします。LLM開発のフローについては以前にLLM開発のフローで詳細を説明しているので、ぜひ併せてご覧ください。まず、MLOpsとは「機械学習モデルの実装から運用までを円滑に推進するための手法や考え方」のことです。AIの社会実装が増えるに伴い、MLOpsチームを設ける企業も増えてきました。また、最近ではLLMやその関連技術が急速に発達してきており、今後LLMを用いたアプリケーション

clavier 2023/10/08

リンク

LLM開発のフロー | フューチャー技術ブログ

はじめにこんにちは、SAIG/MLOpsチームでアルバイトをしている板野・平野です。今回は、昨今注目されている大規模言語モデル(LLM)の開発においてMLOpsチームがやるべきことを考えるため、まずはLLM開発の流れを調査・整理しました。本記事はその内容を「LLM開発のフロー」という題目でまとめたものです。LLMを本番運用するときに考慮すべきこと、LLM開発・運用を支援するサービスやツール・LLMシステムの構成例などについては、「LLM開発でMLOpsチームがやるべきこと」と題して別記事でご紹介していますので、ぜひ併せてご覧ください。ここでのLLM開発とは、「LLM自体の開発」および「LLMを活用したシステム開発」の両方を含みます。また、「LLM自体の開発」は学習フェーズ、「LLMを活用したシステム開発」は推論フェーズ、として記載しています。本記事ではLLM開発における各フェーズの

clavier 2023/10/08

リンク

機械学習システムアーキテクチャ入門＃2

機械学習システムのアーキテクチャを検討する上で考慮すべき課題について調査しまとめた資料です。Money Forward 社内で開かれた MLOps についての勉強会のために作成しました。 ## Reference 澁井雄介著 AI エンジニアのための機械学習システムデザインパターン翔泳社 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453 有賀康顕中山心太西林孝　著仕事ではじめる機械学習第2版オライリー・ジャパン 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453 Katrina Clokie 著風間裕也, 河原田政典訳 A Practical Guide to Testing in DevOps Japanese Edition

clavier 2022/08/18

リンク

Stanford MLSys Seminars

Stanford seminar on the frontier of machine learning and systems. Live every Thursday, 1:15-3 pm PT.

clavier 2022/05/04

リンク

MLOpsのこれまでとこれから

MLOpsはSoftware2.0のためのDevOpsであり、顧客自身のデータから半自動で顧客体験を改善できるようにします。これまではMLOpsと既存のSoftware1.0のためのDevOpsは独立していましたが、組み合わせることでSoftware2.0の弱点である確率的な挙動を抑制しより安定したサー…

clavier 2022/03/07

MLOps
slide

リンク

AWS MLOps Workload Orchestrator で機械学習モデルのデプロイ/検証の自動化を体感してみた - Taste of Tech Topics

こんにちは、DevOpsチームの@buzz_tkcです。最近枕を「ヒツジのいらない枕」に買い換えました。2020年にクラウドファンディングで話題になっていた時から、キャッチーなネーミングと興味がそそられるフォルムが気になっていたはいたのですが、やっと重い腰を上げて買い換えました。弾力があり高さのある枕が好みの自分にとてもフィットしており、おかげさまで睡眠が捗っております。さて、今回は AWSが公開している「MLOps Workload Orchestrator」を、試してみたいと思います。機械学習プロジェクトにおいて、以下のような課題に直面したことがある人は多いのではないでしょうか？学習リソース不足 GPUマシンが足りず、並列実験ができない、、、ローカルで検証したモデルを本番環境へ適用するのに時間がかかるデプロイの自動化が大変、、、実験が再現できず、品質保証ができない何個か

clavier 2022/02/16

AWS MLOps Workload Orchestrator

aws
MLOps

リンク

Product Lessons from ML Home: Spotify’s One-Stop Shop for Machine Learning - Spotify Engineering

clavier 2022/02/15

リンク

neptune.ai | The experiment tracker for foundation model training

Case studyHow deepsense.ai Tracked and Analyzed 120K+ Models Using Neptune Case studyHow ReSpo.Vision Uses Neptune to Easily Track Training Pipelines at Scale

clavier 2022/02/10

リンク

【MLOps】「いつか使いたい！」と思っていた人のためのMLflowまとめ - Qiita

MLflowとは？ MLflowは機械学習のライフサイクル管理（MLOps）を目的としたライブラリで、主に実験管理用途で使用されることの多いツールです。実験管理とは、・使用した学習器や学習データ、ハイパーパラメータ等のモデル作成条件・そのモデルを評価して得られた評価指標のセットを記録し、複数条件の比較を行うことで最適なモデル選定を行う工程です。このような条件記録はExcel等での手入力が一般的かと思いますが、「手入力は時間が掛かる！」「手入力をミスして苦労して集めた結果が信頼できなくなった」という経験をされた方も多いかと思います上記のような経験から、MLflowにより実験管理を自動化すれば、多くのメリットが得られることはイメージが付くかと思います。 MLflowは2018年リリースの比較的新しいライブラリですが、GitHubのStarは既に1万を突破しており、下図のように

clavier 2022/02/06

MLOps
MLflow

リンク

本番環境での機械学習モデルの監視について (1/3)

このシリーズでは本番環境でのモデルの監視の必要性について考えていきます。全3回を予定しています。今回はその最初の回です。データの集計処理に不具合が発生してしまい、すべてのユーザーのログイン回数が0となってしまった場合に発生する事象について、ケーススタディとして見ていきます。今回の要旨機械学習を本番環境で用いる場合、モデルに投入するデータが壊れると結果が壊れる機械学習モデルの精度指標を監視するだけでは不十分なことがあるデータの型だけではなく、欠損を表す値の割合や値の分布の変化についても監視が必要TOC· はじめに · 主旨 · 前提: EC サイトのマーケティングキャンペーン · 背景 · 机上検証 · 評価結果 · ケーススタディすべてのユーザーのログイン回数が0 · 問題発生 · 発生した事象 · 原因 ∘ 他チームの行った変更に対応できていない ∘ データの欠損について気がつけて

clavier 2022/02/06

リンク

How to evaluate MLOps Platforms

Companies that pioneered application of AI at scale did so using in-house ML platforms (facebook, uber, LinkedIn etc.). These capabilities are now available in off-the-shelf products. The rush to MLOps has led to too much choice. There are hundreds of tools and at least 40 platforms available: Image by Thoughtworks, from Guide to Evaluating MLOps PlatformsThis is a very difficult landscape to navi

clavier 2022/01/30

MLOps

リンク

機械学習の操作 - Cloud Adoption Framework

このブラウザーはサポートされなくなりました。 Microsoft Edge にアップグレードすると、最新の機能、セキュリティ更新プログラム、およびテクニカルサポートを利用できます。機械学習の操作 (MLOps とも呼ばれる) とは、AI を取り入れたアプリケーションに DevOps の原則を適用することを指します。組織で機械学習の操作を実装するには、特定のスキル、プロセス、テクノロジが導入されていなければなりません。目標は、堅牢かつスケーラブルで信頼性が高く、自動化された機械学習ソリューションを提供することです。この記事では、組織レベルで機械学習の操作をサポートするリソースを計画する方法について説明します。 Azure Machine Learning を使用してエンタープライズで機械学習の操作を導入することに基づいて、ベストプラクティスとおすすめ候補についてレビューします。

clavier 2022/01/11

リンク

SageMaker Experimentsを使った機械学習モデルの実験管理 - コネヒト開発者ブログ

皆さん，こんにちは！機械学習エンジニアの柏木（@asteriam）です．本エントリーはコネヒトアドベントカレンダーの15日目の記事になります．今回は機械学習モデルの実験管理をする際に使用しているAWSのSageMaker Experimentsの活用例を紹介したいと思います．アドベントカレンダー1日目でたかぱいさんがSageMaker Processingの使い所を紹介してくれているので，こちらも併せて参考下さい． tech.connehito.com はじめに前回のエントリー*1でML Test Scoreの話をしましたが，その際にMLOpsの大事な要素である再現性（モデル学習など）に触れました．今回はこのモデル学習の再現性のために必要な実験結果（ハイパーパラメータの引数の値，モデル評価指標など）の管理をSageMaker Experimentsでしているというお話です． ※本エ

clavier 2022/01/08

リンク

オンライン機械学習サービスとしてGCP Vertex AIのMLOpsを導入した話

この記事は「Eureka Advent Calendar 2021」の16日目の記事です。 Hello! 世界！MLエンジニアのsugikiです。 2021年ももう終わりますね。急に寒くなってきたので急に年末感がでてきました。うちの犬もかまくらのハウスで丸くなりなかなか出てこなくなりました。私は、普段はユーザが接するMLサービス全般に関わる業務に従事しています。今回は、GCPでMLOpsを導入したサービス事例や苦労した点について紹介したいと思います。全体の構成今回は、検索やレコメンドでのリランキングサービスを例に構成を紹介したいと思います。機械学習を使ったリランキングはlearning-to-rank (LTR)と呼ばれるタスクでアカデミックでも研究が盛んに行われています。一般的には、以下のように、検索エンジンやベクトル類似度など比較的軽量な処理でcandidate generat