タグ

pythonとmlopsに関するlepton9のブックマーク (5)

  • メルカリShopsを支えるMonorepo ML開発環境 | メルカリエンジニアリング

    こんにちは!SouzohのMLチームでSoftware Engineerをしているwakanaです。 SouzohのMLチームは2021年4月にスタートし、ちょうど2年が経ちます。当時1人だったメンバーも、今では4人になり、レコメンデーションを中心に5, 6個の機能を提供するようになりました。MLOpsも成熟し、より新しく高度なML機能開発に集中して取り組める環境が整ってきていると感じています。 そこでこの記事では、立ち上げから2年たった今SouzohのPython, ML環境がどのようになっているか紹介しようと思います。これからPythonやMLのMonorepoでの開発環境を整えようとしている方、特に少人数での運用を考えてる方の参考になれば嬉しいです。 TL;DR SouzohではPoetry, Bazel, VertexAI Pipelinesで快適なMonorepo開発環境を実現

    メルカリShopsを支えるMonorepo ML開発環境 | メルカリエンジニアリング
  • 10X のコスパ重視 MLOps - 10X Product Blog

    どうも @metalunk です. コスパ,大事ですよね?コストをある値以下に抑えたとき,どれだけパフォーマンスを発揮できるか,という話です. 10X で最初の機械学習プロダクトを作るにあたり,コスパを意識して MLOps 基盤を作ったので,それの紹介をします. Stailer における ML の重要性 レジ前推薦 作りたかったもの アーキテクチャ Training pipeline の選択 Python function-based component vs Own container component Serving 用データストア CI (Continuous Integration) CD (Continuous Delivery) Monitoring リポジトリ構成 認証 Vertex ML Metadata stailer-suggest-batch の移行 組織の話 未来

    10X のコスパ重視 MLOps - 10X Product Blog
  • 機械学習プロジェクトにおけるSageMaker Processingの使い所 - コネヒト開発者ブログ

    みなさんこんにちは。機械学習チームのたかぱい(@takapy0210)です。 2021年もあと1ヶ月となりましたね。皆様いかがお過ごしでしょうか。 ...さて12月といえば、毎年恒例のアドベントカレンダーの季節ですね! というわけで、2021年もコネヒト Advent Calendarが始まります!🎉 初日となるエントリでは、機械学習チームで使用しているSageMaker*1の機能である、Processing*2について、活用事例とともにご紹介しようと思います。 目次 SageMaker Processingとは? SKLearnProcessor / PySparkProcessor Processor / ScriptProcessor これまでの課題感 SageMaker Processorの活用方法 SageMakerからECRにあるコンテナを指定してProcessor Job

    機械学習プロジェクトにおけるSageMaker Processingの使い所 - コネヒト開発者ブログ
  • "the most popular OSS data projects"を眺めてみる(1位〜10位)

    ※具体的なアンケートの質問は不明? この記事 ↑の上位20製品について、簡単に調べてみました。 私がよく知らない製品(Flyteとか)、みんな知っているだろう製品(Sparkとか)は記載薄めです。 なお、私の知識は 知っている Apache Airflow, Trino, Prefect, Apache Spark, Amundsen, Apache Flink, Apache Kafka,Apache Duid, pandas 名前だけ知っている dbt, Apache Pinot, Apache SuperSet, Great Expectations, Dask, Apache Arrow, Apache Gobblin 知らない Dagster, Flyte, RudderStack, Ray な感じです。 目次 dbt Apache Airflow Apache Superset

    "the most popular OSS data projects"を眺めてみる(1位〜10位)
  • 開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD

    システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPython技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。 この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ

    開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD
  • 1