並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 565件

新着順 人気順

mlflowの検索結果1 - 40 件 / 565件

  • DATAFLUCT Tech Blog

    2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

      DATAFLUCT Tech Blog
    • Pythonプロジェクトでflat layoutではなくsrc layoutが推奨される理由を理解する - 肉球でキーボード

      本文中コード github.com flat layoutとsrc layoutについて Pythonプロジェクトのディレクトリ構成について調べてたところ、flat layoutとsrc layoutという2種類のディレクトリ構成が存在することを知りました。 src レイアウト対フラットレイアウト - Python Packaging User Guide flat layout flat layoutはパッケージフォルダをプロジェクトのルート直下に配置するスタイルです。 flat layoutの有名なpythonプロジェクトだと、 pytorch, django, tensorflow があります。 . ├── README.md ├── pyproject.toml └── my_package/ ├── __init__.py └── module.py src layout 一方、

        Pythonプロジェクトでflat layoutではなくsrc layoutが推奨される理由を理解する - 肉球でキーボード
      • 【Team & Project】LINEの機械学習を活用したサービス開発を担当しているチームを紹介します

        LINEの開発組織のそれぞれの部門やプロジェクトについて、その役割や体制、技術スタック、今後の課題やロードマップなどを具体的に紹介していく「Team & Project」シリーズ。今回は、LINEの機械学習を活用したサービス開発を担うMachine Learningチームを紹介します。Machine Learningチームのそれぞれのポジションで開発を進めている4名(菊地悠、齋藤祐樹、櫻打彬夫、境美樹)に話を聞きました。 ―― まず、自己紹介をお願いします。 菊地:2017年10月にプロジェクトマネージャーとして入社しました。前職は携帯電話キャリアでソフトウェア畑の研究系業務からスタートし、転職直前は位置情報系サービスの分析・開発に携わっていました。現在はチームのマネージャーとして、プロジェクトや業務の管理を行なっています。 齋藤:前の会社では広告のCTR予測やショッピングサイトのランキン

          【Team & Project】LINEの機械学習を活用したサービス開発を担当しているチームを紹介します
        • 小さく始めて大きく育てるMLOps2020 | | AI tech studio

          AI Labの岩崎(@chck)です、こんにちは。今日は実験管理、広義ではMLOpsの話をしたいと思います。 MLOpsはもともとDevOpsの派生として生まれた言葉ですが、本稿では本番運用を見据えた機械学習ライフサイクル(実験ログやワークフロー)の管理を指します。 https://www.slideshare.net/databricks/mlflow-infrastructure-for-a-complete-machine-learning-life-cycle 参考記事のJan Teichmann氏の言葉を借りると、 エンジニアがDevOpsによって健全で継続的な開発・運用を実現している一方、 多くのデータサイエンティストは、ローカルでの作業と本番環境に大きなギャップを抱えている クラウド含む本番環境でのモデルのホスティングが考慮されないローカルでの作業 本番のデータボリュームやス

            小さく始めて大きく育てるMLOps2020 | | AI tech studio
          • 海外就職: シンガポールでデータサイエンティストとして働くまでの話|Yusuke Minami @Minyus86

            シンガポールに来た経緯、Resume、OSS、Kaggle、(コーディング)面接対策、給与交渉体験、就労ビザについて、以下の方向けに書きます。 ・ 外資系企業との英語面接を控えている方 ・ 海外、特にシンガポールでの就職に興味がある方 ・ データサイエンティスト、MLエンジニア、ソフトウェアエンジニアとしてのキャリアに興味がある方 前置き ・ こちらの記事は全文無料で公開していますが、最後にお願いがあります。 ・ 技術的な内容を含みますが、その部分は読み飛ばしていただいても問題ありません。 ・ あくまでも一個人の体験に基づきますので、参考にされるかどうは自己判断でお願いします。 シンガポールに来た経緯 私は2010年1月にエンジニアとして東京で働きはじめ、主に製造、自動車業界向けのセンサーデータ処理、解析、シミュレーション、コンピュータビジョンといったアプリケーションに携わっていました。

              海外就職: シンガポールでデータサイエンティストとして働くまでの話|Yusuke Minami @Minyus86
            • 機械学習研究者&エンジニアが頭を抱える実験管理に役立つツールを比較した - のんびりしているエンジニアの日記

              皆さんこんにちは。 お元気でしょうか。GoogleQA20thで悔しいけど楽しかったです。 自然言語処理のみのコンペを真面目に挑んだのは初で、勉強になることが多かったです。 今回は実験管理ツールの紹介と比較をします。 特徴がわかる範囲で簡単に実装も書いているので、参考にしてみてください。 実験管理ツール 実験管理の必要性 実験管理ツールの要件 実験管理ツールの紹介 Excel Excelとは 良い点 欠点 mag magとは サンプル実装 良い点 ここが少し残念 Weights and Biases Weights and Biasesとは サンプル実装 良い点 ここが少し残念 MLFlow サンプル実装 良い点 ここが少し残念 まとめ 最後に 実験管理ツール 実験管理の必要性 コンペティションや研究では多くのハイパーパラメータや構造などに対して様々な変更を加えます。 私の場合の例ですが、

                機械学習研究者&エンジニアが頭を抱える実験管理に役立つツールを比較した - のんびりしているエンジニアの日記
              • 機械学習プロジェクトをいい感じにプロダクトに載せていく今風のやり方について考える | Qrunch(クランチ)

                機械学習プロジェクトをいい感じにプロダクトに載せていく今風のやり方について考える この記事は裏freee developers Advent Calendar 2018の18日目の記事です。 どうも、@aflcです。freeeで機械学習とかやってます。freeeだとRoyで通ってます。 今日は、なんとかしてモデルは作ったもののその後どうしよう、という話をします。 TL;DR TensorFlow Servingとkubelessで、サーバーとか何も考えずにデプロイ出来るようになることを目指します。 本日話す内容 機械学習モデルのデプロイ 前処理・後処理の実装 モデルのバージョン 話さない内容 評価・テスト 開発時の環境 TensorFlow以外で実装する場合 APIの設計 などなど Python以外の言語の話題 はじめに あなたが様々な苦労を乗り越え、イカした機械学習モデルを構築できたとし

                  機械学習プロジェクトをいい感じにプロダクトに載せていく今風のやり方について考える | Qrunch(クランチ)
                • MLOps論文 Machine Learning Operations (MLOps): Overview, Definition, and Architecture の要点まとめ - 肉球でキーボード

                  MLOpsを体系的にまとめた論文「Machine Learning Operations (MLOps): Overview, Definition, and Architecture」を読んだので、要点をまとめました。 元論文:https://arxiv.org/abs/2205.02302 TL;DR 「MLOpsって何?」に答えた論文 MLOpsに関わる文献調査・ツール調査・専門家インタビューを行った MLOpsに必要な原理・要素・ロール・アーキテクチャをまとめた MLOpsの言葉の意味を定義した MLOpsの課題をまとめた 本文要点 0 Abstract MLOpsは今だに漠然とした言葉であり、研究者と専門家間でMLOpsの定義が曖昧となっている。 本論文では文献調査・ツール調査・専門家へのインタビューを行い、MLOpsを調査した。 調査から以下の結果を体系的にまとめた MLOps

                    MLOps論文 Machine Learning Operations (MLOps): Overview, Definition, and Architecture の要点まとめ - 肉球でキーボード
                  • Building LLM applications for production

                    [Hacker News discussion, LinkedIn discussion, Twitter thread] A question that I’ve been asked a lot recently is how large language models (LLMs) will change machine learning workflows. After working with several companies who are working with LLM applications and personally going down a rabbit hole building my applications, I realized two things: It’s easy to make something cool with LLMs, but ver

                      Building LLM applications for production
                    • ノーコードAI開発ツールNode-AIの紹介 - NTT Communications Engineers' Blog

                      はじめに 初めまして!イノベーションセンターでノーコードAI開発ツール「Node-AI」のプロダクトオーナーやXAI・因果分析の研究をしております、切通恵介(@kirikei)です。 Node-AIは2021年10月11日にリリースされたNTT Communicationsの内製開発サービスで、その名の通りブラウザ上からノーコードでAIモデルを開発できるサービスで、製造業のお客様を中心に異常検知やプラント運転支援などの様々な領域で活用されています。(ニュースリリースはこちらやこちらやこちら) いつもはサービスの営業的な紹介をすることが多いのですが、今回はEngineer's Blogでの執筆ということで、エンジニアの方向けの技術、プロダクトマネジメント、チームビルディング、スクラムなどの様々な観点でお伝えできればと考えています。とはいえ、Node-AIに関しては詳細に書きたいことが山ほどあ

                        ノーコードAI開発ツールNode-AIの紹介 - NTT Communications Engineers' Blog
                      • 新卒がMLOpsに挑戦していく話 - MicroAd Developers Blog

                        システム開発本部のデータサイエンスユニットに所属している19新卒の豊原です。 巷で結構耳にするMLOpsですが、結構苦労していらっしゃる組織も多いと考えます。 今回の記事では、マイクロアドで挑戦するMLOpsについての概要と、その挑戦について解説します。 機械学習システムが抱える根本的な問題 私たちの思うMLOpsとは CEという概念 レコメンドシステムが抱える根本的な性質 マイクロアドが作るシステムの現状 MLOpsで実現すること 技術的詳細 Airflowを用いて学習を同時並行で回す MLflowを用いて学習結果を保存する 機械学習エンジニア絶賛採用中 機械学習システムを構築する上で、他の通常のシステムと決定的に違うことがあります。 それはシステムの劣化の早さ*1と問題調査という点にあります。 機械学習システムが抱える根本的な問題 機械学習システムが抱える根本的な性質として、データを基

                          新卒がMLOpsに挑戦していく話 - MicroAd Developers Blog
                        • ハイパラ管理のすすめ -ハイパーパラメータをHydra+MLflowで管理しよう- - やむやむもやむなし

                          機械学習をやっている人なら誰もが遭遇したであろうこの光景 (※写真はPyTorchのLanguage ModelのExampleより) Pythonのargparseでシェルから引数を受け取りPythonスクリプト内でパラメータに設定するパターンは、記述が長くなりがちな上、どのパラメータがmodel/preprocess/optimizerのものなのか区別がつきにくく見通しが悪いといった課題があります。 私は実験用のパラメータ類は全てYAMLに記述して管理しています。 YAMLで記述することでパラメータを階層立てて構造的に記述することができ、パラメータの見通しがぐっとよくなります。 preprocess: min_df: 3 max_df: 1 replace_pattern: \d+ model: hidden_size: 256 dropout: 0.1 optimizer: algo

                            ハイパラ管理のすすめ -ハイパーパラメータをHydra+MLflowで管理しよう- - やむやむもやむなし
                          • Kubeflow Pipelinesで日本語テキスト分類の実験管理 - やむやむもやむなし

                            機械学習ワークフロー管理ツールであるKubeflowのPipelines機能を使って日本語テキスト分類の実験管理を行います。 この記事ではKubeflowのチュートリアルに従ってKubeflowのクラスタを構築してPipelinesを動かし、最後に日本語のデータセットをKubeflow Pipelinesに実際に乗せて機械学習のワークフロー管理を行うところまでまとめていきます。 Kubeflow Kubeflowとは Pipelinesとは GKEでKubeflowクラスタの構築 クラスタ構築 Workload Identityの設定 Pipelinesの基本的な使い方 Pipeline/Experiment/Run PipelineとComponent PipelineとDSL 実験管理としてのKubeflow Pipelines 日本語テキスト分類 with Pipelines Pip

                              Kubeflow Pipelinesで日本語テキスト分類の実験管理 - やむやむもやむなし
                            • カンムを支える技術 ~機械学習編~ - カンムテックブログ

                              バックエンドエンジニアの吉田です。カンムでは機械学習を用いた機能開発を担当しています。 バンドルカードでは後払い機能であるポチっとチャージで機械学習が使われています。 去年のAdvent Calendarで石澤さんが カンムを支える技術2020 という記事を書いてくれていましたがそこではあまり触れられていなかった機械学習まわりの取り組みについて簡単にご紹介します。 バンドルカードのサービスはAWSで構築されているので基本的にはAWSに寄せつつも機械学習ではGCPも活用しマルチクラウドで運用しています。 Data Preparation DWHとしてBigQueryを利用しています。BigQueryにはバンドルカードのトランザクションデータやFirebaseで取得したアプリのイベントログ、サーバのアプリケーションログ等が集約されておりデータ分析やA/Bテストの集計、障害調査等に使われています

                                カンムを支える技術 ~機械学習編~ - カンムテックブログ
                              • KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部

                                2020.10.05 KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ こんにちは。次世代システム研究室のY. O.です。 筆者はデータ分析のスキルアップのためにkaggleというデータ分析プラットフォームを活用しています。kaggleを始めてから約2年間を経て、スキルアップの枠を超え、趣味・生活の一部・etc.になってきてしまっているのも認めざるを得ません。。。 今回は、先日kaggleの自然言語処理コンペ(Tweet Sentiment Extraction)で2位になった結果を題材に、振り返りの意味を込めて”こうしておけば良かった”という点をMLOpsの観点でまとめていきたいと思います。 ここで、kaggleを取り巻くMLOpsの構成をKaggleOpsと勝手に呼ぶこととし、少なくとも筆者は今後のコンペでも以下にまとめ

                                  KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部
                                • データ分析のプロセスにおけるEDA、データ前処理、特徴エンジニアリング、特徴量重要度抽出に関するまとめ - Qiita

                                  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに データ分析のプロセスとして、CRISP-DM(CRoss Industry Standard Process for Data Mining)というものがあります。 ビジネスの理解 データの理解 データの準備 モデリング 評価 デプロイ 機械学習を扱うとなると、モデリングに注目しがちですが実際の作業量としては、それよりも前のステップである、ビジネスの理解、データの理解、データの準備のステップが大半を占めます。これらの作業のうち、「データの理解」は、データの中身を可視化や集計の結果から何らかの仮説を生み出していく作業(EDA (

                                    データ分析のプロセスにおけるEDA、データ前処理、特徴エンジニアリング、特徴量重要度抽出に関するまとめ - Qiita
                                  • LINEの多様なサービスを支える機械学習のプラットフォームと開発事例

                                    2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション 菊地悠氏:Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。 まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ

                                      LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
                                    • 例示で精度を高める「Few-shot Learning」、思考の連鎖「Chain of Thought」… 新しいパラダイム「プロンプトエンジニアリング」に対するアイデア

                                      ユーザーの立場ではAIネイティブな働き方が身近に迫っており、データサイエンティストやMLエンジニアにとってはGPTを活用した開発を意識する必要が出てくる中、マイクロソフトの取り組みやML開発のパラダイムシフトをご紹介する「ChatGPTによって描かれる未来とAI開発の変遷」。ここで日本マイクロソフト株式会社の蒲生氏が登壇。続いて、ML開発において、“学習させたかのように振る舞わせる”ためのアイデアを紹介します。前回はこちらから。 これまでのML開発は「学習」部分の工夫が肝だった 蒲生弘郷氏:残り20分になりましたが、ちょっとここからは重い、GPT開発についてです。「ML開発の今まで」。「GPTはすごいしAzureの説明はわかったよ」という話になるんですが、実際にどう作ればいいのか知っていかないとなかなか厳しいところもあるので、ここの説明をしたいと思います。 ここから先はけっこう専門的な内容

                                        例示で精度を高める「Few-shot Learning」、思考の連鎖「Chain of Thought」… 新しいパラダイム「プロンプトエンジニアリング」に対するアイデア
                                      • MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog

                                        こんにちは!nakamura(@naka957)です。今回はMLflowをご紹介します。 読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。 今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。 本記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。 では、早速始めていきます。 実験記録の重要性 MLflowとは MLflowのインストール データセット準備 機械学習モデルの用意 M

                                          MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog
                                        • Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ

                                          TL;DR TransformersのNERではFast Tokenizerを使うことで、サブトークン ↔ ラベルのアラインメントが実装できる。 長いテキスト入力については、無駄なpaddingを最小限にとどめて高速処理するために、入力を固定長分割するのが良い。 検出漏れが問題になるようであれば、ストライド付きのwindow処理を追加するのが良い。 サンプル実装: github.com 背景 この記事を目に留めていただいた方にはおそらくおなじみであろう Hugging Face の Transformers *1。 BERT等のTransformer素子ベース事前学習モデルを用いた転移学習が容易に実験できるライブラリである。 最新モデルのモジュールがすごいスピードで実装されることに加えて、事前学習モデルおよび依存するトークナイザが一緒に管理・ダウンロードできる点がご利益として特に大きい。

                                            Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ
                                          • 機械学習の煩雑なパラメーター管理の決定版 「Hydra」「MLflow」「Optuna」の組み合わせで手軽にはじめる一元管理

                                            Optuna™は、オープンソースのハイパーパラメーター自動最適化フレームワークです。 「Optuna Meetup #1」では、Optunaのユーザー、導入を検討している方、また開発者を中心に、Optunaの様々な活用方法が共有されました。中村氏は、Hydra・MLflow・Optunaを組み合わせたハイパーパラメーター管理について発表しました。 ふだんは音声合成と声質変換技術などの音声を用いる技術を研究 中村泰貴氏(以下、中村):「HydraとMLflowとOptunaの組み合わせで手軽に始めるハイパーパラメータ管理」というタイトルで、東京大学大学院情報理工学系研究科の修士課程2年の中村が発表します。 軽く自己紹介ですが、先ほど述べたように情報理工学系研究科の、猿渡・小山研究室の修士課程2年です。音声合成に関する技術をふだん研究しています。「Twitter」をやっているので、ぜひフォロー

                                              機械学習の煩雑なパラメーター管理の決定版 「Hydra」「MLflow」「Optuna」の組み合わせで手軽にはじめる一元管理
                                            • クーポン推薦モデルとシステム改善の取り組み - ZOZO TECH BLOG

                                              はじめに ML・データ部推薦基盤ブロックの佐藤(@rayuron)です。私たちはZOZOTOWNのパーソナライズを実現するために、機械学習モデルとシステムを開発・運用しています。本記事ではクーポン推薦のための機械学習モデルとシステム改善に取り組んだ話を紹介します。 はじめに 背景 課題 1. 古い基盤でシステムが運用されている 2. KPIに改善の余地がある 3. 機械学習モデルの評価体制がない 課題解決のために 1. Vertex AI Pipelinesへの移行 2. Two-Stage Recommenderの導入 プロジェクトへの導入 Candidate Generation 1. 過去の実績 2. 人気ブランド 3. 興味を持っているブランドの類似ブランド 評価方法 Reranking 学習データの作成 アンダーサンプリング 特徴量エンジニアリング 学習 バリデーション 推論 3

                                                クーポン推薦モデルとシステム改善の取り組み - ZOZO TECH BLOG
                                              • 実践 AWSデータサイエンス

                                                AWSではデータサイエンス分野で利用できるさまざまなサービスが提供されています。本書では、それらのサービスを有効に使って、データの収集、分析、モデルの訓練、テスト、デプロイまでの一連のプロセスを行う方法を紹介します。対象とする事例は、ヘルスケアデータ、時系列データ、自然言語処理、画像分類、不正検出、需要予測、レコメンデーションシステムなど非常に多岐にわたります。本書の目的は、Amazon SageMakerをはじめとしたAWSの機械学習サービスの詳細を説明するだけでなく、AWSのサービスを組み合わせることで、データサイエンスとアプリケーション開発の統合を図り、開発を効率化することであり、データサイエンティスト、データアナリスト、データエンジニア、MLエンジニアはもちろん、アプリケーション開発者や管理職にとっても役に立つ一冊です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や

                                                  実践 AWSデータサイエンス
                                                • Feature Storeについてふんわり理解する - Re:ゼロから始めるML生活

                                                  最近こちらのサイトを参考にfeature storeに関して勉強してみたので、今回はそのメモです。 www.featurestore.org Why:なぜ必要か? 機械学習の実運用時の困りごと 実験環境と本番環境を揃えたい 過去のある時点の状況を再現したい 特徴量に関する車輪の再発明をなくしたい 歴史的経緯 What:Feature Storeとはなにものか? 求められる要件 共有性 学習系と推論系の一貫性 Feature Engineeringと透明性 バージョン管理と再現性 ガバナンスとアクセスコントロール バッチとオンライン処理 How:どうやって実現する? 標準的なFeature Storeの構成 Serving Storage Transformation Monitoring Registory その他、主なプロダクト群 OSS Feast Hopsworks Rasgo マネ

                                                    Feature Storeについてふんわり理解する - Re:ゼロから始めるML生活
                                                  • 【技術選定/OSS編】LLMプロダクト開発にLangSmithを使って評価と実験を効率化した話 - Gaudiy Tech Blog

                                                    こんにちは。ファンと共に時代を進める、Web3スタートアップ Gaudiy の seya (@sekikazu01)と申します。 この度 Gaudiy では LangSmith を使った評価の体験をいい感じにするライブラリ、langsmith-evaluation-helper を公開しました。 github.com 大まかな機能としては次のように config と、詳細は後で載せますが、LLMを実行する関数 or プロンプトテンプレートと評価を実行する関数を書いて description: Testing evaluations prompt: entry_function: toxic_example_prompts providers: - id: TURBO config: temperature: 0.7 - id: GEMINI_PRO config: temperature:

                                                      【技術選定/OSS編】LLMプロダクト開発にLangSmithを使って評価と実験を効率化した話 - Gaudiy Tech Blog
                                                    • MLflowをさくっと導入できるdocker-composeを作った - やむやむもやむなし

                                                      tl;dr docker-composeを叩くだけでさくっと認証付きのMLflowサーバーを立てられるようにしました こちらからどうぞ: ymym3412/mlflow-docker-compose みなさん機械学習の実験をしていますか? 学習に使ったハイパーパラメーターやデータ、Train/Valデータのロス、、Testデータでの各種評価指標、これらを人手で管理しておくのは非常に大変です。 モデルの開発や比較実験に集中していると「あれ、この最高精度のモデルはどんな条件で実験したものだっけ...」となることもあり、再現性が失われてしまうことにもつながります。 この機械学習にまつわる課題を解決するひとつの枠組みが実験管理と呼ばれるもので、学習時に使用したハイパーパラメーターやTrain Loss、Test データでの評価結果などを記録して管理しておくものです。 代表的なものでいうとMLflo

                                                        MLflowをさくっと導入できるdocker-composeを作った - やむやむもやむなし
                                                      • MLOpsに必要な情報全部BigQueryに置いたら想像以上に捗った話 - Qiita

                                                        本記事はMLOps Advent Calendar 2020の13日目の記事です。 こんにちは。昨年本番環境のComposerでやらかしちゃった人です。今年は比較的平穏に機械学習を使用したサービス開発・運用に携われています。 携わっているサービスの1つで「MLOpsに必要な情報BigQueryに全部おいてみた」ところ想像以上に便利だったので、その方法について共有させてい頂ければと思います。 なお本記事でのMLOpsは 予測モデル/ハイパーパラメータのバージョン管理・デプロイ履歴管理 推論結果の精度監視 + 入力データの傾向監視 を指しています。 特に今年はコロナでビジネス環境が日々絶えず変化しているため、これらの施策がサービス品質担保に大きく貢献してくれました。 背景 毎日一回24時間先までバッチで未来予測し、結果をAPIサーバーにキャッシュする単純なMLサービスに携わっています。なお、予

                                                          MLOpsに必要な情報全部BigQueryに置いたら想像以上に捗った話 - Qiita
                                                        • DATAFLUCT Tech Blog

                                                          2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

                                                            DATAFLUCT Tech Blog
                                                          • ヤフーのAIプラットフォーム紹介 〜 AI開発をより手軽に

                                                            ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーでデータエンジニア兼マネージャーをしている安藤です。 社内で利用しているAIプラットフォームの構築、提供を担当しています。 ヤフーには100を超えるサービスがあり、各サービスのデータ*1が蓄積されています。ヤフーではこれらのデータをマルチビッグデータと呼んでいます。マルチビッグデータを利用し、ユーザの利便性やサービスの質向上のため、AI、機械学習の導入が増えています。 今回は、社内で急速に利用が進んでいる内製のAIプラットフォームを紹介します。 *1 この記事で取り扱っているデータは、プライバシーポリシーの範囲内で取得したデータを個人が特定できない状態に加工しています。 AIプラットフォーム開発の目的 AIプラッ

                                                              ヤフーのAIプラットフォーム紹介 〜 AI開発をより手軽に
                                                            • MLflow 〜これで機械学習のモデル管理から API 作成まで楽にできるかも〜 - Qiita

                                                              ※下記に 1.0.0 版の記事書きました MLflow 1.0 リリース!機械学習ライフサイクルを始めよう! - Qiita はじめに 機械学習をサービスとして運用するには以下のステップが必要となるのではないでしょうか。 (ちなみに仕事できかいがくしゅうしたことないので下記の 99 割は根拠無いです ) 要件定義 目的や目標値の確認 「機械学習のスコアが高い」と「要件を満たす」は等価じゃないことに注意 どう提供するのか 入力値がわかりきっているなら、夜間バッチで全通り予測するとか とはいえ大抵分からないから随時入力を受け取ったら予測するようにしたいのです API としてアプリケーションサーバーから呼ぶ ← 今回想定していること データの分析 EDA(探索的データ分析)ともいう 困ったら最低下記だけでもやれば良い気がしてます 【Pythonメモ】pandas-profilingが探索的データ

                                                                MLflow 〜これで機械学習のモデル管理から API 作成まで楽にできるかも〜 - Qiita
                                                              • MLOps 海外テック企業の事例とフレームワークの紹介 - Gunosyデータ分析ブログ

                                                                はじめに こんにちはGunosy Tech Labの森本です。現在MLOps基盤を再整備しています。そこで調査した海外Tech企業の事例やMLOpsのフレームワークを紹介します。 Gunosy Tech LabのMedia MLチームではニュースアプリ(グノシー、ニュースパス、ルクラ)やクーポンアプリ(オトクル)の推薦アルゴリズムの改善を中心に機械学習を活用してアプリのサービス改善を日々行っています。過去にはチームが独立しており開発者も少数であったことから各チームがJupyter Notebook等でオフライン実験を行い、良い結果のものは本番環境に適用するためプロダクションコードを書き、レビューを行い、本番環境でA/Bテストするという流れでした。最近は開発者の人数も増え横断的にアプリのサービスを改善しているので、より効率的なMLOps基盤が求められています。 はじめに MLOpsとは 実現

                                                                  MLOps 海外テック企業の事例とフレームワークの紹介 - Gunosyデータ分析ブログ
                                                                • LLM開発のための環境構築

                                                                  はじめに 株式会社Elithの大森一祥です。AIテックカンパニーの一員として、お客様の課題をAIを駆使して解決しています。 大規模言語モデル(LLM)が人間と匹敵する性能を発揮することもあり、弊社には多岐にわたるプロジェクトの依頼が寄せられています。最近は、情報漏洩のリスクを回避するため、独自のLLMの開発を希望されることが多いです。このような案件では、一般に公開されたモデル(ローカルLLM)を利用します。 ローカルLLMを活用して課題を解決する方法として、以下の4つが挙げられます。 プロンプトエンジニアリング:LLMに特定の出力を生成させるための入力文の工夫する手法 RAG:外部の文章データベースから、質問に類似した文章を取り出しLLMの入力として用いる手法 インストラクションチューニング:ユーザの指示に沿った出力を生成することを目的としたチューニング手法 継続事前学習:LLMモデルに対

                                                                    LLM開発のための環境構築
                                                                  • MLflow 1.0.0 リリース!機械学習ライフサイクルを始めよう! - Qiita

                                                                    以前 Qiita で MLflow(ver0.4) に関する記事を書いたのですが、 最近(2019年5月22日)MLflow 1.0(候補版)がリリースされたらしいので再びまとめてみました。 本記事では MLflow の概要に加え MLflow1.0 + PyTorch を使ったコードを扱います。 MLflow 1.0 Released! | MLflow Release MLflow 1.0.0 · mlflow/mlflow | github 0. 対象 機械学習アルゴリズム周りに関わっている人 頻繁に実験を回す人 機械学習を使ったちょっと長い期間のプロジェクトに所属してる人 パラメータとか諸々の管理に疲れてきた人 これから長期PoC案件にとりかかる人 混沌とした機械学習周りのなにかを引き継いでしまって悲しくなった人 1. MLflow とは ※ 図は公式サイトより引用 An open

                                                                      MLflow 1.0.0 リリース!機械学習ライフサイクルを始めよう! - Qiita
                                                                    • Replit — How to train your own Large Language Models

                                                                      Header ImageHow Replit trains Large Language Models (LLMs) using Databricks, Hugging Face, and MosaicML IntroductionLarge Language Models, like OpenAI's GPT-4 or Google's PaLM, have taken the world of artificial intelligence by storm. Yet most companies don't currently have the ability to train these models, and are completely reliant on only a handful of large tech firms as providers of the techn

                                                                        Replit — How to train your own Large Language Models
                                                                      • 大規模言語モデルを自社でトレーニング&活用する方法|mah_lab / 西見 公宏

                                                                        オンラインIDEを提供しているReplitでは自社で大規模言語モデルをトレーニングしているらしく、そのノウハウがブログ記事にまとめられていたので要約してみました。 なぜ自社で大規模言語モデルをトレーニングするのか?企業が独自に大規模言語モデル(以下、LLMs)をトレーニングすることを決める理由は、データのプライバシーやセキュリティから、アップデートや改良のコントロールの強化まで様々なものがあるが、Replit社ではカスタマイズ性、依存度の低減、コスト効率に重点を置いている。 カスタマイズ性 カスタムモデルをトレーニングすることで、GPT-4のような汎用モデルやCodexのようなコードに特化したモデルではカバーしきれないプラットフォーム固有の機能、用語、コンテキストなどといった特定のニーズや要件に合わせてモデルを調整することができる。例えば、Replitで人気の高いJavascript Re

                                                                          大規模言語モデルを自社でトレーニング&活用する方法|mah_lab / 西見 公宏
                                                                        • オープンソースの機械学習プラットフォーム「MLflow」、Linux Foundationプロジェクトに加入

                                                                          今回の、MLflowのLinux Foundationプロジェクトへの加入にともない、Linux Foundationは同プラットフォームの採用とコントリビューションをさらに拡大すべく、オープンガバナンスモデルを備えたベンダーニュートラルな拠点を提供する。 MLflowは、機械学習モデルの複雑なプロセスに対応するために開発されており、実験の追跡、再現可能な実行用のコードパッケージ化、モデルの共有、協力を含むデータの準備から本番環境へのデプロイメントまで、エンドツーエンドの機械学習開発ライフサイクルを管理するためのプラットフォームを提供することで、従来は困難だったモデルの構築、トレーニング、チューニング、デプロイ、管理といったプロセスがオーバーフローすることを防いでいる。 6月22日~26日(現地時間)にバーチャルで開催された「Spark + AI Summit」では、スターバックス、エクソ

                                                                            オープンソースの機械学習プラットフォーム「MLflow」、Linux Foundationプロジェクトに加入
                                                                          • Machine Learning Trends You Need to Know - Gradient Flow

                                                                            Insights and trends that will help you navigate the AI landscape. By Assaf Araki and Ben Lorica. Automation and democratization are on the rise AutoML tools are designed to automate the process of training and deploying machine learning. Such tools have progressed to the point where they can produce adequate models for many use cases. Moreover, in domains where model hubs and foundation models (e.

                                                                              Machine Learning Trends You Need to Know - Gradient Flow
                                                                            • SageMaker Experimentsを使った機械学習モデルの実験管理 - コネヒト開発者ブログ

                                                                              皆さん,こんにちは!機械学習エンジニアの柏木(@asteriam)です. 本エントリーはコネヒトアドベントカレンダーの15日目の記事になります. 今回は機械学習モデルの実験管理をする際に使用しているAWSのSageMaker Experimentsの活用例を紹介したいと思います. アドベントカレンダー1日目でたかぱいさんがSageMaker Processingの使い所を紹介してくれているので,こちらも併せて参考下さい. tech.connehito.com はじめに 前回のエントリー*1でML Test Scoreの話をしましたが,その際にMLOpsの大事な要素である再現性(モデル学習など)に触れました.今回はこのモデル学習の再現性のために必要な実験結果(ハイパーパラメータの引数の値,モデル評価指標など)の管理をSageMaker Experimentsでしているというお話です. ※本エ

                                                                                SageMaker Experimentsを使った機械学習モデルの実験管理 - コネヒト開発者ブログ
                                                                              • DATAFLUCT Tech Blog

                                                                                2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

                                                                                  DATAFLUCT Tech Blog
                                                                                • MLflow - A platform for the machine learning lifecycle

                                                                                  Latest Blog Posts MLflow Docs Overhaul The MLflow Documentation is getting an upgrade. Simplifying the LLM journey: From crafting and evaluation to deployment Works with any ML library, language & existing code Runs the same way in any cloud Designed to scale from 1 user to large orgs Scales to big data with Apache Spark™ MLflow is an open source platform to manage the ML lifecycle, including expe