並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 464件

新着順 人気順

mlflowの検索結果1 - 40 件 / 464件

  • DATAFLUCT Tech Blog

    2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

      DATAFLUCT Tech Blog
    • 【Team & Project】LINEの機械学習を活用したサービス開発を担当しているチームを紹介します

      LINEの開発組織のそれぞれの部門やプロジェクトについて、その役割や体制、技術スタック、今後の課題やロードマップなどを具体的に紹介していく「Team & Project」シリーズ。今回は、LINEの機械学習を活用したサービス開発を担うMachine Learningチームを紹介します。Machine Learningチームのそれぞれのポジションで開発を進めている4名(菊地悠、齋藤祐樹、櫻打彬夫、境美樹)に話を聞きました。 ―― まず、自己紹介をお願いします。 菊地:2017年10月にプロジェクトマネージャーとして入社しました。前職は携帯電話キャリアでソフトウェア畑の研究系業務からスタートし、転職直前は位置情報系サービスの分析・開発に携わっていました。現在はチームのマネージャーとして、プロジェクトや業務の管理を行なっています。 齋藤:前の会社では広告のCTR予測やショッピングサイトのランキン

        【Team & Project】LINEの機械学習を活用したサービス開発を担当しているチームを紹介します
      • 小さく始めて大きく育てるMLOps2020 | | AI tech studio

        AI Labの岩崎(@chck)です、こんにちは。今日は実験管理、広義ではMLOpsの話をしたいと思います。 MLOpsはもともとDevOpsの派生として生まれた言葉ですが、本稿では本番運用を見据えた機械学習ライフサイクル(実験ログやワークフロー)の管理を指します。 https://www.slideshare.net/databricks/mlflow-infrastructure-for-a-complete-machine-learning-life-cycle 参考記事のJan Teichmann氏の言葉を借りると、 エンジニアがDevOpsによって健全で継続的な開発・運用を実現している一方、 多くのデータサイエンティストは、ローカルでの作業と本番環境に大きなギャップを抱えている クラウド含む本番環境でのモデルのホスティングが考慮されないローカルでの作業 本番のデータボリュームやス

          小さく始めて大きく育てるMLOps2020 | | AI tech studio
        • 海外就職: シンガポールでデータサイエンティストとして働くまでの話|Yusuke Minami @Minyus86

          シンガポールに来た経緯、Resume、OSS、Kaggle、(コーディング)面接対策、給与交渉体験、就労ビザについて、以下の方向けに書きます。 ・ 外資系企業との英語面接を控えている方 ・ 海外、特にシンガポールでの就職に興味がある方 ・ データサイエンティスト、MLエンジニア、ソフトウェアエンジニアとしてのキャリアに興味がある方 前置き ・ こちらの記事は全文無料で公開していますが、最後にお願いがあります。 ・ 技術的な内容を含みますが、その部分は読み飛ばしていただいても問題ありません。 ・ あくまでも一個人の体験に基づきますので、参考にされるかどうは自己判断でお願いします。 シンガポールに来た経緯 私は2010年1月にエンジニアとして東京で働きはじめ、主に製造、自動車業界向けのセンサーデータ処理、解析、シミュレーション、コンピュータビジョンといったアプリケーションに携わっていました。

            海外就職: シンガポールでデータサイエンティストとして働くまでの話|Yusuke Minami @Minyus86
          • 機械学習研究者&エンジニアが頭を抱える実験管理に役立つツールを比較した - のんびりしているエンジニアの日記

            皆さんこんにちは。 お元気でしょうか。GoogleQA20thで悔しいけど楽しかったです。 自然言語処理のみのコンペを真面目に挑んだのは初で、勉強になることが多かったです。 今回は実験管理ツールの紹介と比較をします。 特徴がわかる範囲で簡単に実装も書いているので、参考にしてみてください。 実験管理ツール 実験管理の必要性 実験管理ツールの要件 実験管理ツールの紹介 Excel Excelとは 良い点 欠点 mag magとは サンプル実装 良い点 ここが少し残念 Weights and Biases Weights and Biasesとは サンプル実装 良い点 ここが少し残念 MLFlow サンプル実装 良い点 ここが少し残念 まとめ 最後に 実験管理ツール 実験管理の必要性 コンペティションや研究では多くのハイパーパラメータや構造などに対して様々な変更を加えます。 私の場合の例ですが、

              機械学習研究者&エンジニアが頭を抱える実験管理に役立つツールを比較した - のんびりしているエンジニアの日記
            • ノーコードAI開発ツールNode-AIの紹介 - NTT Communications Engineers' Blog

              はじめに 初めまして!イノベーションセンターでノーコードAI開発ツール「Node-AI」のプロダクトオーナーやXAI・因果分析の研究をしております、切通恵介(@kirikei)です。 Node-AIは2021年10月11日にリリースされたNTT Communicationsの内製開発サービスで、その名の通りブラウザ上からノーコードでAIモデルを開発できるサービスで、製造業のお客様を中心に異常検知やプラント運転支援などの様々な領域で活用されています。(ニュースリリースはこちらやこちらやこちら) いつもはサービスの営業的な紹介をすることが多いのですが、今回はEngineer's Blogでの執筆ということで、エンジニアの方向けの技術、プロダクトマネジメント、チームビルディング、スクラムなどの様々な観点でお伝えできればと考えています。とはいえ、Node-AIに関しては詳細に書きたいことが山ほどあ

                ノーコードAI開発ツールNode-AIの紹介 - NTT Communications Engineers' Blog
              • MLOps論文 Machine Learning Operations (MLOps): Overview, Definition, and Architecture の要点まとめ - 肉球でキーボード

                MLOpsを体系的にまとめた論文「Machine Learning Operations (MLOps): Overview, Definition, and Architecture」を読んだので、要点をまとめました。 元論文:https://arxiv.org/abs/2205.02302 TL;DR 「MLOpsって何?」に答えた論文 MLOpsに関わる文献調査・ツール調査・専門家インタビューを行った MLOpsに必要な原理・要素・ロール・アーキテクチャをまとめた MLOpsの言葉の意味を定義した MLOpsの課題をまとめた 本文要点 0 Abstract MLOpsは今だに漠然とした言葉であり、研究者と専門家間でMLOpsの定義が曖昧となっている。 本論文では文献調査・ツール調査・専門家へのインタビューを行い、MLOpsを調査した。 調査から以下の結果を体系的にまとめた MLOps

                  MLOps論文 Machine Learning Operations (MLOps): Overview, Definition, and Architecture の要点まとめ - 肉球でキーボード
                • Building LLM applications for production

                  [Hacker News discussion, LinkedIn discussion, Twitter thread] A question that I’ve been asked a lot recently is how large language models (LLMs) will change machine learning workflows. After working with several companies who are working with LLM applications and personally going down a rabbit hole building my applications, I realized two things: It’s easy to make something cool with LLMs, but ver

                    Building LLM applications for production
                  • 新卒がMLOpsに挑戦していく話 - MicroAd Developers Blog

                    システム開発本部のデータサイエンスユニットに所属している19新卒の豊原です。 巷で結構耳にするMLOpsですが、結構苦労していらっしゃる組織も多いと考えます。 今回の記事では、マイクロアドで挑戦するMLOpsについての概要と、その挑戦について解説します。 機械学習システムが抱える根本的な問題 私たちの思うMLOpsとは CEという概念 レコメンドシステムが抱える根本的な性質 マイクロアドが作るシステムの現状 MLOpsで実現すること 技術的詳細 Airflowを用いて学習を同時並行で回す MLflowを用いて学習結果を保存する 機械学習エンジニア絶賛採用中 機械学習システムを構築する上で、他の通常のシステムと決定的に違うことがあります。 それはシステムの劣化の早さ*1と問題調査という点にあります。 機械学習システムが抱える根本的な問題 機械学習システムが抱える根本的な性質として、データを基

                      新卒がMLOpsに挑戦していく話 - MicroAd Developers Blog
                    • ハイパラ管理のすすめ -ハイパーパラメータをHydra+MLflowで管理しよう- - やむやむもやむなし

                      機械学習をやっている人なら誰もが遭遇したであろうこの光景 (※写真はPyTorchのLanguage ModelのExampleより) Pythonのargparseでシェルから引数を受け取りPythonスクリプト内でパラメータに設定するパターンは、記述が長くなりがちな上、どのパラメータがmodel/preprocess/optimizerのものなのか区別がつきにくく見通しが悪いといった課題があります。 私は実験用のパラメータ類は全てYAMLに記述して管理しています。 YAMLで記述することでパラメータを階層立てて構造的に記述することができ、パラメータの見通しがぐっとよくなります。 preprocess: min_df: 3 max_df: 1 replace_pattern: \d+ model: hidden_size: 256 dropout: 0.1 optimizer: algo

                        ハイパラ管理のすすめ -ハイパーパラメータをHydra+MLflowで管理しよう- - やむやむもやむなし
                      • Kubeflow Pipelinesで日本語テキスト分類の実験管理 - やむやむもやむなし

                        機械学習ワークフロー管理ツールであるKubeflowのPipelines機能を使って日本語テキスト分類の実験管理を行います。 この記事ではKubeflowのチュートリアルに従ってKubeflowのクラスタを構築してPipelinesを動かし、最後に日本語のデータセットをKubeflow Pipelinesに実際に乗せて機械学習のワークフロー管理を行うところまでまとめていきます。 Kubeflow Kubeflowとは Pipelinesとは GKEでKubeflowクラスタの構築 クラスタ構築 Workload Identityの設定 Pipelinesの基本的な使い方 Pipeline/Experiment/Run PipelineとComponent PipelineとDSL 実験管理としてのKubeflow Pipelines 日本語テキスト分類 with Pipelines Pip

                          Kubeflow Pipelinesで日本語テキスト分類の実験管理 - やむやむもやむなし
                        • カンムを支える技術 ~機械学習編~ - カンムテックブログ

                          バックエンドエンジニアの吉田です。カンムでは機械学習を用いた機能開発を担当しています。 バンドルカードでは後払い機能であるポチっとチャージで機械学習が使われています。 去年のAdvent Calendarで石澤さんが カンムを支える技術2020 という記事を書いてくれていましたがそこではあまり触れられていなかった機械学習まわりの取り組みについて簡単にご紹介します。 バンドルカードのサービスはAWSで構築されているので基本的にはAWSに寄せつつも機械学習ではGCPも活用しマルチクラウドで運用しています。 Data Preparation DWHとしてBigQueryを利用しています。BigQueryにはバンドルカードのトランザクションデータやFirebaseで取得したアプリのイベントログ、サーバのアプリケーションログ等が集約されておりデータ分析やA/Bテストの集計、障害調査等に使われています

                            カンムを支える技術 ~機械学習編~ - カンムテックブログ
                          • KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部

                            2020.10.05 KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ こんにちは。次世代システム研究室のY. O.です。 筆者はデータ分析のスキルアップのためにkaggleというデータ分析プラットフォームを活用しています。kaggleを始めてから約2年間を経て、スキルアップの枠を超え、趣味・生活の一部・etc.になってきてしまっているのも認めざるを得ません。。。 今回は、先日kaggleの自然言語処理コンペ(Tweet Sentiment Extraction)で2位になった結果を題材に、振り返りの意味を込めて”こうしておけば良かった”という点をMLOpsの観点でまとめていきたいと思います。 ここで、kaggleを取り巻くMLOpsの構成をKaggleOpsと勝手に呼ぶこととし、少なくとも筆者は今後のコンペでも以下にまとめ

                              KaggleOpsを考える ~ MLflow + Colaboratory + Kaggle Notebook ~ - GMOインターネットグループ グループ研究開発本部
                            • LINEの多様なサービスを支える機械学習のプラットフォームと開発事例

                              2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション 菊地悠氏:Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。 まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ

                                LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
                              • MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog

                                こんにちは!nakamura(@naka957)です。今回はMLflowをご紹介します。 読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。 今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。 本記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。 では、早速始めていきます。 実験記録の重要性 MLflowとは MLflowのインストール データセット準備 機械学習モデルの用意 M

                                  MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog
                                • 例示で精度を高める「Few-shot Learning」、思考の連鎖「Chain of Thought」… 新しいパラダイム「プロンプトエンジニアリング」に対するアイデア

                                  ユーザーの立場ではAIネイティブな働き方が身近に迫っており、データサイエンティストやMLエンジニアにとってはGPTを活用した開発を意識する必要が出てくる中、マイクロソフトの取り組みやML開発のパラダイムシフトをご紹介する「ChatGPTによって描かれる未来とAI開発の変遷」。ここで日本マイクロソフト株式会社の蒲生氏が登壇。続いて、ML開発において、“学習させたかのように振る舞わせる”ためのアイデアを紹介します。前回はこちらから。 これまでのML開発は「学習」部分の工夫が肝だった 蒲生弘郷氏:残り20分になりましたが、ちょっとここからは重い、GPT開発についてです。「ML開発の今まで」。「GPTはすごいしAzureの説明はわかったよ」という話になるんですが、実際にどう作ればいいのか知っていかないとなかなか厳しいところもあるので、ここの説明をしたいと思います。 ここから先はけっこう専門的な内容

                                    例示で精度を高める「Few-shot Learning」、思考の連鎖「Chain of Thought」… 新しいパラダイム「プロンプトエンジニアリング」に対するアイデア
                                  • 機械学習の煩雑なパラメーター管理の決定版 「Hydra」「MLflow」「Optuna」の組み合わせで手軽にはじめる一元管理

                                    Optuna™は、オープンソースのハイパーパラメーター自動最適化フレームワークです。 「Optuna Meetup #1」では、Optunaのユーザー、導入を検討している方、また開発者を中心に、Optunaの様々な活用方法が共有されました。中村氏は、Hydra・MLflow・Optunaを組み合わせたハイパーパラメーター管理について発表しました。 ふだんは音声合成と声質変換技術などの音声を用いる技術を研究 中村泰貴氏(以下、中村):「HydraとMLflowとOptunaの組み合わせで手軽に始めるハイパーパラメータ管理」というタイトルで、東京大学大学院情報理工学系研究科の修士課程2年の中村が発表します。 軽く自己紹介ですが、先ほど述べたように情報理工学系研究科の、猿渡・小山研究室の修士課程2年です。音声合成に関する技術をふだん研究しています。「Twitter」をやっているので、ぜひフォロー

                                      機械学習の煩雑なパラメーター管理の決定版 「Hydra」「MLflow」「Optuna」の組み合わせで手軽にはじめる一元管理
                                    • Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ

                                      TL;DR TransformersのNERではFast Tokenizerを使うことで、サブトークン ↔ ラベルのアラインメントが実装できる。 長いテキスト入力については、無駄なpaddingを最小限にとどめて高速処理するために、入力を固定長分割するのが良い。 検出漏れが問題になるようであれば、ストライド付きのwindow処理を追加するのが良い。 サンプル実装: github.com 背景 この記事を目に留めていただいた方にはおそらくおなじみであろう Hugging Face の Transformers *1。 BERT等のTransformer素子ベース事前学習モデルを用いた転移学習が容易に実験できるライブラリである。 最新モデルのモジュールがすごいスピードで実装されることに加えて、事前学習モデルおよび依存するトークナイザが一緒に管理・ダウンロードできる点がご利益として特に大きい。

                                        Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ
                                      • MLflowをさくっと導入できるdocker-composeを作った - やむやむもやむなし

                                        tl;dr docker-composeを叩くだけでさくっと認証付きのMLflowサーバーを立てられるようにしました こちらからどうぞ: ymym3412/mlflow-docker-compose みなさん機械学習の実験をしていますか? 学習に使ったハイパーパラメーターやデータ、Train/Valデータのロス、、Testデータでの各種評価指標、これらを人手で管理しておくのは非常に大変です。 モデルの開発や比較実験に集中していると「あれ、この最高精度のモデルはどんな条件で実験したものだっけ...」となることもあり、再現性が失われてしまうことにもつながります。 この機械学習にまつわる課題を解決するひとつの枠組みが実験管理と呼ばれるもので、学習時に使用したハイパーパラメーターやTrain Loss、Test データでの評価結果などを記録して管理しておくものです。 代表的なものでいうとMLflo

                                          MLflowをさくっと導入できるdocker-composeを作った - やむやむもやむなし
                                        • 実践 AWSデータサイエンス

                                          AWSではデータサイエンス分野で利用できるさまざまなサービスが提供されています。本書では、それらのサービスを有効に使って、データの収集、分析、モデルの訓練、テスト、デプロイまでの一連のプロセスを行う方法を紹介します。対象とする事例は、ヘルスケアデータ、時系列データ、自然言語処理、画像分類、不正検出、需要予測、レコメンデーションシステムなど非常に多岐にわたります。本書の目的は、Amazon SageMakerをはじめとしたAWSの機械学習サービスの詳細を説明するだけでなく、AWSのサービスを組み合わせることで、データサイエンスとアプリケーション開発の統合を図り、開発を効率化することであり、データサイエンティスト、データアナリスト、データエンジニア、MLエンジニアはもちろん、アプリケーション開発者や管理職にとっても役に立つ一冊です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や

                                            実践 AWSデータサイエンス
                                          • クーポン推薦モデルとシステム改善の取り組み - ZOZO TECH BLOG

                                            はじめに ML・データ部推薦基盤ブロックの佐藤(@rayuron)です。私たちはZOZOTOWNのパーソナライズを実現するために、機械学習モデルとシステムを開発・運用しています。本記事ではクーポン推薦のための機械学習モデルとシステム改善に取り組んだ話を紹介します。 はじめに 背景 課題 1. 古い基盤でシステムが運用されている 2. KPIに改善の余地がある 3. 機械学習モデルの評価体制がない 課題解決のために 1. Vertex AI Pipelinesへの移行 2. Two-Stage Recommenderの導入 プロジェクトへの導入 Candidate Generation 1. 過去の実績 2. 人気ブランド 3. 興味を持っているブランドの類似ブランド 評価方法 Reranking 学習データの作成 アンダーサンプリング 特徴量エンジニアリング 学習 バリデーション 推論 3

                                              クーポン推薦モデルとシステム改善の取り組み - ZOZO TECH BLOG
                                            • Feature Storeについてふんわり理解する - Re:ゼロから始めるML生活

                                              最近こちらのサイトを参考にfeature storeに関して勉強してみたので、今回はそのメモです。 www.featurestore.org Why:なぜ必要か? 機械学習の実運用時の困りごと 実験環境と本番環境を揃えたい 過去のある時点の状況を再現したい 特徴量に関する車輪の再発明をなくしたい 歴史的経緯 What:Feature Storeとはなにものか? 求められる要件 共有性 学習系と推論系の一貫性 Feature Engineeringと透明性 バージョン管理と再現性 ガバナンスとアクセスコントロール バッチとオンライン処理 How:どうやって実現する? 標準的なFeature Storeの構成 Serving Storage Transformation Monitoring Registory その他、主なプロダクト群 OSS Feast Hopsworks Rasgo マネ

                                                Feature Storeについてふんわり理解する - Re:ゼロから始めるML生活
                                              • MLOpsに必要な情報全部BigQueryに置いたら想像以上に捗った話 - Qiita

                                                本記事はMLOps Advent Calendar 2020の13日目の記事です。 こんにちは。昨年本番環境のComposerでやらかしちゃった人です。今年は比較的平穏に機械学習を使用したサービス開発・運用に携われています。 携わっているサービスの1つで「MLOpsに必要な情報BigQueryに全部おいてみた」ところ想像以上に便利だったので、その方法について共有させてい頂ければと思います。 なお本記事でのMLOpsは 予測モデル/ハイパーパラメータのバージョン管理・デプロイ履歴管理 推論結果の精度監視 + 入力データの傾向監視 を指しています。 特に今年はコロナでビジネス環境が日々絶えず変化しているため、これらの施策がサービス品質担保に大きく貢献してくれました。 背景 毎日一回24時間先までバッチで未来予測し、結果をAPIサーバーにキャッシュする単純なMLサービスに携わっています。なお、予

                                                  MLOpsに必要な情報全部BigQueryに置いたら想像以上に捗った話 - Qiita
                                                • DATAFLUCT Tech Blog

                                                  2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

                                                    DATAFLUCT Tech Blog
                                                  • ヤフーのAIプラットフォーム紹介 〜 AI開発をより手軽に

                                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーでデータエンジニア兼マネージャーをしている安藤です。 社内で利用しているAIプラットフォームの構築、提供を担当しています。 ヤフーには100を超えるサービスがあり、各サービスのデータ*1が蓄積されています。ヤフーではこれらのデータをマルチビッグデータと呼んでいます。マルチビッグデータを利用し、ユーザの利便性やサービスの質向上のため、AI、機械学習の導入が増えています。 今回は、社内で急速に利用が進んでいる内製のAIプラットフォームを紹介します。 *1 この記事で取り扱っているデータは、プライバシーポリシーの範囲内で取得したデータを個人が特定できない状態に加工しています。 AIプラットフォーム開発の目的 AIプラッ

                                                      ヤフーのAIプラットフォーム紹介 〜 AI開発をより手軽に
                                                    • MLOps 海外テック企業の事例とフレームワークの紹介 - Gunosyデータ分析ブログ

                                                      はじめに こんにちはGunosy Tech Labの森本です。現在MLOps基盤を再整備しています。そこで調査した海外Tech企業の事例やMLOpsのフレームワークを紹介します。 Gunosy Tech LabのMedia MLチームではニュースアプリ(グノシー、ニュースパス、ルクラ)やクーポンアプリ(オトクル)の推薦アルゴリズムの改善を中心に機械学習を活用してアプリのサービス改善を日々行っています。過去にはチームが独立しており開発者も少数であったことから各チームがJupyter Notebook等でオフライン実験を行い、良い結果のものは本番環境に適用するためプロダクションコードを書き、レビューを行い、本番環境でA/Bテストするという流れでした。最近は開発者の人数も増え横断的にアプリのサービスを改善しているので、より効率的なMLOps基盤が求められています。 はじめに MLOpsとは 実現

                                                        MLOps 海外テック企業の事例とフレームワークの紹介 - Gunosyデータ分析ブログ
                                                      • LLM開発のための環境構築

                                                        はじめに 株式会社Elithの大森一祥です。AIテックカンパニーの一員として、お客様の課題をAIを駆使して解決しています。 大規模言語モデル(LLM)が人間と匹敵する性能を発揮することもあり、弊社には多岐にわたるプロジェクトの依頼が寄せられています。最近は、情報漏洩のリスクを回避するため、独自のLLMの開発を希望されることが多いです。このような案件では、一般に公開されたモデル(ローカルLLM)を利用します。 ローカルLLMを活用して課題を解決する方法として、以下の4つが挙げられます。 プロンプトエンジニアリング:LLMに特定の出力を生成させるための入力文の工夫する手法 RAG:外部の文章データベースから、質問に類似した文章を取り出しLLMの入力として用いる手法 インストラクションチューニング:ユーザの指示に沿った出力を生成することを目的としたチューニング手法 継続事前学習:LLMモデルに対

                                                          LLM開発のための環境構築
                                                        • Replit — How to train your own Large Language Models

                                                          Header ImageHow Replit trains Large Language Models (LLMs) using Databricks, Hugging Face, and MosaicML IntroductionLarge Language Models, like OpenAI's GPT-4 or Google's PaLM, have taken the world of artificial intelligence by storm. Yet most companies don't currently have the ability to train these models, and are completely reliant on only a handful of large tech firms as providers of the techn

                                                            Replit — How to train your own Large Language Models
                                                          • 大規模言語モデルを自社でトレーニング&活用する方法|mah_lab / 西見 公宏

                                                            オンラインIDEを提供しているReplitでは自社で大規模言語モデルをトレーニングしているらしく、そのノウハウがブログ記事にまとめられていたので要約してみました。 なぜ自社で大規模言語モデルをトレーニングするのか?企業が独自に大規模言語モデル(以下、LLMs)をトレーニングすることを決める理由は、データのプライバシーやセキュリティから、アップデートや改良のコントロールの強化まで様々なものがあるが、Replit社ではカスタマイズ性、依存度の低減、コスト効率に重点を置いている。 カスタマイズ性 カスタムモデルをトレーニングすることで、GPT-4のような汎用モデルやCodexのようなコードに特化したモデルではカバーしきれないプラットフォーム固有の機能、用語、コンテキストなどといった特定のニーズや要件に合わせてモデルを調整することができる。例えば、Replitで人気の高いJavascript Re

                                                              大規模言語モデルを自社でトレーニング&活用する方法|mah_lab / 西見 公宏
                                                            • オープンソースの機械学習プラットフォーム「MLflow」、Linux Foundationプロジェクトに加入

                                                              今回の、MLflowのLinux Foundationプロジェクトへの加入にともない、Linux Foundationは同プラットフォームの採用とコントリビューションをさらに拡大すべく、オープンガバナンスモデルを備えたベンダーニュートラルな拠点を提供する。 MLflowは、機械学習モデルの複雑なプロセスに対応するために開発されており、実験の追跡、再現可能な実行用のコードパッケージ化、モデルの共有、協力を含むデータの準備から本番環境へのデプロイメントまで、エンドツーエンドの機械学習開発ライフサイクルを管理するためのプラットフォームを提供することで、従来は困難だったモデルの構築、トレーニング、チューニング、デプロイ、管理といったプロセスがオーバーフローすることを防いでいる。 6月22日~26日(現地時間)にバーチャルで開催された「Spark + AI Summit」では、スターバックス、エクソ

                                                                オープンソースの機械学習プラットフォーム「MLflow」、Linux Foundationプロジェクトに加入
                                                              • Machine Learning Trends You Need to Know - Gradient Flow

                                                                Insights and trends that will help you navigate the AI landscape. By Assaf Araki and Ben Lorica. Automation and democratization are on the rise AutoML tools are designed to automate the process of training and deploying machine learning. Such tools have progressed to the point where they can produce adequate models for many use cases. Moreover, in domains where model hubs and foundation models (e.

                                                                  Machine Learning Trends You Need to Know - Gradient Flow
                                                                • モバイルゲーム会社の機械学習グループを立ち上げた話 - Qiita

                                                                  新年あけましてメリークリスマス!!!!!!!!! 今日は2023年1月3日。これはKLab Engineer Advent Calendar 2022の21+13日目の記事です。年末年始は寝てばかりでクリスマスらしいことができなかったので、体感ではまだクリスマス前です。 21日からコロナでダウンしてたんですが、やっと回復してきたと思ったら今度は家族にうつしてしまった…(みんなごめん Advent Calendarはもう少しお待ちください — はま (@hmkz_) December 26, 2022 2020年7月にKLabに転職してから、機械学習グループの立ち上げメンバーの一人として色々なことをしてきました。この記事ではそれを振り返ってみます。 KLab機械学習グループとは 機械学習を使ってゲーム開発を支援したり、運用を効率化したり、アナリティクスチーム単独では難しいような分析をしたり、

                                                                    モバイルゲーム会社の機械学習グループを立ち上げた話 - Qiita
                                                                  • SageMaker Experimentsを使った機械学習モデルの実験管理 - コネヒト開発者ブログ

                                                                    皆さん,こんにちは!機械学習エンジニアの柏木(@asteriam)です. 本エントリーはコネヒトアドベントカレンダーの15日目の記事になります. 今回は機械学習モデルの実験管理をする際に使用しているAWSのSageMaker Experimentsの活用例を紹介したいと思います. アドベントカレンダー1日目でたかぱいさんがSageMaker Processingの使い所を紹介してくれているので,こちらも併せて参考下さい. tech.connehito.com はじめに 前回のエントリー*1でML Test Scoreの話をしましたが,その際にMLOpsの大事な要素である再現性(モデル学習など)に触れました.今回はこのモデル学習の再現性のために必要な実験結果(ハイパーパラメータの引数の値,モデル評価指標など)の管理をSageMaker Experimentsでしているというお話です. ※本エ

                                                                      SageMaker Experimentsを使った機械学習モデルの実験管理 - コネヒト開発者ブログ
                                                                    • Pythonの知識だけでWebアプリを開発できる「Anvil」

                                                                      「Anvil」は2017年に英ケンブリッジ大学のコンピュータラボラトリーからスピンアウトしたAnvil社が開発したWebベースの開発環境だ。Anvilには強力なWebアプリケーションの作成とデプロイをPythonだけで迅速かつ簡単にできるようにするという狙いがある。 そのAnvilがオープンソース化され、レベルアップした。 関連記事 機械学習で生じる問題を解決するPythonライブラリ「MLflow」 最も脆弱性が多い言語は? OSSの脆弱性は増大傾向 RESTはオワコンか、クエリ言語は「GraphQL」の時代へ 関数型言語「Erlang」のススメ──なぜCやJavaではダメなのか? JavaやPHPからの移行も簡単、改めてGo言語がオススメな理由 Anvilのランタイムサーバがオープンソースになることで、Pythonを使える世界中800万人の開発者が、アプリケーションを自身のPC(または

                                                                        Pythonの知識だけでWebアプリを開発できる「Anvil」
                                                                      • DATAFLUCT Tech Blog

                                                                        2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

                                                                          DATAFLUCT Tech Blog
                                                                        • DATAFLUCT Tech Blog

                                                                          2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

                                                                            DATAFLUCT Tech Blog
                                                                          • 属人化しがちなR&Dをチーム開発するためのJX通信社での工夫 - JX通信社エンジニアブログ

                                                                            こんにちは!JX通信社でMLエンジニアのファンヨンテです。私は自分だけでなくMLチームの成果を最大化するために日々全力を尽くしています! JX通信社のMLチームでは人的リソースを最大限活用するため "力を使うべき所にのみ注力しよう!" をスローガンに徹底的に効率化しています。 今回はちゅらでーた様と弊社の共同勉強会で私が発表した内容をより掘り下げてお伝えできればと思います。 本内容については ちゅらデータさんとの共同勉強会にて発表しております! speakerdeck.com 動画を見たい方はこちら を御覧ください〜 R&Dタスクの属人化について 図1 アプリ開発におけるチーム開発(左)とR&Dチームで発生しがちな属人化した、タスクの進め方 弊社はNewsDigestを始めとしたアプリを開発しており、アプリ開発の場ではチームの皆が一丸となり、アプリ開発という一つの目標に向かって協力し合いな

                                                                              属人化しがちなR&Dをチーム開発するためのJX通信社での工夫 - JX通信社エンジニアブログ
                                                                            • MLflowで実験管理入門 | フューチャー技術ブログ

                                                                              はじめにこんにちは、Strategic AI Group(SAIG)の山野です。 今回は、機械学習の実験管理をテーマにMLflowについて紹介します。 1. 実験管理の必要性モデル開発では、様々な条件で大量の実験を時には複数人で回していくことがありますが、徐々に管理し切れなくなり、後から(必要に迫られて)もう一度その実験を再現しようと思ってもできなくて困る、ということがあります。 つまり、実験が終わって数ヶ月後に「あの実験てどういう条件で実施してどういう結果出たんだっけ?+再現できる?」と聞かれても困らない状態を作れれば良いです。PoCが終わってプロダクション化のフェーズで、PoCの実験について確認されるケースが意外とあったりします。 管理すべき情報は、前処理・学習・評価それぞれで以下があります。 前処理 元データ <-> 前処理コード <-> 加工済データ 学習 加工済みデータ(学習用)

                                                                                MLflowで実験管理入門 | フューチャー技術ブログ
                                                                              • Deepでポン用実験管理ツール(サービス)の比較2021 - Qiita

                                                                                皆様メリークリスマス!ふぁむたろうです。 記事遅れてしまいすみませんでした 自分はここ1年くらいのコンペでは脳死で wandb(Weights & Bias) を使って実験管理をしていたのですが、1年の節目ということで他のツール(サービス)も見てみようと思い記事にしました。 (余談ですが wandb の読み方は「Weights & Bias」でも「ワンディービー」でも「ダブリューアンドビー」でも良いっぽいです) 特に業務上で使う場合 pricing 等も気をつけなきゃいけないため、この記事ではそこらへんにも触れていければと思います。 とはいえ昨今の実験管理ツールはたくさんあるので、今回は以下の5つに絞って比較してみます。 (pytorch lightning に標準装備されているもの) TensorBoard MLflow Neptune.ai Weights & Biases Comet

                                                                                  Deepでポン用実験管理ツール(サービス)の比較2021 - Qiita
                                                                                • PyCaretとMLflowで機械学習の実験...

                                                                                  こんにちは!nakamura(@naka957)です。 今回は様々な機械学習アルゴリズムの比較・モデル実装に加えて、行った実験記録の管理を簡単に行う方法をご紹介します。実施事項がたくさんありますが、PyCaretとMLflowの活用で少ないコード行数で簡単に実施できます。 PyCaretは機械学習モデルの実装を簡単に行えるOSSですが、PyCaretからMLflowを呼び出すこともでき、実験記録の管理も同時に行えます。PyCaretとMLflowについては、DATA Campusにも紹介記事があります。是非、参考にしてみてください。 【PyCaret】 ■ AutoMLライブラリPyCaretを使ってみた〜モデル実装から予測まで〜 ■【続き】 AutoMLライブラリPyCaretを使ってみた 〜結果の描画〜 【MLflow】 ■ MLflowの使い方 - 機械学習初心者にもできる実験記録の

                                                                                    PyCaretとMLflowで機械学習の実験...