並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 468件

新着順 人気順

mlflowの検索結果41 - 80 件 / 468件

  • PyCaretとMLflowで機械学習の実験...

    こんにちは!nakamura(@naka957)です。 今回は様々な機械学習アルゴリズムの比較・モデル実装に加えて、行った実験記録の管理を簡単に行う方法をご紹介します。実施事項がたくさんありますが、PyCaretとMLflowの活用で少ないコード行数で簡単に実施できます。 PyCaretは機械学習モデルの実装を簡単に行えるOSSですが、PyCaretからMLflowを呼び出すこともでき、実験記録の管理も同時に行えます。PyCaretとMLflowについては、DATA Campusにも紹介記事があります。是非、参考にしてみてください。 【PyCaret】 ■ AutoMLライブラリPyCaretを使ってみた〜モデル実装から予測まで〜 ■【続き】 AutoMLライブラリPyCaretを使ってみた 〜結果の描画〜 【MLflow】 ■ MLflowの使い方 - 機械学習初心者にもできる実験記録の

      PyCaretとMLflowで機械学習の実験...
    • ML Pipeline for Kaggleのススメ - 重み元帥によるねこにっき

      はじめに Bengali.AI Handwritten Grapheme ClassificationというKaggleの画像コンペに参加しました. ベンガル語の書記素(grapheme)が1つ描かれた画像から,その書記素がどのようなクラスに属するかを分類する問題設定で,簡単に言えば少し難しいmnistです. 順位が察し*1だったので解法については差し控えますが,円滑にモデルを生成するためにPipelineを組みました. 「せっかくだから次回以降のコンペでも使えるように抽象的に書こう!!」というモチベーションのもと生まれたスパゲッティ🍝は以下の通りです. github.com この記事では,自戒を込めて,Kaggle用途にPipelineを作成して得られた知見をまとめます. また使用FrameworkがPyTorchなので,一部PyTorchにしか当てはまらないことがあります. あくまで

        ML Pipeline for Kaggleのススメ - 重み元帥によるねこにっき
      • 【MLOps】「いつか使いたい!」と思っていた人のためのMLflowまとめ - Qiita

        MLflowとは? MLflowは機械学習のライフサイクル管理(MLOps)を目的としたライブラリで、主に実験管理用途で使用されることの多いツールです。 実験管理とは、 ・使用した学習器や学習データ、ハイパーパラメータ等のモデル作成条件 ・そのモデルを評価して得られた評価指標 のセットを記録し、複数条件の比較を行うことで最適なモデル選定を行う工程です。 このような条件記録はExcel等での手入力が一般的かと思いますが、 「手入力は時間が掛かる!」 「手入力をミスして苦労して集めた結果が信頼できなくなった」 という経験をされた方も多いかと思います 上記のような経験から、MLflowにより実験管理を自動化すれば、多くのメリットが得られることはイメージが付くかと思います。 MLflowは2018年リリースの比較的新しいライブラリですが、GitHubのStarは既に1万を突破しており、下図のように

          【MLOps】「いつか使いたい!」と思っていた人のためのMLflowまとめ - Qiita
        • 実験の再現性を高めるデータバージョン管理(DVC)の紹介 - techtekt

          データバージョンの管理とは? データバージョンの管理とは、バイナリデータのバージョンを管理することを指します。データバージョンの管理は、Git 等でのコードのバージョン管理をバイナリデータに拡張しています。実験の再現性を高められるメリットがあります。 DVC とは? データのバージョンを管理する機能をもつオープンソースソフトウェアです。データのハッシュをテキストファイルで保持し git でバージョン管理します。また、yaml ファイルで実行パイプラインを定義して監視対象データが更新された際にハッシュを更新することで、新しいハッシュ値を含んだデータをバージョン管理します。更新されたデータファイルはキャッシュディレクトリに保存され、必要なタイミングで自動的に復元されます。 データのリモートリポジトリを定義することで、データ一式を簡単なコマンド操作で S3 等へ push / pull すること

            実験の再現性を高めるデータバージョン管理(DVC)の紹介 - techtekt
          • 機械学習実験環境を晒す - Qiita

            14日目はいのいちさんの【Kaggle】2020年に開催された画像分類コンペの1位の解法を紹介します です! 16日目は俵さんの黒魔術への招待:Neural Network Stacking の探求です! Kaggleをやる私に必要なもの こんにちは、皆さんはKaggleやってますか? 正直なことをいうと、自分はあまりKaggleコンペに参加してないのでエアプ勢になってます。どちらかというとマイナーなコンペばかりに参加してて…… Kaggle(広義)で勝つためにたくさんの実験を回しますが、何も考えていないと後々苦しみます。 僕がコンペに参加してる時のあるあるをまとめます。 今日やった実験は明日は忘れてる 破壊的変更ばかりする commitがだるい ソースが汚い 諸々あってそろそろちゃんとした実験環境整えようかなという気になって自分のソースコードを整理してました。その頃にちょうどadvent

              機械学習実験環境を晒す - Qiita
            • MLflowのXGBoost拡張を読んでみる - 株式会社ホクソエムのブログ

              はじめに ホクソエムサポーターの藤岡です。会社を移りましたが、相変わらずPythonを書く仕事をしています。 前回の記事に引き続き、今回もMLflowについての記事です。 前回はトラッキング寄りでしたが、今回はモデルのデプロイにも関わってくる内容です。 MLflowはXGBoost, PySpark, scikit-learnといった多様なライブラリに対応していて、様々な機械学習タスクに活用することができるのが売りの一つです。 その実現のため、設計や実装に様々な工夫がされているのですが、 この部分について詳しくなることで、オリジナルの機械学習モデルをMLflowとうまく繋ぐことができるようになったり ETLのようなモデル学習にとどまらない使い方もできるようになったりします。 本記事では、XGBoostをMLflowで扱うためのモジュール mlflow.xgboost について解説することで

                MLflowのXGBoost拡張を読んでみる - 株式会社ホクソエムのブログ
              • 【notion-tqdm】どこでもPythonの進捗状況がわかるライブラリをつくった【Notion】 - Qiita

                Web系の企業でデータサイエンティストをしている者です。 今回はどこでも進捗状況が見れる「notion-tqdm」というPyPIライブラリを作ったので、そのお話をします。 🤔 処理はどこまで完了したのか? DSの人間なら、以下のようなことを思ったことはないでしょうか? あの重たいデータ整形どこまで終わってるかな?? あのモデルの学習はどこまで完了してるかな?? 軽い処理ならtqdmを仕込めばその場で確認できますが、重たい処理ではそうはいきません。 例えばJupyterで処理を実行する場合、コネクションが切れたりすると再度ノートブックを開いてもtqdmの反映はそこで止まってしまいます。 そのため、重たい処理の進捗を確認する場合によく取られるケースは以下です slack, line 等の botで通知 実験管理系のライブラリ(tensorboard, Naptune.ai, MLFlow)等

                  【notion-tqdm】どこでもPythonの進捗状況がわかるライブラリをつくった【Notion】 - Qiita
                • 実験を高速化する機械学習パイプライン開発の挑戦 - ABEJA Tech Blog

                  はじめに こんにちは、ティアキンで寄り道し過ぎて永遠にストーリークリア出来ない坂元です。データサイエンスチームに所属しています。LLMの一大ブームの中でLLMの記事を書かないのは若干憚られますが、高速に実験を回す用途で気軽に使える機械学習パイプラインライブラリって実はあまりない…?と思ったので、今回は機械学習パイプラインライブラリを個人で開発してみている話をします。なお、本記事では機械学習パイプラインを「データの加工・モデルの学習・推論を一連のワークフローとして実行出来るツール」とし、データ収集やデプロイ、分布シフトの監視などの工程については言及しないものとします。また、比較的小規模なプロジェクトの検証段階で利用することを前提とします。 開発したパイプラインのライブラリは以下のリポジトリでバージョン0.0.1として公開しましたので、実装の詳細はリポジトリをご参照ください。ドキュメントとかも

                    実験を高速化する機械学習パイプライン開発の挑戦 - ABEJA Tech Blog
                  • 機械学習パイプライン構築を楽にするgokart-pipelinerを作った - Stimulator

                    - はじめに - luigi、gokartで作ったtaskのパイプライン構築をちょっと楽にする(かもしれない)管理するためのツールを作った。 github.com 近年、MLOpsの一部である機械学習のためのパイプラインを構築するためのツールは飽和状態にあるけどそれらと比較してどうなのという話も書く。 - はじめに - gokart-pipelinerを使ってみる gokartの良さ gokart-pipelinerの意義 パラメータとパイプラインが密結合しすぎ パイプラインライブラリなのにやればやるほどrequiresメソッドが複雑になる jupyter notebookと行き来するのがダルい future work おわりに gokart-pipelinerを使ってみる gokartはエムスリー株式会社が開発している機械学習パイプラインOSSである。gokart自体、使った事がないし興

                      機械学習パイプライン構築を楽にするgokart-pipelinerを作った - Stimulator
                    • Pytorch-lightning+Hydra+wandbで作るNN実験レポジトリ - Higu`s diary

                      Kaggle Advent Calender2020の 11日目の記事です。 昨日はhmdhmdさんのこちらの記事です! 2020年、最もお世話になった解法を紹介します - Qiita 明日はarutema47さんの記事です! (後ほどリンクはります) 本記事では、深層学習プロジェクトで使用すると便利なライブラリ、 Pytorch-lightningとHydraとwandb(Weights&Biases)について紹介したいと思います。 対象読者 Pytorchのボイラープレートコードを減らせないか考えている 下記ライブラリについては聞いたことあるけど、試すのは億劫でやってない 書いてあること 各ライブラリの役割と簡単な使い方 各ライブラリを組み合わせて使う方法 各ライブラリのリファレンスのどこを読めばよいか、更に勉強するにはどうすればよいか また、上記3つのライブラリを使用したレポジトリを

                        Pytorch-lightning+Hydra+wandbで作るNN実験レポジトリ - Higu`s diary
                      • Introducing the MLflow Model Registry--Machine Learning Model Hub

                        Unified governance for all data, analytics and AI assets

                          Introducing the MLflow Model Registry--Machine Learning Model Hub
                        • Monitoring Machine Learning Models in Production

                          Introduction Once you have deployed your machine learning model to production it rapidly becomes apparent that the work is not over. In many ways the journey is just beginning. How do you know if your models are behaving as you expect them to? What about next week/month/year when the customer (or fraudster) behavior changes and your training data is stale? These are complex challenges, compounded

                          • The Linux Foundation、機械学習向けプラットフォーム「MLflow」をプロジェクトに追加

                            The Linux Foundation、機械学習向けプラットフォーム「MLflow」をプロジェクトに追加:「機械学習のベストプラクティスを組み込む」 The Linux Foundationは「MLflow」を新たにLinux Foundationプロジェクトに加えた。MLflowは、Databricksが開発した、特定の機械学習フレームワークや言語に依存しない機械学習向けプラットフォーム。機械学習の開発ライフサイクルを管理する。

                              The Linux Foundation、機械学習向けプラットフォーム「MLflow」をプロジェクトに追加
                            • BERTを使ったMLバッチ処理実サービスのアーキテクチャとMLOpsの取り組み

                              こんにちは、Development部門に所属しているSREの佐藤と申します。 Development部門では複数プロダクト共通の基盤構築や、新技術の検証、インフラ整備などを幅広く担当しています。これまでストックマークではCI/CD基盤の構築やAWS上で構築するインフラのコード化、ニュース収集基盤のアーキテクチャの改善や運用負荷軽減から、製品利用状況のデータ分析基盤構築などに取り組んできました。 今日はAstrategyという製品でのMLOpsの取り組みについて話します。 AstrategyについてAstrategyは国内外Webメディアを対象として情報を収集・構造化し、調査・報告業務を包括的にサポートする検索プラットフォームです。 図1: 「言葉のAI」自然言語解析を用いたオープンデータ解析ツール 複数の分析画面を提供しており、目的に応じて異なる観点で市場変化や競合動向を可視化できます。

                                BERTを使ったMLバッチ処理実サービスのアーキテクチャとMLOpsの取り組み
                              • タスクとパラメータの一元管理で実現するMLOps - enechain Tech Blog

                                はじめに 背景 タスクランナーを導入するモチベーション パラメータ管理ツールを導入するモチベーション 実現したいこと モデルや環境に依存しないタスクによるパイプラインの操作 共通部分と環境特有部分を分離したパラメータ定義 パラメータ定義の構造化 実装方法 利用するツール パラメータファイル 構造化パラメータのマージ処理の実装 おわりに はじめに enechain データサイエンスデスク エンジニアの藤村です。 enechainでは市場活性化を目的として、機械学習や最適化アルゴリズムを用いて電力や燃料などの商品に関する指標を算出し、社内外に提供しています。本稿では、これらを算出するモデルの構築・運用を効率化するために作成した、タスクランナーinvokeとパラメータ管理ツールhydraを一体化したシステムを紹介します。 背景 タスクランナーを導入するモチベーション 機械学習モデルの構築・運用に

                                  タスクとパラメータの一元管理で実現するMLOps - enechain Tech Blog
                                • Vertex AIを活用したMLOpsの実現【前編】 | 株式会社CAM

                                  |目次 1. はじめに 2. MLOpsとは 3. VertexAIの概要 4. Vertex Pipelineについて -概要 -コンポーネントの実装例 -パイプラインの実装例 -Vertex PipelineでのKubeflow Pipelineの実行 5. まとめ 6. 参考資料 |1. はじめに 株式会社CAMで機械学習エンジニアをしています原 和希です。 データ分析から機械学習モデルの作成、そしてMLOps基盤の構築を担当しています。 今回はMLOps基盤の構築をトピックとして、弊社で導入している「VertexAI」という、GCP 上で MLOps 基盤を実現するためのサービスを紹介します。 本記事は前編と後編に分かれています。 この前編ではMLOpsについてと機械学習パイプラインを実現するためのサービスであるVertex Pipelineについて詳しく解説をします。 後編では、

                                    Vertex AIを活用したMLOpsの実現【前編】 | 株式会社CAM
                                  • 日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ

                                    前回記事に続いてHugging Faceネタです。Transformers本体ではなく、分かち書きを行うTokenizersライブラリの紹介をします。 Hugging Faceが開発しているTransformersでは、事前学習モデルと用いた分かち書き処理を同梱して配布している。 機械学習モデルの学習時と推論時の間で分かち書き設定が異なったり、分かち書き済み公開データと分かち書き設定が揃っていなかったりすると、モデルの挙動が正しく再現できないので、この設定が揃うように仕組みで吸収できる良いプラクティスといえる。 比較的古いバージョン*1のTransformersが用いるトークナイザは、ライブラリ内に同梱されるPython実装のものであった。 日本語で配布されているTransformersモデルの事例でいうと、例えば東北大学の乾研究室から公開されている日本語BERTモデルでは、Transfo

                                      日本語でHugging Face Tokenizersを動かす - MNTSQ Techブログ
                                    • Feature Attributionを使ったモデルモニタリングの開発と実際の機械学習モデルへの適用

                                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーのAIプラットフォームチームに所属している黒松です。 今年の1月に公開した「MLOpsを支えるヤフー独自のモデルモニタリングサービス」の記事ではヤフーが内製したモデルモニタリングツールであるDronach(ドロナック)をご紹介しました。 本記事では、新たにDronachに追加したFeature Attributionドリフト検定機能を実例とともにご紹介します。 AIプラットフォームチームについて 私が所属しているAIプラットフォームチームは、社内のAI活用を促進するための共通プラットフォームを開発し提供することが目的のチームです。 AIプラットフォームは、Namespaceで分離されたマルチテナントKuberne

                                        Feature Attributionを使ったモデルモニタリングの開発と実際の機械学習モデルへの適用
                                      • MLOpsの事例やツールの情報収集 - kuromt blog

                                        この記事はMLOps Advent Calendar 2020の6日目の記事です。 MLOps関連の情報を入手するのに大変お世話になっている便利なサイト等を紹介します。 情報収集のために毎朝見ているサイトや購読しているメルマガからMLだけに興味があるという人向けに次の条件を満たすものを選びました。 MLのトピックが1/3以上ある 情報の質が高い 定期的に更新されている 更新されている内容が一目で分かる Githubのリポジトリ、Twitterアカウント、Slackのワークスペースは除外 日本語 ML-News 何か新しい話がないかと思ったときにまず見に行くのがこのサイトです。おそらくTwitterのアクティビティを見て掲載する記事が決まっており、Twitterを見ていなくてもここを見るだけで注目度が高い記事を知ることができます。 取り上げられるのは日本語の記事が多いですが海外の記事でも注目

                                          MLOpsの事例やツールの情報収集 - kuromt blog
                                        • Nginx + OAuth2 Proxy + StreamlitでGoogleログイン後にStreamlitにアクセスする環境をローカルコンテナ環境で作ってみた | DevelopersIO

                                          Nginx + OAuth2 Proxy + StreamlitでGoogleログイン後にStreamlitにアクセスする環境をローカルコンテナ環境で作ってみた こんちには。 データアナリティクス事業本部 機械学習チームの中村(nokomoro3)です。 今回は、Nginx + OAuth2 Proxy + StreamlitでGoogleログイン後にStreamlitにアクセスする環境をローカルコンテナ環境で作ってみます。 実行環境と準備 実行環境としてはWindows 10マシンを使います。 また前提としてRancher Desktopをセットアップ済みであり、Googleの認証情報作成のためにGoogle Cloudにログインできる環境を作成済みという前提で進めます。 Rancher Desktopのセットアップについては以下も参考にされてください。 Windows 11 に Ran

                                            Nginx + OAuth2 Proxy + StreamlitでGoogleログイン後にStreamlitにアクセスする環境をローカルコンテナ環境で作ってみた | DevelopersIO
                                          • Optuna v2.0をリリース - 株式会社Preferred Networks

                                            株式会社Preferred Networks(本社:東京都千代田区、代表取締役 最高経営責任者:西川徹、プリファードネットワークス、以下、PFN)は、2020年1月にPFNが公開したオープンソースの機械学習向けハイパーパラメータ自動最適化フレームワーク「Optuna™(オプチュナ)」のメジャーアップデート版であるOptuna v2.0を公開しました。 Optuna v2.0の主要な新機能は以下の通りです。 ハイパーパラメータの重要度評価 最適化対象のアルゴリズムに対する各ハイパーパラメータの重要度を定量的に評価。研究者や開発者は、この重要度をもとに、最も影響の大きいハイパーパラメータの調整に集中することができます。 Hyperbandによる枝刈り 深層学習と高い親和性を示し安定的な最適化性能を発揮するHyperbandによる枝刈りを実装。エポックごとの精度など、中間結果から見込みのないハイ

                                              Optuna v2.0をリリース - 株式会社Preferred Networks
                                            • Databricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可

                                              米AI企業のDatabricksは3月27日(現地時間)、“オープンな”汎用LLM「DBRX」を発表した。同社によると、DBRXは標準的なベンチマークで既存のすべてのオープンモデルより優れたパフォーマンスを発揮するという。ただし、マルチモーダルではない。 DBRXは、オープンソースプロジェクトMegaBlocksに基づいて構築されたMoE(Mixture of Experts;混合エキスパート)を採用した。このMoEは、他のMoEと比較してトレーニング速度が2倍以上、計算効率も最大2倍になるという。 サイズは1320億パラメータと米MetaのLlama 2のほぼ2倍だが、速度はLlama 2の2倍という。言語理解、プログラミング、数学、ロジックのベンチマークで、Llama 2 70B、仏Mistral AIのMixtral 8x7B、米XのGrok-1、米OpenAIのGPT-3.5を上回

                                                Databricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可
                                              • MLflowのデータストアを覗いてみる - 株式会社ホクソエムのブログ

                                                (2020/08/14 flavorについての記載を一部修正) はじめに こんにちは、ホクソエムサポーターの藤岡です。 最近、MLflowを分析業務で使用しているのですが、お手軽に機械学習のモデルや結果が管理できて重宝しています。 また、特定のライブラリに依存しないなど、使い方の自由度も非常に高いところが魅力的です。 ただ、ザ・分析用のPythonライブラリという感じでとにかく色々なものが隠蔽されており、 サーバにつなぐクライアントさえもプログラマあまりは意識する必要がないという徹底っぷりです。 もちろんマニュアル通りに使う分には問題ないですが、 ちゃんと中身を知っておくと自由度の高さも相まって色々と応用が効くようになり、 様々なシチュエーションで最適な使い方をすることができるようになります。 というわけで、今回はMLflowの記録部分を担う、 Experiment, Run, Artif

                                                  MLflowのデータストアを覗いてみる - 株式会社ホクソエムのブログ
                                                • DATAFLUCT Tech Blog

                                                  2022-08-27 データ抽出に特化したAirbyteによるEL(T) 環境構築の実践 データ基盤 Airbyte ELT こんにちは。今回は、データ基盤の構築の一部を実際に体験してみたいと思います。 データ基盤を作成するにあたり、まずは、社内に眠る様々なデータを集めてくる必要があります。前回の記事では、その機能を「収集」と紹介していました。 データ基盤とは何か… データ基盤 データ分析基盤 実践 2022-08-18 Metaflowでモデルの学習をpipeline化するまで MLOps Metaflow Pipeline 皆さんは「MLOps」について取り組んでいらっしゃるでしょうか。私は2018年頃からデータクレンジングや機械学習モデルの構築や運用をしてきましたが、当時の日本で私の耳にはMLOpsという言葉が入ってくることはありませんでした。 ただMLOpsの元となった「Dev…

                                                    DATAFLUCT Tech Blog
                                                  • Emerging Architectures for LLM Applications | Andreessen Horowitz

                                                    There are many different ways to build with LLMs, including training models from scratch, fine-tuning open-source models, or using hosted APIs. The stack we’re showing here is based on in-context learning, which is the design pattern we’ve seen the majority of developers start with (and is only possible now with foundation models). The next section gives a brief explanation of this pattern; experi

                                                      Emerging Architectures for LLM Applications | Andreessen Horowitz
                                                    • Announcing Optuna 2.0 - Preferred Networks Research & Development

                                                      We are pleased to announce the second major version of Optuna, a hyperparameter optimization (HPO) framework in Python, is now available on PyPI and conda-forge. See the release notes on GitHub for the list of changes. Starting from January this year when the first major version was released, we have seen tremendous effort from the community in terms of pull requests, issues, use cases beyond the

                                                        Announcing Optuna 2.0 - Preferred Networks Research & Development
                                                      • 【MLOps入門】MLOps概要 - Qiita

                                                        1. はじめに 昨今、AI・機械学習関連技術が基礎研究のフェーズを抜け、製品開発のフェーズにて本番稼働システムに投入・運用されることが多くなるに連れて聞くことが多くなった「MLOps」という概念について、簡単に書きます。 本記事ではMLOpsの概要を記載し、実践的な取り組みについては別途記載します。 (追記)アップデート版として MLOpsの意義:機械学習プロジェクトを成功させるための鍵 を投稿したので、そちらも合わせてご確認ください。 2. 機械学習プロジェクトの課題 機械学習プロジェクトを遂行していくことを阻害する課題として、例えば下記があります。 学習リソースが枯渇して、迅速な実験ができない 学習環境のスピーディなスケール ex. 並列で実験を回したいが、個別所有のGPUマシンだと1並列しか回せず、共同利用のGPUマシンは混んでいて使えない。(昨日まではGPUマシンを遊ばせていたのだ

                                                          【MLOps入門】MLOps概要 - Qiita
                                                        • The best place on Region: Earth for inference

                                                          This post is also available in 简体中文, 日本語, 한국어, Deutsch, Français and Español. Today, Cloudflare’s Workers platform is the place over a million developers come to build sophisticated full-stack applications that previously wouldn’t have been possible. Of course, Workers didn’t start out that way. It started, on a day like today, as a Birthday Week announcement. It may not have had all the bells and

                                                            The best place on Region: Earth for inference
                                                          • Google Colab で Rinna-3.6B のLoRAファインチューニングを試す|npaka

                                                            「Google Colab」で「Rinna-3.6B」のLoRAファインチューニングを試したのでまとめました。 【注意】Google Colab Pro/Pro+ の A100で動作確認しています。VRAMは14.0GB必要でした。 1. Rinna-3.6B「OpenCALM-7B」は、「サイバーエージェント」が開発した、日本語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。 「Rinna-3.6B」は、「Rinna」が開発した、日本語LLMです。商用利用可能なライセンスで公開されており、このモデルをベースにチューニングすることで、対話型AI等の開発が可能です。 2. 学習「Google Colab」で「Rinna-3.6B」のLoRAファインチューニングを行います。データセットは@kun1em0nさんの「k

                                                              Google Colab で Rinna-3.6B のLoRAファインチューニングを試す|npaka
                                                            • ヘビーユーザーが解説するPyTorch Lightning - JX通信社エンジニアブログ

                                                              こんにちは!私はファンヨンテと申します!JX通信社で機械学習エンジニアを行っております! 私はPyTorch Lightningを初めて使ったときの便利さに感動した以来、PyTorch Lightningのヘビーユーザーです! この解説記事ベビーユーザーの私が皆様にPyTorch Lightningを知っていただき、利用のきっかけになってほしいと思って公開しています! 今回の解説記事のサンプルコードはこちらにあります。ぜひ、実際のコードを手にとって体験しPyTorch Lightningの素晴らしさに触れてみてください! この記事内容は13回のMLOps勉強会で発表しました! speakerdeck.com 読者の対象 PyTorch Vs PyTorch Lightning PyTorch について PyTorch Lightningについて JX通信社でPyTorch Lightnin

                                                                ヘビーユーザーが解説するPyTorch Lightning - JX通信社エンジニアブログ
                                                              • Step-by-Step MLOps and Microsoft Products

                                                                ▼こちらのMLOps資料のv1.1版となります。 https://speakerdeck.com/shisyu_gaku/external-20220202-kurasukai-cui-azure-machine-learningwozhong-xin-tositamsfalsemlopssoriyusiyonfalsegai-yao-toakitekutiya 全く MLOps が無い状態から徐々にステップアップする場合に具体的にどんなアーキテクチャで Azure Machine Learning やその他サービスのどの機能を使用して実装を進めていくか整理した資料を大幅に更新しました。 ▼更新情報 ・2022年5月末(主にMSBuild)にて 一般提供(GA)を開始した Azure ML v2 ベースの実装・機能紹介スライドへの変更 ・トラフィックのミラーリングなど新しい Azure M

                                                                  Step-by-Step MLOps and Microsoft Products
                                                                • RecSys Challenge 2020 備忘録|myaun

                                                                  はじめに3月初旬から開催されていたRecSys Challenge 2020が、6/15に提出締切が終了したので、その取り組みについてまとめました (現在は6/22の最終結果のアナウンス待ちです、筆者はPublicは22th -> Private 8th) この記事はソリューションの話は少なめでコンペの取り組みに関する備忘録色が強めです。 コンペについて RecSys challengeは、推薦システムに関するトップカンファレンスであるACM Recommender Systems conference (RecSys)で毎年開催されているデータ分析コンペティションです。毎年、推薦に関する異なるタスクが用意されており、今回で11回目となる歴史のあるコンペです。 - 過去の大会 https://recsys.acm.org/challenges/ 今回のRecSys Challenge 20

                                                                    RecSys Challenge 2020 備忘録|myaun
                                                                  • hydra-mlflow-optuna

                                                                    スクラムガイドのスプリントレトロスペクティブを改めて読みかえしてみた / Re-reading the Sprint Retrospective Section in the Scrum Guide

                                                                      hydra-mlflow-optuna
                                                                    • Kedro を用いた分析コンペ向けのデータパイプライン構築

                                                                      Kaggle Advent Calendar 2019 の9日目の記事です。 一応自己紹介を書いておくと、 Kaggle は mhiro2 という名前でここ1年くらい趣味としてやっています。 本業では、 MLOps の一環として、 GKE や BigQuery, Cloud Composer, MLflow などを活用した自社向けの機械学習基盤開発をやっています。 ML やデータ分析の理論や技術そのものよりは、 ML のサイクルを円滑に回すためのシステムデザインやアーキテクチャなどの仕組み化に関心があります。 はじめにKaggle をはじめとした分析コンペに取り組んでいる方の中には、自前のパイプラインを構築されている方も多くいらっしゃるかと思います。そもそもパイプラインとは何ぞや、という話ですが、EDA や特徴量のエンコードなどの前処理はもちろん、複数のモデルやパラメータでの学習やアンサン

                                                                        Kedro を用いた分析コンペ向けのデータパイプライン構築
                                                                      • 「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita

                                                                        目次 はじめに 背景と目的 Databricksとは何か 機能紹介 共通 データエンジニアリング 機械学習 Databricks SQL おわりに はじめに こんにちは。Databricks の新井です。Qiita 初投稿です。 2022年の7月よりソリューションアーキテクトとして働き始めました。 お客様に弊社製品を知っていただき、導入いただく際の技術サポートを行う役割です。 本記事では Databricks にご興味がある皆様に弊社プラットフォームを理解いただくために、新入社員の目線から便利だと感じた10個の機能をまとめました。 今後も記事執筆を継続するモチベーションに繋がりますので「いいね」や記事の保存、SNSで共有いただけると嬉しいです。宜しくお願いいたします! 背景と目的 皆様の中には Databricks という会社に馴染みがない方も多いと思います。 米国カリフォルニア州に本社が

                                                                          「Databricks とは?何ができるか」新入社員が感じたイケてる機能10選 - Qiita
                                                                        • Python: MLflow Tracking を使ってみる - CUBE SUGAR CONTAINER

                                                                          MLflow は MLOps に関連した OSS のひとつ。 いくつかのコンポーネントに分かれていて、それぞれを必要に応じて独立して使うことができる。 今回は、その中でも実験の管理と可視化を司る MLflow Tracking を試してみることにした。 機械学習のプロジェクトでは試行錯誤することが多い。 その際には、パラメータやモデルの構成などを変えながら何度も実験を繰り返すことになる。 すると、回数が増えるごとに使ったパラメータや得られた結果、モデルなどの管理が煩雑になってくる。 MLflow Tracking を使うことで、その煩雑さが軽減できる可能性がある。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G5033 $ python -V Python 3.7.

                                                                            Python: MLflow Tracking を使ってみる - CUBE SUGAR CONTAINER
                                                                          • 現場の視点で機械学習に必要な知識を学べる「仕事ではじめる機械学習 第2版」を読んだ - kakakakakku blog

                                                                            「仕事ではじめる機械学習 第2版」を読んだ.実は「第1版」を買ってずっと積読をしていたところに「第2版」が出たので書い直した📖書名に「仕事ではじめる」と書いてある通り,現場の視点で理解しておくべき「機械学習」の知識がまとまっていて良かった.そして,本当に読みやすく挫折させないように工夫して書かれているのも素晴らしかった!読書メモを見返しながら書評記事をまとめる. 仕事ではじめる機械学習 第2版 作者:有賀 康顕,中山 心太,西林 孝オライリージャパンAmazon 目次 「第I部」では幅広く知識を学び「第II部」ではケーススタディから学ぶ.流れるように最後まで読み進めることができる.「第1版」と比較すると「MLOps」や「解釈性」など,重要なトピックが追加されているため,間違いなく「第2版」を読むべきだと思う. また本書を読んでいて個人的に感じたのは「関連するけど詳しくは扱わないトピック」

                                                                              現場の視点で機械学習に必要な知識を学べる「仕事ではじめる機械学習 第2版」を読んだ - kakakakakku blog
                                                                            • CI/CD for Machine Learning in 2024: Best Practices & Tips | Qwak

                                                                              CI/CD for Machine Learning in 2024: Best Practices to Build, Train, and Deploy Explore best practices for CI/CD in Machine Learning in 2024. Learn to build, train, and deploy ML models efficiently with expert strategies. Building and deploying code to production environments is a fundamental aspect of software development. This process is equally pivotal in the realm of production-grade Machine Le

                                                                              • MLFlow Trackingを使って、実験管理を効率化する - のんびりしているエンジニアの日記

                                                                                皆さんこんにちは お元気でしょうか。COVIT-19起因で引きこもっているため、少しずつ自炊スキルが伸びていっています。 以前、実験管理に関していくつかのソフトウェアを紹介しました。 その中で、MLFlow Trackingが一番良さそうではあったのでパイプラインに取り込むことを考えています。 もう少し深ぼって利用方法を把握する必要があったので、メモ代わりに残しています。 nonbiri-tereka.hatenablog.com MLFlow Trackingのおさらい MLFlowとは MLFlowはプラットフォームです。機械学習のデプロイやトラッキング、実装のパッケージングやデプロイなど幅広くサポートしています。 その中ではいくつかの機能があり、主にMLflow Trackingを実験管理に利用している人が増えています。 Trackingの機能については申し分がなさそうで、リモートサ

                                                                                  MLFlow Trackingを使って、実験管理を効率化する - のんびりしているエンジニアの日記
                                                                                • 5 Tips for MLflow Experiment Tracking

                                                                                  This article is about MLflow — an open-source MLOps tool. If you’ve never heard of it, here’s a tutorial. I am focusing on MLflow Tracking —functionality that allows logging and viewing parameters, metrics, and artifacts (files) for each of your model/experiment. When you log the models you experiment with, you can then summarize and analyze your runs within the MLflow UI (and beyond). You can und

                                                                                    5 Tips for MLflow Experiment Tracking