並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 468件

新着順 人気順

mlflowの検索結果281 - 320 件 / 468件

  • ‎Apple Podcast内のRandom Facts Club

    関連リンク メルカリ写真検索における Amazon EKS の活用事例と プロダクトにおけるEdgeAI technologyの展望 第67回 Federated Learning:モバイルデバイスを用いた分散学習技術(パート1) Client-side deep learning at Mercari FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search マルチモーダルモデルによる不正出品の検知 Semantic Versioning for Data Science Models Looker Kubeflow kubeflow/katib Google Vizier: A Service for Black-Box Optimization (PDF)

      ‎Apple Podcast内のRandom Facts Club
    • Azure Machine LearningワークスペースをCLIv2で操作する 応用編1-自動学習パイプラインの構築 - JBS Tech Blog

      概要 やりたいこと 準備 Azure CLI 拡張機能(CLIv2)による学習パイプラインの作成 全体像 前提 事前準備が必要なスクリプト CLIv2のバージョンアップ モデル登録用のスクリプト 学習&モデル登録パイプラインの設定 スケジューリング実行 おわりに 概要 本記事はAzure Machine LearningワークスペースをCLIv2を使って操作するチュートリアルの第3弾です。 使い方を習得すれば自動化パイプラインを自身で構築できるようになります。 やりたいこと 前回の記事でデプロイまでを行いました。 ここまでで学習からデプロイまで一通りの手順を実施できたため、ここから自動化の仕組みを構築していきます。 引き続きCLIv2を使用して学習パイプラインを構築する方法を紹介します。 準備 初回の記事はこちらをご参照ください。 入門編1、2が完了している前提で自動化パイプラインの構築を

        Azure Machine LearningワークスペースをCLIv2で操作する 応用編1-自動学習パイプラインの構築 - JBS Tech Blog
      • Databricksにおける自然言語処理 - Qiita

        Spark MLやspark-nlpのような人気のあるオープンソースライブラリや、DatabricksとJohn Snow Labsとのパートナーシップによるプロプライエタリなライブラリを用いて、Databricks上で自然言語処理のタスクを実行することができます。 Spark MLを用いたテキストからの特徴量の生成 Spark MLには、テキストの列から特徴量を作成するための様々なテキスト処理ツールが含まれています。Spark MLを用いたSpark MLパイプラインの中で、テキストからモデルトレーニングアルゴリズムの入力特徴量を直接作成することができます。Spark MLはトークン作成、ストップワード処理、word2vec、特徴量のハッシュ化を含む様々なテキストプロセッサーをサポートしています。 Spark NLPを用いたトレーニングと推論 オープンソースのSpark NLPを用いるこ

          Databricksにおける自然言語処理 - Qiita
        • SageMakerへのscikit-learnモデルのデプロイメント - Qiita

          このノートブックではscikit-learnモデルのトレーニング、scikit-learnフォーマットでの保存で説明されている糖尿病データセットでトレーニングしたElasticNetモデルを使用します。このノートブックでは以下を説明しています。 MLflowエクスペリメントUIを用いてデプロイするモデルを選択。 MLflow APIを用いてSageMakerにモデルをデプロイ。 sagemaker-runtime APIを用いてデプロイされたモデルを検索。 別のモデルに対してデプロイ、クエリープロセスの繰り返し。 MLflow APIを用いてデプロイメントを削除。 DatabricksからAWS SageMakerにMLflowモデルをデプロイできるように、どのようにAWSの認証設定を行うのかについては、機械学習モデルをSageMakerにデプロイするのためのAWS認証設定のセットアップを

            SageMakerへのscikit-learnモデルのデプロイメント - Qiita
          • 知識0でもAWSを使ってmlflowサーバーを無料で立ち上げる方法 - Qiita

            なぜAWSでmlflowサーバーを立ち上げようと思ったか はじめまして,機械学習を勉強し始めて1年になるものです。 この度はkaggleに初参加してみようと思ったのですが,kaggle notebookの実行ログをmlflowで管理したかったので,AWSを使って無料の範囲内でサーバーを立ち上げようと思いました。ただ,ネットにその情報が上がっていなかったので,他の方のために,知識0の人間が四苦八苦しながらmlflow serverを立ち上げた際の手順を記事にします。 ※セキュリティ的にはガバガバなので,今回立ち上げるサーバーに重要な情報をアップロードしないでください。 step1: アカウント作成とログイン これは誰でもできるはずです。途中でクレジットカードの登録が必要です。 下のような画面が見えたら成功です。 step2: アクセスキーIDとシークレットアクセスキーを設定 IAMを選択しま

              知識0でもAWSを使ってmlflowサーバーを無料で立ち上げる方法 - Qiita
            • 機械学習プラットフォームを選択する際の3つの原則 - Qiita

              Three Principles for Selecting Machine Learning Platforms - The Databricks Blogの翻訳です。 この記事はMLプラットフォーム、オペレーション、ガバナンスに関するシリーズの第二弾となります。最初の記事については、Rafi Kurlansikによるデータを中心とした機械学習プラットフォームに対するニーズをご覧ください。 最近、サイバーセキュリティ会社のデータプラットフォームのシニアディレクターと会話した際に、「そこかしこでツールが変化し続ける中で、どうしたら機械学習プラットフォームを将来にわたって利用できるようにするのか皆目検討がつかないよ」というコメントを聞きました。これは一般的な感情だと思います。機械学習(ML)は、他の技術に比べて遥かに急激に進展しました。研究所からは頻繁に最新のライブラリが公開され、ベンダーた

                機械学習プラットフォームを選択する際の3つの原則 - Qiita
              • 機械学習サービスライフサイクルを管理するMLFLow 1.0の実力を検証してみる! - GMOインターネットグループ グループ研究開発本部

                2019.07.03 機械学習サービスライフサイクルを管理するMLFLow 1.0の実力を検証してみる! こんにちは、次世代システム研究室のT.D.Qです。 直近、機械学習のライフサイクルを管理できるPythonライブラリ・フレームワークについて調査しました。その中にMLFlowが面白いなと思って今回の記事で紹介したいと思います。 MLflowは、オープンソースで、機械学習処理のライフサイクル(実験・再現・デプロイ)を管理するプラットフォームです。機械学習ライブラリー(scikit-learn, Keras, TensorFlowなど)や言語(Python、Java、R)に依存しない、他の人と共有しやすいのが特徴で、機能として下記の3つで構成されています。 MLflow Tracking : 学習の実行履歴管理 MLflow Projects : 学習処理の実行定義 MLflow Mode

                  機械学習サービスライフサイクルを管理するMLFLow 1.0の実力を検証してみる! - GMOインターネットグループ グループ研究開発本部
                • MLflow 2.7と新たなLLMOps機能のご紹介 - Qiita

                  プロンプトエンジニアリングの新たなUIとAIゲートウェイのアップデート MLflow 2系のLLMOpsサポートの一部として、MLflow 2.7でプロンプトエンジニアリングをサポートするための最新のアップデートを発表できることを嬉しく思います。 インタラクティブなプロンプトインタフェースによるLLMプロジェクトの実行可能性の評価 プロンプトエンジニアリングは、あるユースケースを大規模言語モデル(LLM)で解決できるかどうかをクイックに評価できる優れた手法です。MLflow 2.7の新たなプロンプトエンジニアリングUIによって、ビジネスのステークホルダーは、新規にプロジェクトをスタートするのに十分なアウトプットを得られるのかどうかを確認するために、様々なベースモデル、パラメータ、プロンプトを用いて実験することができます。インタラクティブなプロンプトエンジニアリングツールにアクセスするには、

                    MLflow 2.7と新たなLLMOps機能のご紹介 - Qiita
                  • Databricksのエンタープライズ向け機能によるMLflowの拡張 - Qiita

                    How to Share and Control ML Model Access with MLflow Model Registryの翻訳です。 注意 この記事は2020/4に執筆されたものであるため、一部最新の情報で更新しています。 DatabricksのMLflowモデルレジストリにおけるエンタープライズレベルの新機能を発表できることを嬉しく思います。今やモデルレジストリは、Databricksレイクハウスプラットフォームをお使いの皆様においては、デフォルトで有効化されます。 この記事では、モデル管理における集中管理ハブとしてのモデルレジストリのメリット、どのようにしてデータチームが組織内でモデルを共有し、モデルに対するアクセスコントロールを行うのか、そして、インテグレーションや検査のためにどのようにモデルレジストリAPIを使うのかに関して説明します。 コラボレーティブモデルライフサ

                      Databricksのエンタープライズ向け機能によるMLflowの拡張 - Qiita
                    • Azure Machine Learning CLI v2 でハイパーパラメーターチューニングジョブを投げてみる - Qiita

                      はじめに Azure Machine Learning というのは ML を支える Azure の便利サービスです。AWS であれば SageMaker 、 GCP であれば Vertex AI あたりと似た立ち位置になります。 CUDA セットアップ済みで即 GPU 使える VM やクラスターを GUI ポチポチで建てたり、パラメーター設定やコードのスナップショット、モデルの保存 (つまり実験管理) ができたりします。 さらには僕の推し実験管理ツールであるところの MLflow と互換性があり、定期的に Qiita などで「MLflow は良いゾ、Azure ML を MLflow-as-a-Service として使うと良いゾ」という記事を書いてたりします。無駄に電気を GPU に通して熱に変える前に実験管理しましょうね。 そんな Azure Machine Learning ですが、5

                        Azure Machine Learning CLI v2 でハイパーパラメーターチューニングジョブを投げてみる - Qiita
                      • PyCaret(+ MLflow)を使ったタイタニックの生存者予測 - Qiita

                        PyCaret で行うTitanicの生存者予測 PyCaret(+MLflow)の使い方を調べたので備忘録を残します。 題材としてはKaggleのチュートリアルでも使われるTitanicの生存者予測を行います。 参考資料 本投稿は以下記事を参考にしています。 PyCaret公式ドキュメント PyCaretとMLflowで機械学習の実験を簡単に実行・記録する データ データは以下よりダウンロードし、実行場所と同階層にtrain.csvとtest.csvを配置してください。 Titanic - Machine Learning from Disaster ライブラリのインストール 事前にMLFlowとPyCaretをインストールしておいてください。

                          PyCaret(+ MLflow)を使ったタイタニックの生存者予測 - Qiita
                        • クラウドエース、AI・機械学習向け統合データ分析基盤「レイクハウス・プラットフォーム」を提供するデータブリックスと協業を開始

                          クラウドエース、AI・機械学習向け統合データ分析基盤「レイクハウス・プラットフォーム」を提供するデータブリックスと協業を開始 クラウドエース株式会社(本社:東京都千代田区、代表取締役社長:青木 誠/以下クラウドエース)は 2021 年 8 月 2 日、米 Databricks 社の日本法人であるデータブリックス・ジャパン株式会社(本社:東京都港区、社長:竹内 賢佑氏、以下:データブリックス)とパートナーシップ契約を締結し、Google Cloud™ 上での AI・機械学習の活用を促進していくことを発表しました。 <提携の背景および概要> 新型コロナウイルス感染症の流行を契機に、これまで以上に IoT、ビックデータ、AI などのデジタル技術を利用し、新たな価値へつなげることが重要になってきています。 日本の AI ビジネスの市場規模は、*2016 年の約 2700 億円から、2030 年には

                            クラウドエース、AI・機械学習向け統合データ分析基盤「レイクハウス・プラットフォーム」を提供するデータブリックスと協業を開始
                          • Kedro+MLflow+GithubActionsでデータ分析環境を構築する - Qiita

                            はじめに Kedro + MLflow + Github Actions でデータ分析環境を構築したので、感想を書いてみました。 背景 =「ローカル環境で、1ファイルに全て突っ込んだノートブックを実験ごとに作っていた(lightgbm_02_YYYYMMDD.ipynbなど)ときの課題」 巨大で複雑なノートブックが出来上がってしまう 前処理、モデル学習、モデル評価... 担当分けが難しい(全部一人でやる場合も多いだろうが) メンテが辛い → 処理ごとに分けると、今度は依存関係が良く分からなくなる コードのレビューが辛い ノートブックはdiffが取りにくい ノートブックだとコードフォーマッタやチェッカーをかけられなかったり 実験管理が辛い 一覧化したくなる(一々ノートブックを開いて思い出すのは辛い) → 一覧を手動でメンテするのはめんどくさい(試行が多くなればなるほど) 他人の環境で(まっさ

                              Kedro+MLflow+GithubActionsでデータ分析環境を構築する - Qiita
                            • MLflow Projects と Tracking を同時に使う - Qiita

                              name: projects-and-tracking entry_points: main: command: | env | grep MLFLOW && \ python track.py --mlflow_run_id $MLFLOW_RUN_ID miflow 内で env | grep MLFLOW が実行されると MLFLOW_RUN_ID, MLFLOW_TRACKING_URI, MLFLOW_EXPERIMENT_ID が表示されて、これらの環境変数が定義されていることが分かります。このうち MLFLOW_RUN_ID を使えば、今まさに実行中の run に対して parameter や metric を記録できます。そこで python track.py --mlflow_run_id $MLFLOW_RUN_ID のように引数で run ID を渡します。(なお P

                                MLflow Projects と Tracking を同時に使う - Qiita
                              • Databricksのカレンダー | Advent Calendar 2021 - Qiita

                                Databricksを活用されている皆様によるAdvent Calendarです。 データブリックス(Databricks)は、Apache Spark™、Delta Lake、MLflowの開発者グループによって開発された、最新のレイクハウスアーキテクチャを基盤に、データウェアハウスとデータレイクの優れた機能を取り入れた、データとAIのためのクラウドベースのオープンな統合プラットフォームです。 以下のような内容大歓迎です! そもそもDatabricksって何? Sparkって速いの? Delta Lakeを使うとこんなに便利! MLflowを用いたMLOpsとは

                                  Databricksのカレンダー | Advent Calendar 2021 - Qiita
                                • 【FDUA】第一回 金融データ活用チャレンジをやってみている #2 - Qiita

                                  初学者がやるコンペ記録の第2回です。参加しているコンペはこちら。 前回の内容はこちら。 今の状況&所感 暫定評価0.97以上。前回からスコアは上がっているが、まだまだ試行錯誤中。 終盤に入ってきていますが、やり切れてないことも多く、どこまでやるか迷ってます。 慣れてくると、だいたいやること定まって迷いとか減るんだろうなあ。 一日の投稿が50回ぐらいできればいいのに 前回から追加で行っていること 縛りも含めて、基本的なやり方はあまり変わっていませんので、個人的にインパクトがあった点だけつらつらと書きます。 続・特徴量エンジニアリング ずっとやってますが、2/10に開催された中間イベントの資料は参考になりました。 私は都合が合わなくて参加できなかったのですが、Slack見ていると盛り上がっていたみたいですね。参加したかった。。。 特に、金融ドメイン知識が皆無だったので、ドメインから考えるモデル

                                    【FDUA】第一回 金融データ活用チャレンジをやってみている #2 - Qiita
                                  • 2022 年の MLOps 勉強会を振り返る - Qiita

                                    MLOpsのカテゴリ 実験管理 : 1 テスト : 2 CI/CD : 1 推論 : 6 モデル監視 : 5 MLOps 全体 : 2 パイプライン : 6 あくまで著者の主観でわけています。パイプラインでわけていいかは迷ったのですが、パイプラインだけの紹介などもあったので作ってみました。 振り返ってみると、パイプラインと推論が多く、モデル監視が二番目という形になりました。パイプラインはモデルを本番環境や運用していく際の自動化という点となる場合もありますし、本番環境にも適用しなくてもパイプラインでまとめるという場合もありましたのでサーバーレスが多い昨今の状況と MLOps という文脈において汎用性が高いという点で多いのではないかなと思いました。 推論が多いのは、モデルを作成後に本番環境で利用していくためには避けては通れないものになりますので多いことは集計する前から想定していましたが、もっと

                                      2022 年の MLOps 勉強会を振り返る - Qiita
                                    • DatabricksとHugging Face、AIモデル構築高速化に向けApache Sparkを連携 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                                      Image credit: Databricks Databricks と Hugging Face は共同で、Apache Spark データフレームから Hugging Face データセットを作成することができる新機能を発表した。人工知能(AI)モデルのトレーニングや微調整のためのデータのロードと変換をより簡単にする方法を提供する。ユーザは、Spark データフレームを Hugging Face データセットにマッピングし、トレーニングパイプラインに統合することができるようになった。 この機能により、Databricks とHugging Face は、AI モデル用の高品質なデータセットを作成するプロセスを簡素化することを目的としている。また、この統合は、モデルの訓練と微調整のために効率的なデータ管理ツールを必要とするデータ科学者やAI開発者にとって、非常に必要なツールを提供する。

                                        DatabricksとHugging Face、AIモデル構築高速化に向けApache Sparkを連携 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                                      • Kerasで作成したモデルをMLflowで管理してみた - Qiita

                                        動作環境 今回はDatabricks環境上で検証しています。記事作成時点(2020年11月)で最新RuntimeのDatabricks 7.4MLを利用しています 7.4MLクラスタの以下ライブラリを利用しています(初期インストール済) MLflow 1.11.0 TensorFlow 2.3.1 Keras 2.4.0 この記事の内容 以下をMLflowでトラッキングする MNISTをシンプルな3層レイヤーで学習させる MNISTをCNNで学習させる 最もAccuracyが高いモデルをModelレジストリに登録する ModelをProductionステージへ変更する モデルをロードして推論を実行する MNISTをシンプルな3層レイヤーで学習させる 入力層に28×28pixelの手書き文字画像を入力 中間層に512個のノードを定義し、活性化関数はreluを設定 出力は10種類(0から9まで

                                          Kerasで作成したモデルをMLflowで管理してみた - Qiita
                                        • Tellus GPUサーバ(さくら高火力コンピューティング)での機械学習環境構築 - Qiita

                                          はじめに Tellus GPUサーバ(高火力コンピューティング)での機械学習環境構築について、手順を記載 動作確認として以下の3つの項目を確認 PyTorchを用いたディープラーニングモデルのGPU学習 MLFlowを用いた実験記録閲覧 QGISを用いたサーバ内データ確認 検証環境 Item Version

                                            Tellus GPUサーバ(さくら高火力コンピューティング)での機械学習環境構築 - Qiita
                                          • 機械学習 PoC と本番運用のあいだ - Qiita

                                            English version is here: (https://koyaaarr.medium.com/between-machine-learning-poc-and-production-618502abef86) はじめに 機械学習を使った PoC(Proof of Concept; 効果検証)は、近頃の AI ブームを受けて盛んに行われていることと思います。そしてその後、(とても幸運なことに、)PoC で良い結果を得られた場合、PoC の仕組みを本番運用したいという話が持ち上がります。しかしながら、探索的データ分析や予測モデルの作成などは多くの知見が共有されている一方、それらを運用していくための知見はまだあまり多くないように思います。 本記事では、PoC から本番運用へと移行するあいだに、技術的には何が必要なのかを検討していきます。機械学習 PoC が一過性のまま終わらず、本番

                                              機械学習 PoC と本番運用のあいだ - Qiita
                                            • Dataiku10で、AIプロジェクトに新たな役割の参画を促進 - Qiita

                                              アナリスト、データエンジニア、およびデータサイエンティストは、常に高度な分析プロジェクトで中心的な役割を果たしてきました。しかし、組織がより体系的なアプローチでAIイニシアチブを拡大するには、AIプロジェクトの開発、運用化、監視に、IT運用担当者、プロジェクトマネージャー、リスクマネージャー、各領域の専門家(SME)など、組織のさまざまな部門から参画を得る必要があります。Dataiku 10は、価値実現までの時間を高速化し、さまざまなファンクションの人々がデータプロジェクトに関わり、責任を持ってAIアプリケーションをデリバリーおよび管理できるようにする、エキサイティングな新機能を提供します。 より多くのモデルを本番環境にデプロイして運用する Dataiku 10を使用することで、データサイエンティストやIT運用担当者は、機械学習(ML)モデルを大規模に展開、監視、管理するための追加のツール

                                                Dataiku10で、AIプロジェクトに新たな役割の参画を促進 - Qiita
                                              • セミナー・研修 | NEXT SKILL

                                                各種テーマでのセミナー・研修もお受けしております。 過去のセミナー2023/10/26(木) 【書籍出版記念vol2】LangChainでAIアシスタントを動かすハンズオン【オフライン開催】2023/10/05(木) 【書籍出版記念】LangChainから学ぶLLMを使ったアプリケーションの工夫2023/08/10 (木) 「シェル」ってなに?から改めて学ぶLinuxの基本2023/06/29 (木) LangChainソースコードリーディング/テーマ:OpenAI Chat APIを「ちゃんと」使う2023/04/20 (木) プロンプトエンジニアリングから始めるLangChain入門2023/03/23 (木) 改めて整理するWebアプリのビルド・デプロイの基本【コンテナ編】2023/03/09 (木) 改めて整理するWebアプリのビルド・デプロイの基本2022/12/22 (木) A

                                                  セミナー・研修 | NEXT SKILL
                                                • Databricks AI/BIのウォークスルー - Qiita

                                                  Data + AI Summit 2024のキーノートが日本時間での昨夜0時頃からスタートしました。なんとなく目が覚めたのでリアルタイム視聴していました。 Databricks + Tabular Unity CatalogのOSS化 Mosaic AI Model Training Fine-tuning / Mosaic AI Tool Catalog / Mosaic AI Agent Framework / Mosaic AI Agent Evaluation / MLflow 2.14 / Mosaic AI Gateway NVIDIAとのパートナーシップ強化 Liquid Clusteringのクラスタリングキーの自動選択 Databricks AI/BI などなど盛りだくさんであっという間に3時になっていました。Mosaic周りは別記事でカバーするつもりですが、まずは最後に

                                                    Databricks AI/BIのウォークスルー - Qiita
                                                  • Databricksによるエンドツーエンドのディープラーニングパイプラインの管理 - Qiita

                                                    How to Manage End-to-end Deep Learning Pipelines w/ Databricks - The Databricks Blogの翻訳です。 ディープラーニング(DL)モデルは全ての業界のユースケースで適用されています。金融サービスにおける不正検知、メディアにおけるパーソナライゼーション、ヘルスケアにおける画像認識など。適用の拡大によって、今ではDLテクノロジーの活用は数年前と比べて非常に簡単になっています。TensorflowやPytorchのような人気のあるDLフレームワークは、優れた性能、精度を実現できるまで成熟しました。マネージドMLflowを提供するDatabricksレイクハウスプラットフォームのような機械学習(ML)環境でHorovod、Pandas UDF(ユーザー定義関数)を活用することで、容易にDLを分散実行することができます。

                                                      Databricksによるエンドツーエンドのディープラーニングパイプラインの管理 - Qiita
                                                    • Databricks Jobsの実行結果であるHTMLファイルをMLflowに登録する方法 - Qiita

                                                      概要 Databricks Jobsの実行結果であるHTMLファイルをMLflowに登録する方法を紹介します。 本手順をMLOpsにおけるモデル学習のパイプラインに組み込むことで、MLモデルの品質向上に繋がります。 たとえば、下記画像のようにMicrosoft社のInterpretMLの実行結果をMLモデルと共に管理することであり、機械学習モデルの解釈可能性が高くなります。 詳細は下記のGithub pagesのページをご確認ください。 コードを実行したい方は、下記のdbcファイルを取り込んでください。 https://github.com/manabian-/databricks_tecks_for_qiita/blob/main/tecks/put_notebookresult_to_mlflow_artifact/dbc/put_notebookresult_to_mlflow_ar

                                                        Databricks Jobsの実行結果であるHTMLファイルをMLflowに登録する方法 - Qiita
                                                      • Wind Mobility がサーバーレスデータアーキテクチャを構築した方法 | Amazon Web Services

                                                        Amazon Web Services ブログ Wind Mobility がサーバーレスデータアーキテクチャを構築した方法 Wind Mobility の BI 部門の責任者である Pablo Giner 氏によるゲスト投稿です。 ここ数年、都市部におけるマイクロモビリティが注目を集めています。汚染指数が歴史的な高さとなっていることから、世界中の都市や企業が規制を導入し、状況を改善するための幅広い解決策に取り組んできました。 Wind Mobility では、近距離移動のための都市部における交通手段を世界中の都市に提供することにより、通勤者の生活をより持続可能かつ便利なものにすることに注力しています。 Wind Mobility では、ユーザーの要求に合わせてサービスをスケーリングし、経済的かつ環境的に実行可能な方法でサービスを提供しています。実際に使用される数よりも多くの電動キックボー

                                                          Wind Mobility がサーバーレスデータアーキテクチャを構築した方法 | Amazon Web Services
                                                        • Python向けのMakefile的なビルドツール「JTCMake」を作った話 - Qiita

                                                          はじめに 俺は非IT系のJapanese Traditional big Companyでエンジニアをしている。 業務で遭遇した課題にインスパイアされてJTCMakeという汎用的なビルドツールを2022年の7月頃からプライベートで開発してきた。そろそろ安定してきたので宣伝させてほしい。 Github 使い方 PyPI 機能概要 JTCMakeは構造的タスク管理および差分ビルドのためのツールである。当初想定していた用途は機械学習パイプラインの管理だが、より一般にファイル生成タスクの自動化に使うことができる。 基本的な機能はMakefileのようにファイル作成のルールの集合を定義して差分ビルドをすることだが、さらに以下のような特徴がある。 入力ファイルの内容にもとづいてタスクの実行要否を判定可能(入出力ファイルのタイムスタンプベースでの判定も可能) ルールはPythonで記述 出力ファイルのデ

                                                            Python向けのMakefile的なビルドツール「JTCMake」を作った話 - Qiita
                                                          • Auto-Sklearnでらくらく自動機械学習(AutoML)超入門

                                                            機械学習は現代社会において多くの分野で利用されています。 しかし、モデルの設定やハイパーパラメータの調整など、そのプロセスは非常に煩雑であり、多くの時間と専門知識が要求されます。そこで登場するのが「自動機械学習(AutoML)」です。 この記事では、AutoMLの中でも比較的人気のあるライブラリであるAuto-Sklearnを使って、誰でも簡単に機械学習モデルを構築できる方法を解説します。 基本的な使い方から応用例まで、Pythonの実行例付きでご紹介。機械学習に新しい風を吹き込むAuto-Sklearnで、あなたもデータ解析のプロになりましょう! はじめに なぜ自動機械学習(Auto ML)が必要なのか? 機械学習は今や多くの業界で応用されています。医療から金融、製造業まで、データを解析して有用な情報を引き出す力は計り知れません。 しかし、その一方で、機械学習モデルを設計、訓練、テストす

                                                              Auto-Sklearnでらくらく自動機械学習(AutoML)超入門
                                                            • RayをDatabricksで活用する - Qiita

                                                              How to Use Ray, a Distributed Python Framework, on Databricks - The Databricks Blogの翻訳です。 Rayは膨大な計算資源を必要とするあらゆるPythonワークロードをシンプルにスケールオープンソースプロジェクトであり、当初はRISELabによって開発されていました。柔軟性のある分散実行フレームワーク上に構築された豊富なライブラリとインテグレーションによって、Rayは新たなユースケースをもたらし、通常であれば開発するには複雑なカスタム分散処理Python関数の開発をシンプルなものにします。 RayをApache Spark™のクラスターで実行することで、PySparkのUDF(ユーザー定義関数)の内部コードを分散処理できる能力を得ることに加え、ドライバーノードでの実行にのみ用いられるPythonコードも分散する

                                                                RayをDatabricksで活用する - Qiita
                                                              • Databricksのカレンダー | Advent Calendar 2023 - Qiita

                                                                Databricksを活用されている皆様によるAdvent Calendarです。今年もよろしくお願いします! データブリックスは、Apache Spark™、Delta Lake、MLflowの開発者グループによって2013年に創業されたデータ&AIカンパニーです。データブリックスのデータインテリジェンスプラットフォームは、組織全体でのデータとAIの活用を促進させ、レイクハウスを基盤とするプラットフォームが、あらゆるデータとガバナンス要件をサポートするオープンな統合環境を提供します。 以下のような内容大歓迎です! そもそもDatabricksって何? Databricksで⚪︎⚪︎を試してみた Databricksで⚪︎⚪︎が捗る件 Databricksにおける大規模言語モデルの活用

                                                                  Databricksのカレンダー | Advent Calendar 2023 - Qiita
                                                                • 【FDUA】第一回 金融データ活用チャレンジをやってみている #2 - Qiita

                                                                  初学者がやるコンペ記録の第2回です。参加しているコンペはこちら。 前回の内容はこちら。 今の状況&所感 暫定評価0.97以上。前回からスコアは上がっているが、まだまだ試行錯誤中。 終盤に入ってきていますが、やり切れてないことも多く、どこまでやるか迷ってます。 慣れてくると、だいたいやること定まって迷いとか減るんだろうなあ。 一日の投稿が50回ぐらいできればいいのに 前回から追加で行っていること 縛りも含めて、基本的なやり方はあまり変わっていませんので、個人的にインパクトがあった点だけつらつらと書きます。 続・特徴量エンジニアリング ずっとやってますが、2/10に開催された中間イベントの資料は参考になりました。 私は都合が合わなくて参加できなかったのですが、Slack見ていると盛り上がっていたみたいですね。参加したかった。。。 特に、金融ドメイン知識が皆無だったので、ドメインから考えるモデル

                                                                    【FDUA】第一回 金融データ活用チャレンジをやってみている #2 - Qiita
                                                                  • How the Integrations Between Ray & MLflow Aids Distributed ML Production

                                                                    This is a guest blog from software engineers Amog Kamsetty and Archit Kulkarni of Anyscale and contributors to Ray.io In this blog post, we’re announcing two new integrations with Ray and MLflow: Ray Tune+MLflow Tracking and Ray Serve+MLflow Models, which together make it much easier to build machine learning (ML) models and take them to production. These integrations are available in the latest R

                                                                      How the Integrations Between Ray & MLflow Aids Distributed ML Production
                                                                    • 機械学習モデルをSageMakerにデプロイするのためのAWS認証設定のセットアップ - Qiita

                                                                      本書では、MLflowモデルをAWS SageMakerにデプロイするために、どのようにインスタンスプロファイルをセットアップするのかを説明します。ここで用いるIAMロールと同様のアクセス権をAWSユーザーのアクセスキーで設定することは可能ですが、SageMakerにデプロイするクラスターにアクセス権を設定する際にはインスタンスプロファイルを使用することをお勧めします。 ステップ1: AWS IAMロールを作成し、SageMakerのアクセス権ポリシーにアタッチする AWSコンソールでIAMサービスに移動します。 サイドバーのロールをクリックします。 ロールの作成をクリックします。 信頼エンティティのタイプの選択でAWSサービスを選択します。 このロールを使用するサービスの選択でEC2サービスを選択します。 次へ:アクセス権をクリックします。 アクセス権ポリシーのアタッチ画面で、Amazo

                                                                        機械学習モデルをSageMakerにデプロイするのためのAWS認証設定のセットアップ - Qiita
                                                                      • 機械学習プラットフォームを選択する際の3つの原則 - Qiita

                                                                        Three Principles for Selecting Machine Learning Platforms - The Databricks Blogの翻訳です。 この記事はMLプラットフォーム、オペレーション、ガバナンスに関するシリーズの第二弾となります。最初の記事については、Rafi Kurlansikによるデータを中心とした機械学習プラットフォームに対するニーズをご覧ください。 最近、サイバーセキュリティ会社のデータプラットフォームのシニアディレクターと会話した際に、「そこかしこでツールが変化し続ける中で、どうしたら機械学習プラットフォームを将来にわたって利用できるようにするのか皆目検討がつかないよ」というコメントを聞きました。これは一般的な感情だと思います。機械学習(ML)は、他の技術に比べて遥かに急激に進展しました。研究所からは頻繁に最新のライブラリが公開され、ベンダーた

                                                                          機械学習プラットフォームを選択する際の3つの原則 - Qiita
                                                                        • PromptFlowログの可視化:Azure AI/ML Studio & MLflowと連携し収集・可視化する - Qiita

                                                                          3部構成の2部目の記事で、ここではPromptFlow上でMLflowを利用してログ/メトリック収集方法を紹介します。 特にAzure ML/AI Stuido上でPromptFlowを開発した場合は、組み込みのメトリック収集・監視がありますが、詳細なログやメトリックの収集、独自の比較等しようとした場合に組み込みのものだけでは不足する、ということがあると思います。 これを解決するためにPromptFlow組み込みのメトリック収集ではなくMlFlowを利用したメトリック等の収集方法をご紹介します。 なおMLflowの概要については1部目に記載していますので、こちらをご参照ください。 (1) Azure ML & MLflowで可視化: Azure ML StudioとMLflow Trackingによるデータ収集・可視化の紹介 (2) PromptFlowログの可視化:Azure AI/ML

                                                                            PromptFlowログの可視化:Azure AI/ML Studio & MLflowと連携し収集・可視化する - Qiita
                                                                          • Databricks Serverless SQL のすゝめ - Qiita

                                                                            Databricks の SQL Warehouse - Serverless を使用したWebアプリケーション例 目次 はじめに データブリックスの SQL Warehouse とは? ServerlessSQLの推しポイント 起動時間が早い パフォーマンス最適化の機能が充実している コストパフォーマンスが高い 使い始める 活用例 おわりに はじめに 皆様はDatabricksにDWHの機能があることをご存知でしょうか。 Databricksをご存知の方は 「PythonとかSQLを書いてSparkで処理するんでしょ」 「MLFlowで機械学習のモデル管理とかできるんでしょ」 「Unity Catalogっていうガバナンスモデルがあるんでしょ」 など色々な印象をお持ちかと思います。全て正解ですが、SQL WarehouseなしでDatabricksを語ることはできません。弊社が提供するD

                                                                              Databricks Serverless SQL のすゝめ - Qiita
                                                                            • Google ColabでLightGBM+MLFlow使ってみた - Qiita

                                                                              今回はMLFlowを使うのが目的なので、パラメータのチューニングやfeature engineeringなどは適当。 5foldでcross validationして、foldごとにaccuracyでも求めてみる。 import pandas as pd import numpy as np import warnings warnings.filterwarnings('ignore') from sklearn.model_selection import train_test_split, KFold from sklearn.metrics import accuracy_score from sklearn.preprocessing import LabelEncoder import lightgbm as lgb # Encode categorical features

                                                                                Google ColabでLightGBM+MLFlow使ってみた - Qiita
                                                                              • データレイク上でDWH処理を、データブリックス「SQL Analytics」発表

                                                                                クラウドネイティブな統合分析基盤を提供するデータブリックス(Databricks)は2020年11月13日、データレイク上でデータウェアハウス(DWH)ワークロードの実行を可能にする「SQL Analytics」の提供開始を発表した。これまで“分断”されていたデータレイクとDWHの世界を融合させる“レイクハウス(Lakehouse)”アーキテクチャのビジョンを実現し、さらに前進させていく方針。 データブリックスは、AI/マシンラーニングに特化したデータ分析基盤を提供する“データ&AI企業”。「Apache Spark」「MLflow」「Delta Lake」などで構成されるオープンソースソフトウェアベースの分析プラットフォームを、パブリッククラウド(AWS、Microsoft Azure)上のマネージドサービスとして提供している。今年9月には日本法人による本格的な国内展開開始も発表した。

                                                                                  データレイク上でDWH処理を、データブリックス「SQL Analytics」発表
                                                                                • mlflowでpython機械学習モデルの再学習の仕組みを作る - Qiita

                                                                                  pythonライブラリのmlflowを使って、scikit-learnモデルの再学習・精度評価・運用モデル更新を行う仕組みを作った時の作業メモです。 作りたい環境の大まかな要件 モデルの本番運用を開始した後、定期的に新規データで再学習を行い運用モデルを更新していく仕組みです。 手短に箇条書きすると、こんなイメージです。 モデル学習 定期的に最新の学習データを使用してモデルを作成し、リポジトリに新規バージョンとして登録 毎週/毎月などの定期的なバッチ処理を想定 モデル精度評価 リポジトリ内のモデルの各バージョンに対して、評価対象データに対する予測実行を行い予測精度を算出 これも定期的なバッチ処理を想定 精度評価結果はUI上で人が確認する モデル更新 自動更新の場合:定期的な再学習で生成された最新バージョンを運用バージョン(production)として更新登録 手動更新の場合:最新の精度評価結

                                                                                    mlflowでpython機械学習モデルの再学習の仕組みを作る - Qiita