並び順

ブックマーク数

期間指定

  • から
  • まで

321 - 360 件 / 485件

新着順 人気順

mlflowの検索結果321 - 360 件 / 485件

  • RayをDatabricksで活用する - Qiita

    How to Use Ray, a Distributed Python Framework, on Databricks - The Databricks Blogの翻訳です。 Rayは膨大な計算資源を必要とするあらゆるPythonワークロードをシンプルにスケールオープンソースプロジェクトであり、当初はRISELabによって開発されていました。柔軟性のある分散実行フレームワーク上に構築された豊富なライブラリとインテグレーションによって、Rayは新たなユースケースをもたらし、通常であれば開発するには複雑なカスタム分散処理Python関数の開発をシンプルなものにします。 RayをApache Spark™のクラスターで実行することで、PySparkのUDF(ユーザー定義関数)の内部コードを分散処理できる能力を得ることに加え、ドライバーノードでの実行にのみ用いられるPythonコードも分散する

      RayをDatabricksで活用する - Qiita
    • Databricksのカレンダー | Advent Calendar 2023 - Qiita

      Databricksを活用されている皆様によるAdvent Calendarです。今年もよろしくお願いします! データブリックスは、Apache Spark™、Delta Lake、MLflowの開発者グループによって2013年に創業されたデータ&AIカンパニーです。データブリックスのデータインテリジェンスプラットフォームは、組織全体でのデータとAIの活用を促進させ、レイクハウスを基盤とするプラットフォームが、あらゆるデータとガバナンス要件をサポートするオープンな統合環境を提供します。 以下のような内容大歓迎です! そもそもDatabricksって何? Databricksで⚪︎⚪︎を試してみた Databricksで⚪︎⚪︎が捗る件 Databricksにおける大規模言語モデルの活用

        Databricksのカレンダー | Advent Calendar 2023 - Qiita
      • 機械学習モデルをSageMakerにデプロイするのためのAWS認証設定のセットアップ - Qiita

        本書では、MLflowモデルをAWS SageMakerにデプロイするために、どのようにインスタンスプロファイルをセットアップするのかを説明します。ここで用いるIAMロールと同様のアクセス権をAWSユーザーのアクセスキーで設定することは可能ですが、SageMakerにデプロイするクラスターにアクセス権を設定する際にはインスタンスプロファイルを使用することをお勧めします。 ステップ1: AWS IAMロールを作成し、SageMakerのアクセス権ポリシーにアタッチする AWSコンソールでIAMサービスに移動します。 サイドバーのロールをクリックします。 ロールの作成をクリックします。 信頼エンティティのタイプの選択でAWSサービスを選択します。 このロールを使用するサービスの選択でEC2サービスを選択します。 次へ:アクセス権をクリックします。 アクセス権ポリシーのアタッチ画面で、Amazo

          機械学習モデルをSageMakerにデプロイするのためのAWS認証設定のセットアップ - Qiita
        • 機械学習プラットフォームを選択する際の3つの原則 - Qiita

          Three Principles for Selecting Machine Learning Platforms - The Databricks Blogの翻訳です。 この記事はMLプラットフォーム、オペレーション、ガバナンスに関するシリーズの第二弾となります。最初の記事については、Rafi Kurlansikによるデータを中心とした機械学習プラットフォームに対するニーズをご覧ください。 最近、サイバーセキュリティ会社のデータプラットフォームのシニアディレクターと会話した際に、「そこかしこでツールが変化し続ける中で、どうしたら機械学習プラットフォームを将来にわたって利用できるようにするのか皆目検討がつかないよ」というコメントを聞きました。これは一般的な感情だと思います。機械学習(ML)は、他の技術に比べて遥かに急激に進展しました。研究所からは頻繁に最新のライブラリが公開され、ベンダーた

            機械学習プラットフォームを選択する際の3つの原則 - Qiita
          • PromptFlowログの可視化:Azure AI/ML Studio & MLflowと連携し収集・可視化する - Qiita

            3部構成の2部目の記事で、ここではPromptFlow上でMLflowを利用してログ/メトリック収集方法を紹介します。 特にAzure ML/AI Stuido上でPromptFlowを開発した場合は、組み込みのメトリック収集・監視がありますが、詳細なログやメトリックの収集、独自の比較等しようとした場合に組み込みのものだけでは不足する、ということがあると思います。 これを解決するためにPromptFlow組み込みのメトリック収集ではなくMlFlowを利用したメトリック等の収集方法をご紹介します。 なおMLflowの概要については1部目に記載していますので、こちらをご参照ください。 (1) Azure ML & MLflowで可視化: Azure ML StudioとMLflow Trackingによるデータ収集・可視化の紹介 (2) PromptFlowログの可視化:Azure AI/ML

              PromptFlowログの可視化:Azure AI/ML Studio & MLflowと連携し収集・可視化する - Qiita
            • Auto-Sklearnでらくらく自動機械学習(AutoML)超入門

              機械学習は現代社会において多くの分野で利用されています。 しかし、モデルの設定やハイパーパラメータの調整など、そのプロセスは非常に煩雑であり、多くの時間と専門知識が要求されます。そこで登場するのが「自動機械学習(AutoML)」です。 この記事では、AutoMLの中でも比較的人気のあるライブラリであるAuto-Sklearnを使って、誰でも簡単に機械学習モデルを構築できる方法を解説します。 基本的な使い方から応用例まで、Pythonの実行例付きでご紹介。機械学習に新しい風を吹き込むAuto-Sklearnで、あなたもデータ解析のプロになりましょう! はじめに なぜ自動機械学習(Auto ML)が必要なのか? 機械学習は今や多くの業界で応用されています。医療から金融、製造業まで、データを解析して有用な情報を引き出す力は計り知れません。 しかし、その一方で、機械学習モデルを設計、訓練、テストす

                Auto-Sklearnでらくらく自動機械学習(AutoML)超入門
              • 【FDUA】第一回 金融データ活用チャレンジをやってみている #2 - Qiita

                初学者がやるコンペ記録の第2回です。参加しているコンペはこちら。 前回の内容はこちら。 今の状況&所感 暫定評価0.97以上。前回からスコアは上がっているが、まだまだ試行錯誤中。 終盤に入ってきていますが、やり切れてないことも多く、どこまでやるか迷ってます。 慣れてくると、だいたいやること定まって迷いとか減るんだろうなあ。 一日の投稿が50回ぐらいできればいいのに 前回から追加で行っていること 縛りも含めて、基本的なやり方はあまり変わっていませんので、個人的にインパクトがあった点だけつらつらと書きます。 続・特徴量エンジニアリング ずっとやってますが、2/10に開催された中間イベントの資料は参考になりました。 私は都合が合わなくて参加できなかったのですが、Slack見ていると盛り上がっていたみたいですね。参加したかった。。。 特に、金融ドメイン知識が皆無だったので、ドメインから考えるモデル

                  【FDUA】第一回 金融データ活用チャレンジをやってみている #2 - Qiita
                • How the Integrations Between Ray & MLflow Aids Distributed ML Production

                  This is a guest blog from software engineers Amog Kamsetty and Archit Kulkarni of Anyscale and contributors to Ray.io In this blog post, we’re announcing two new integrations with Ray and MLflow: Ray Tune+MLflow Tracking and Ray Serve+MLflow Models, which together make it much easier to build machine learning (ML) models and take them to production. These integrations are available in the latest R

                    How the Integrations Between Ray & MLflow Aids Distributed ML Production
                  • データレイク上でDWH処理を、データブリックス「SQL Analytics」発表

                    クラウドネイティブな統合分析基盤を提供するデータブリックス(Databricks)は2020年11月13日、データレイク上でデータウェアハウス(DWH)ワークロードの実行を可能にする「SQL Analytics」の提供開始を発表した。これまで“分断”されていたデータレイクとDWHの世界を融合させる“レイクハウス(Lakehouse)”アーキテクチャのビジョンを実現し、さらに前進させていく方針。 データブリックスは、AI/マシンラーニングに特化したデータ分析基盤を提供する“データ&AI企業”。「Apache Spark」「MLflow」「Delta Lake」などで構成されるオープンソースソフトウェアベースの分析プラットフォームを、パブリッククラウド(AWS、Microsoft Azure)上のマネージドサービスとして提供している。今年9月には日本法人による本格的な国内展開開始も発表した。

                      データレイク上でDWH処理を、データブリックス「SQL Analytics」発表
                    • ClearML入門〜機械学習の実験管理を楽にする〜 - Qiita

                      はじめに 機械学習では、モデルの学習に使用するコードだけでなくデータセット、前処理で生成された生成物、モデルなどもセットで管理する必要があり実験管理が難しいという問題があります。適切な実験管理は、実験段階で動いていたコードを本番環境に持っていき同様の予測結果を再現するのにも重要になります。 機械学習の実験管理ではMLflowなどが有名ですが、ClearML(前の名前: Allegro Trains)という実験管理ツールを見つけたので、この記事ではClearMLの簡単に使い方について説明させていただきます。 ClearML: https://github.com/allegroai/clearml (Apache-2.0 License) 公式ドキュメント: https://allegro.ai/clearml/docs/index.html# 実験管理の考え方については、以下の記事も非常に

                        ClearML入門〜機械学習の実験管理を楽にする〜 - Qiita
                      • Databricks Serverless SQL のすゝめ - Qiita

                        Databricks の SQL Warehouse - Serverless を使用したWebアプリケーション例 目次 はじめに データブリックスの SQL Warehouse とは? ServerlessSQLの推しポイント 起動時間が早い パフォーマンス最適化の機能が充実している コストパフォーマンスが高い 使い始める 活用例 おわりに はじめに 皆様はDatabricksにDWHの機能があることをご存知でしょうか。 Databricksをご存知の方は 「PythonとかSQLを書いてSparkで処理するんでしょ」 「MLFlowで機械学習のモデル管理とかできるんでしょ」 「Unity Catalogっていうガバナンスモデルがあるんでしょ」 など色々な印象をお持ちかと思います。全て正解ですが、SQL WarehouseなしでDatabricksを語ることはできません。弊社が提供するD

                          Databricks Serverless SQL のすゝめ - Qiita
                        • Google ColabでLightGBM+MLFlow使ってみた - Qiita

                          今回はMLFlowを使うのが目的なので、パラメータのチューニングやfeature engineeringなどは適当。 5foldでcross validationして、foldごとにaccuracyでも求めてみる。 import pandas as pd import numpy as np import warnings warnings.filterwarnings('ignore') from sklearn.model_selection import train_test_split, KFold from sklearn.metrics import accuracy_score from sklearn.preprocessing import LabelEncoder import lightgbm as lgb # Encode categorical features

                            Google ColabでLightGBM+MLFlow使ってみた - Qiita
                          • mlflowでpython機械学習モデルの再学習の仕組みを作る - Qiita

                            pythonライブラリのmlflowを使って、scikit-learnモデルの再学習・精度評価・運用モデル更新を行う仕組みを作った時の作業メモです。 作りたい環境の大まかな要件 モデルの本番運用を開始した後、定期的に新規データで再学習を行い運用モデルを更新していく仕組みです。 手短に箇条書きすると、こんなイメージです。 モデル学習 定期的に最新の学習データを使用してモデルを作成し、リポジトリに新規バージョンとして登録 毎週/毎月などの定期的なバッチ処理を想定 モデル精度評価 リポジトリ内のモデルの各バージョンに対して、評価対象データに対する予測実行を行い予測精度を算出 これも定期的なバッチ処理を想定 精度評価結果はUI上で人が確認する モデル更新 自動更新の場合:定期的な再学習で生成された最新バージョンを運用バージョン(production)として更新登録 手動更新の場合:最新の精度評価結

                              mlflowでpython機械学習モデルの再学習の仕組みを作る - Qiita
                            • DatabricksでMLflowを使う② - 実験パラメータとメトリクスの可視化 - - Qiita

                              はじめに 前回のこちらの記事ではDatabricks上でMLflowを使って機械学習モデルのトレーニングを行った履歴をノートブック上に統合するための方法について書きました。 DatabricksでMLflowを使う① - ノートブック上での実験トラッキング - Databricksのマネージド型MLflowではUI上でトレーニングモデルのパラメータやメトリクスの比較、モデルのステージングなどを行うことができます。 この記事では実験ごとのパラメータやメトリクスを可視化して比較する部分について書いています。 実験ごとのUI画面 前回記事でノートブック上で実験ごとのメトリクスなどを確認した画面から、図中赤枠の部分をクリックします。 実験ごとの情報がまとめられた画面に移ります。メトリクスやパラメータ、統合されているノートブックなどが表示されます。 下のほうにスクロールすると、アーティファクトファイ

                                DatabricksでMLflowを使う② - 実験パラメータとメトリクスの可視化 - - Qiita
                              • 個人で使ってもMLflow Trackingは良い - Qiita

                                はじめに MLOpsという、「機械学習モデルが陳腐化してシステムがゴミにならないように、ちゃんと機械学習の技術が含まれたシステムを運用するための基盤をつくりましょうね」というような話がある。 参考記事:小さく始めて大きく育てるMLOps2020 その助けになるように作られたツールとしてMLFlowというものがある。 MLflowの一つの機能、MLflow Trackingを使う機会があったので、いろいろ調べながら使ってみたらこれは良いものだなぁ、と思ったのでここに記す。まあ使い方自体は他にたくさん記事があるのでそれを見ていただくとして、「こういう感じでモデル作成の記録を残していくのはどうよ?」とモデル構築のログの残し方のアイデアの種にでもなればハッピー。MLflowはバージョン1.8.0を使った。 MLflowについては以下の記事がわかりやすい。 mlflowを使ってデータ分析サイクルの効

                                  個人で使ってもMLflow Trackingは良い - Qiita
                                • Deepでポン用実験管理ツール(サービス)の比較2021 - Qiita

                                  皆様メリークリスマス!ふぁむたろうです。 記事遅れてしまいすみませんでした 自分はここ1年くらいのコンペでは脳死で wandb(Weights & Bias) を使って実験管理をしていたのですが、1年の節目ということで他のツール(サービス)も見てみようと思い記事にしました。 (余談ですが wandb の読み方は「Weights & Bias」でも「ワンディービー」でも「ダブリューアンドビー」でも良いっぽいです) 特に業務上で使う場合 pricing 等も気をつけなきゃいけないため、この記事ではそこらへんにも触れていければと思います。 とはいえ昨今の実験管理ツールはたくさんあるので、今回は以下の5つに絞って比較してみます。 (pytorch lightning に標準装備されているもの) TensorBoard MLflow Neptune.ai Weights & Biases Comet

                                    Deepでポン用実験管理ツール(サービス)の比較2021 - Qiita
                                  • Vertex AI Experiments ではじめる機械学習モデルの実験管理 - Qiita

                                    はじめに この記事では Google Cloud のマネージドサービスである Vertex AI Experiments を使った実験管理方法をご紹介します。 このサービスのメリットは当然 Google Cloud の各種サービスと連携がとてもシームレスに行える点が一番に挙げられますが、個人や大学の研究室で実験管理・共有するためのツールとしても有用だと思いますので、既に MLflow などを使っている方でもぜひご一読ください。 Vertex AI Experiments で何ができる? 端的に言ってしまえば、2023年12月時点では機能的に MLflow とそう違いはありません。まずドキュメントを読んだ感じではバックエンドに MLflow を使っている雰囲気があるので、マネージド MLflow と言っても差し支えないレベルだと思います。 モデルの学習・予測に使用したパラメータを記録する モ

                                      Vertex AI Experiments ではじめる機械学習モデルの実験管理 - Qiita
                                    • Databricks Certified Machine Learning Professional 合格体験記 - Qiita

                                      学習方法 1. 公式eラーニングによる勉強 下記のサイトでログインし、"Machine Learning Practitioner Learning Plan"を検索し、"ENROLL"ボタンをクリックします。 https://www.databricks.com/learn/training/login このeラーニングでは6つのレッスンがありますが、最初の3つはAssociateの内容であり、後ろの3つはProfessionalの内容になります。 Certification Overview: Databricks Certified Machine Learning Professional Exam このレッスンは、最初に受講することをおすすめします。 このレッスンでは、試験の概要やトピックが説明されるため、試験全体の概要を把握するのに役立ちます。 特にトピックは非常に重要です。試

                                        Databricks Certified Machine Learning Professional 合格体験記 - Qiita
                                      • 深層学習のハイパーパラメータを Ray Tune で最適化 - Qiita

                                        機械学習におけるハイパーパラメータの最適化は,高い予測性能を実現する上で重要なステップの一つである.古くは scikit-learn などでも実装されるグリッドサーチが標準的であったが,深層学習全盛の現在ではベイズ最適化に基づく最新技術を実装したパッケージがいくつも利用可能になっている. このハイパーパラメータ最適化を行う python パッケージとして日本で最も有名なものは,Qiitaで見る限りにおいては optuna と思われるが,おそらく全世界的に見れば Ray Tune だろう.PyTorchの公式チュートリアル にも採用されるなど,代表的なハイパーパラメータ最適化ライブラリとしての地位を確立しており,既存の学習用実装をそれほど大きく変更することなくハイパーパラメータ最適化が実現できるなどの御利益もあるが,残念なことに日本語の資源がほとんどない. そこでこの記事では,Ray Tun

                                          深層学習のハイパーパラメータを Ray Tune で最適化 - Qiita
                                        • オフラインとオンラインのA/Bテストを通じてオープンチャットのレコメンドモデルを改善

                                          This post is also available in the following languages. English, Korean こんにちは。AI Services LabチームのMLエンジニアHeewoong Parkです。私たちのチームでは、オープンチャットに関するさまざまなAI/MLモデルを開発し、提供しています。以前、「機械学習を活用したオープンチャットのクリーンスコアモデル開発記(韓国語)」という記事で、「不適切なコンテンツのやりとりがなく、会話中のエチケットがどれだけ守られているか」という観点から各オープンチャットを評価し、スコア化する「オープンチャットのクリーンスコアモデル」を紹介しました。今回は「オープンチャットのパーソナライズレコメンドモデル」をどのように改善しているのかを紹介します。 オープンチャットのレコメンドサービスとレコメンドモデルの紹介 オープンチ

                                            オフラインとオンラインのA/Bテストを通じてオープンチャットのレコメンドモデルを改善
                                          • 2024年7月くらいのAWS最新情報ブログとかをキャッチアップする – AWSトレンドチェック勉強会用資料 | DevelopersIO

                                            こんにちは、臼田です。 みなさん、AWSの最新情報はキャッチアップできていますか?(挨拶 社内で行っている AWSトレンドチェック勉強会 の資料をブログにしました。 AWSトレンドチェック勉強会とは、「日々たくさん出るAWSの最新情報とかをブログでキャッチアップして、みんなでトレンディになろう」をテーマに実施している社内勉強会です。 このブログサイトであるDevelopersIOには日々ありとあらゆるブログが投稿されますが、その中でもAWSのアップデートを中心に私の独断と偏見で面白いと思ったもの(あと自分のブログの宣伝)をピックアップして、だいたい月1で簡単に紹介しています。 7月は63本ピックアップしました。今月はAWS Summit New Yorkが開催され生成AI関連がまたしても強化されています。他にも弊社の1ヶ月通しのイベントClassmethod Odysseyが開催されていた

                                              2024年7月くらいのAWS最新情報ブログとかをキャッチアップする – AWSトレンドチェック勉強会用資料 | DevelopersIO
                                            • 日立造船、データブリックスの「レイクハウス・プラットフォーム」を採用、メソドロジックの支援によりIoT 基盤と連動するデータ分析・機械学習システムの運用を効率化

                                              日立造船、データブリックスの「レイクハウス・プラットフォーム」を採用、メソドロジックの支援によりIoT 基盤と連動するデータ分析・機械学習システムの運用を効率化 データ分析基盤コンサルティングを実施している株式会社メソドロジック(本社:東京都港区麻布台、代表取締役社長:大西俊幸、以下「メソドロジック」)は、日立造船株式会社(社長兼COO:三野 禎男、以下「日立造船」)の、IoT基盤のデータ分析の課題に対して、米Databricks 社の日本法人であるデータブリックス・ジャパン株式会社(本社:東京都港区、社長:竹内 賢佑、以下「データブリックス」)が提供する統合データ分析基盤『レイクハウス・プラットフォーム』の導入支援をしたことを発表いたします。 これにより日立造船は、同社のIoT基盤と連動するデータ分析・機械学習システムの運用を効率化するとともに、データブリックスを用いたデータの利活用を実

                                                日立造船、データブリックスの「レイクハウス・プラットフォーム」を採用、メソドロジックの支援によりIoT 基盤と連動するデータ分析・機械学習システムの運用を効率化
                                              • 週刊生成AI with AWS – 2024/9/23週 | Amazon Web Services

                                                Amazon Web Services ブログ 週刊生成AI with AWS – 2024/9/23週 みなさん、こんにちは。AWS ソリューションアーキテクトの木村です。 今年の秋は生成AI のイベントが盛りだくさんです。10 月にかけて「AWS Japan 生成 AI ハッカソン~生成 AI で日々の仕事はもっと楽しくなる」が開催されます。ナビゲーター、および審査員として QuizKnock 伊沢氏、鶴崎氏に発表会に登場いただきます。応募締め切りは、10 月 2 日 (水) です。楽しみながら生成AI 活用のアイデアを形にしてみたい、という方は是非ご参加ください。 10 月 3 日 (木) には「RAG だけじゃない!生成 AI の価値を引き出す自社データ活用とプロンプトによる LLM 調整術」というイベントをオンラインで開催します。AWS のセッションに加え、Oisix 様から A

                                                  週刊生成AI with AWS – 2024/9/23週 | Amazon Web Services
                                                • Unity Catalogのオープンソース化を発表します!

                                                  Translation Review by saki.kitaoka Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。 これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します: オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポート

                                                    Unity Catalogのオープンソース化を発表します!
                                                  • 我々はどのようにしてGoogle Kubernetes Engine (GKE)上にDatabricksを構築したのか - Qiita

                                                    マルチクラウドのデータ、分析、AIに対するコンテナ化アプローチ Databricks on Google Cloud Platform (GCP)のリリースは、真のマルチクラウドである統合データ、分析、AIプラットフォームに向けた大きなマイルストーンでした。Databricks on GCPはジョイントで開発されたサービスであり、お使いのすべてのデータをシンプルかつオープンなレイクハウスプラットフォームに格納できるようにし、これはGoogle’s Kubernetes Engine (GKE)上で稼働している標準コンテナをベースとしています。 Databricks on GCPをリリースした際のフィードバックは「とりあえず動いたね!」というものでした。しかし、あなた方の何人かは、DatabricksとKubernetesに関する深い質問をしました。このため、GKEを採用した理由や学び、キー

                                                      我々はどのようにしてGoogle Kubernetes Engine (GKE)上にDatabricksを構築したのか - Qiita
                                                    • AIの技術を社会に実装し、世の中をより良くするサービスをつくる。GO株式会社・渡部徹太郎氏が教えるMLエンジニアの仕事 | レバテックラボ(レバテックLAB)

                                                      TOPコラム現場に聞く!わかるエンジニア職種図鑑AIの技術を社会に実装し、世の中をより良くするサービスをつくる。GO株式会社・渡部徹太郎氏が教えるMLエンジニアの仕事 GO株式会社 MLエンジニア 渡部 徹太郎 東京工業大学大学院 情報理工学研究科にてデータ工学を研究。株式会社野村総合研究所にてオンライントレードシステムやオープンソース技術担当をしたのち、株式会社リクルートテクノロジーズでは複数のデータ分析基盤のリーダを担当。その後、GO株式会社の前身となる会社(JapanTaxi)に入社。ドライブレコーダーのデータをAIで活用するプロジェクトの責任者や、タクシーアプリ『GO』のデータ基盤の責任者をしている。著書として「実践的データ基盤への処方箋」や「図解即戦力 ビッグデータ分析システムと開発がこれ1冊でしっかりわかる教科書」がある。 X:@fetarodc こんにちは、GO株式会社でデー

                                                        AIの技術を社会に実装し、世の中をより良くするサービスをつくる。GO株式会社・渡部徹太郎氏が教えるMLエンジニアの仕事 | レバテックラボ(レバテックLAB)
                                                      • 深層自然言語処理フレームワークを学ぶ!『AllenNLP入門』発行 技術の泉シリーズ、8月の新刊

                                                        ​インプレスグループで電子出版事業を手がける株式会社インプレスR&Dは、『AllenNLP入門』(著者:小林 滉河、山口 泰弘)を発行いたしました。 最新の知見を発信する『技術の泉シリーズ』は、「技術書典」や「技術書同人誌博覧会」をはじめとした各種即売会や、勉強会・LT会などで頒布された技術同人誌を底本とした商業書籍を刊行し、技術同人誌の普及と発展に貢献することを目指します。 『AllenNLP入門』 https://nextpublishing.jp/isbn/9784844378969 著者:小林 滉河、山口 泰弘 小売希望価格:電子書籍版 1600円(税別)/印刷書籍版 2000円(税別) 電子書籍版フォーマット:EPUB3/Kindle Format8 印刷書籍版仕様:B5判/カラー/本文82ページ ISBN:978-4-8443-7896-9 発行:インプレスR&D <<発行主旨

                                                          深層自然言語処理フレームワークを学ぶ!『AllenNLP入門』発行 技術の泉シリーズ、8月の新刊
                                                        • KubeFlow上で機械学習の環境を用意し、MLFlowでモデルを保存する - Qiita

                                                          [更新] KubeFlow 1.0のCONFIG_URIに対応しました。 0. 目標 KubeFlowは、機械学習の開発・運用の環境を提供するOSSです。 KubeCon NA 2019でも多くのセッションで取り上げられました。Jupyterを必要なだけ起動したり、パイプラインを実行できたりします。v0.6.2では、複数ユーザをサポートできるようになりました。今年前半でv1.0が提供される予定で、開発が目下進められています。 また、MLFlow modelsも、機械学習モデルの保存という観点では、保存形式の一つとして非常に強力なツールと思います。 今回は、以下の2つをやってみたいと思います。 KubeFlowを構築。その上に、まずユーザAとユーザBそれぞれにJupyterを起動。 ユーザAがMLFlow modelsを使って、学習済みモデルを保存。それを、ユーザBのJupyterに共有し復

                                                            KubeFlow上で機械学習の環境を用意し、MLFlowでモデルを保存する - Qiita
                                                          • 機械学習の本格運用:デプロイメントからドリフト検知まで - Qiita

                                                            Productionizing Machine Learning: From Deployment to Drift Detection - The Databricks Blogの翻訳です。 以下の手順を再現するにはこちらのノートブックを参照ください。また、詳細に関してはこちらのウェビナーもご覧ください。 多くのブログ記事において、機械学習のワークフローはデータの準備から始まり本番環境へのモデルデプロイで終わります。しかし実際には、それは機械学習モデルのライフサイクルの初めの一歩に過ぎないのです。”人生において変化は起こり続けるものだ”という人もいます。デプロイ後しばらくして、モデルドリフトと呼ばれるモデルの精度劣化が発生するため、これは機械学習モデルにおいても真実と言えます。本記事ではモデルドリフトを検知し対策するのかを説明します。 機械学習におけるドリフトの種別 特徴データや目標変数

                                                              機械学習の本格運用:デプロイメントからドリフト検知まで - Qiita
                                                            • MLflow tracking 備忘録 - Qiita

                                                              import mlflow # 処理を記述 lr = ~ model = ~ loss = ~ # MLflowでのログ with mlflow.sart_run(): mlflow.log_param('lr', lr) mlflow.log_metrics('loss', loss) mlflow.pytorch.log_model(model, 'model') code解説 with mlflow.start_run(): このコードブロック内でログの記述をする mlflow.log_param('lr', lr) パラメータの保存(学習率等のハイパラ) mlflow.log_metrics('loss', loss) メトリクスの保存(損失関数,精度等) mlflow.pytorch.log_model(model, 'loss') モデルの保存 プログラム実行後、ディレクトリ直

                                                                MLflow tracking 備忘録 - Qiita
                                                              • 簡単なFashionMNIST用モデルでPyTorchとPyTorch Lightningを比較してみた | DevelopersIO

                                                                こんちには。 データアナリティクス事業本部機械学習チームの中村です。 今回は、PyTorch Lightningについて簡単なお題を使って紹介していきます。 PyTorch Lightningの概要 PyTorch Lightningは、PyTorchの高水準インターフェースを提供するライブラリです。 機械学習のコア部分のロジックを、定型的な実装部分から切り離して定義できるようなインターフェースに工夫されています。 そのためユーザーは、機械学習のコア部分のロジックの検討に集中することができます。 PyTorch Lightningには、以下のような特徴があります。 統一的なコーディングが可能 定義済みのHooksに沿えばフォーマット化されるため属人性が低下 良く使用するEarlyStoppingなどは、コールバックとして定義済み 定型的な処理を隠蔽化 学習ループなどの記述が不要 勾配関連の

                                                                  簡単なFashionMNIST用モデルでPyTorchとPyTorch Lightningを比較してみた | DevelopersIO
                                                                • 【金融データ活用チャレンジ】DatabricksのAutoMLを使ってみた

                                                                  【金融データ活用チャレンジ】DatabricksのAutoMLを使ってみた【要約】 SIGNATEで開催されているコンペ「金融データ活用チャレンジ」でDatabricksのAutoMLが使えるようなので、その使い方をご紹介します。 コンペの本番環境でもAutoMLが使えるようですのでご活用ください。 ※ コンペのデータおよび本番環境の公開日(2023年1月20日)前に執筆・公開してます。 ※ 本記事公開後、本番環境でもAutoMLが使えるとのこと、事務局からご連絡頂きました。ありがとうございました。 1.What's 金融データ活用チャレンジ 昨年12月23日から3月5日(日)まで、SIGNATEにおいて「金融データ活用チャレンジ」が開催されています。 主催は社団法人ですが、金融機関が開催する国内コンペとしては「MUFG Data Science Champion Ship」に続く国内金融

                                                                    【金融データ活用チャレンジ】DatabricksのAutoMLを使ってみた
                                                                  • Databricksに対するFAQ - Qiita

                                                                    Databricksソリューションアーキテクトの弥生です。 前回は私が使用したDatabricks学習コンテンツをシェアさせていただきましたが、こちらでは2020年の入社後、多くのお客様とのやりとりの中でいただいたご質問および回答をまとめました。 「Databricksって聞くけど、一体何なの?」と感じている方にとって、本書が一助になれば幸いです。 Databricksの概要 レイクハウスとは何ですか? Databricksが提供するプラットフォームの名称です。Databricksが作った造語であり、由来は従来型データプラットフォームであるデータウェアハウスとデータレイクであり、両者の長所を兼ね備えたプラットフォームであるという意味を込めてレイクハウスとしています。 想定されるエンドユーザーは誰ですか? データエンジニア、データサイエンティスト、SQLアナリスト、MLエンジニアなど機械学習

                                                                      Databricksに対するFAQ - Qiita
                                                                    • Azure Machine Learning SDK v2の基本的な使い方紹介 - 電通総研 テックブログ

                                                                      本記事はMicrosoft Azure Tech Advent Calendar 2022の22日目の記事です Xイノベーション本部 AITCの後藤です。最近、Azureが提供する機械学習サービスであるAzure Machine Learning(Azure ML)のSDK v2が新たにGAになりました。 Azure MLは先日TechPlayのイベントでもご紹介した、私たちのチームが背極的に活用している機械学習のさまざまな用途に活用可能なサービスです。 Azure ML SDK v2はv1と大きく使い方が変わりました。本記事ではまだまだ情報が少ないAzure ML SDK v2に関して公式ドキュメントをベースに使い方を紹介します。 そもそもAzure Machine Learning (Azure ML) とは Azure ML SDK v1とv2の比較 Azure ML SDK v2の

                                                                        Azure Machine Learning SDK v2の基本的な使い方紹介 - 電通総研 テックブログ
                                                                      • 機械学習実験環境を晒す - Qiita

                                                                        14日目はいのいちさんの【Kaggle】2020年に開催された画像分類コンペの1位の解法を紹介します です! 16日目は俵さんの黒魔術への招待:Neural Network Stacking の探求です! Kaggleをやる私に必要なもの こんにちは、皆さんはKaggleやってますか? 正直なことをいうと、自分はあまりKaggleコンペに参加してないのでエアプ勢になってます。どちらかというとマイナーなコンペばかりに参加してて…… Kaggle(広義)で勝つためにたくさんの実験を回しますが、何も考えていないと後々苦しみます。 僕がコンペに参加してる時のあるあるをまとめます。 今日やった実験は明日は忘れてる 破壊的変更ばかりする commitがだるい ソースが汚い 諸々あってそろそろちゃんとした実験環境整えようかなという気になって自分のソースコードを整理してました。その頃にちょうどadvent

                                                                          機械学習実験環境を晒す - Qiita
                                                                        • MLflowの環境構築を解説〜Docker Composeを用いてデータ分析環境と実験記録の保存場所を分けて構築〜 - DATAFLUCT Tech Blog

                                                                          こんにちは!nakamura(@naka957)です。今回はDocker Composeを用いたMLflowの環境構築方法をご説明します。 前回の記事 ではMLflowの初心者向けチュートリアルをご紹介しました。MLflowを用いることで、実験記録の管理を簡単に行えることを解説しています。 MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - 今回はMLflowの環境構築方法をご紹介します。特に実務を想定し、データ分析環境とMLflow環境を分けて構築します。これにより、異なるプロジェクト間でMLflow環境を共有することが可能になり、毎回のMLflow環境構築と管理の手間を省くことができます。加えて、MLflow環境を外部からアクセス可能にします。それにより、他メンバーもMLflow UIへアクセス可能となり、実験記録の参照と共有をできるようにします。 では、早速始めてい

                                                                            MLflowの環境構築を解説〜Docker Composeを用いてデータ分析環境と実験記録の保存場所を分けて構築〜 - DATAFLUCT Tech Blog
                                                                          • (dbdemos)Databricks Lakehouseにおける患者の再入院を減らすための医療予測モデルの構築: MLモデル編 - APC 技術ブログ

                                                                            はじめに GLB事業部Lakehouse部の鄭(ジョン)です。 Databricks Lakehouse Platformが提供するデモであるdbdemosの中で、患者の再入院を減らすための医療予測モデルの構築するデモを紹介したいと思います。 デモ名: Lakehouse for HLS: Patient readmission www.databricks.com 今回の投稿はdbdemosを活用して医療データを探求し、予測モデルを作成することを目標にしています。 投稿は2編に分かれています。 1編はデモの概要とデータの探索的分析について紹介しています。 モデルに使われるテーブルと変数についての説明があります。 詳細は下記をご参照ください。 techblog.ap-com.co.jp 今回は2編で患者の再入院を減らすための医療予測モデルを作る過程を紹介してみます。 目次 はじめに 目次

                                                                              (dbdemos)Databricks Lakehouseにおける患者の再入院を減らすための医療予測モデルの構築: MLモデル編 - APC 技術ブログ
                                                                            • 現在の MLOps に関わる課題とその解決法を考える - GMOインターネットグループ グループ研究開発本部

                                                                              ご覧頂きありがとうございます。グループ研究開発本部 AI 研究開発室の N.M.と申します。 昨年のブログから前回にわたって、MLOps 周りのブログを執筆し続けていました。ブログの中で一連の処理の流れをパイプラインとして実装していましたが、もちろんパイプラインの整備をすることが MLOps ということではありません。MLOps を適用させるベストプラクティスは、プロダクトの性質や求められるシステム構成、使用すべきなツールなどによって大きく変化し、多くの議論が交わされています。そこで今回は、 改めて MLOps の現状を踏まえた上でそこにある技術的な課題・それを解決できるサービスやツール群について調査してみます。特に、現状のクラウド ML プラットフォームの中でも注目度の高い GCP の Vertex AI 、AWS の SageMaker の二つのマネージドサービスとそれを補完できる O

                                                                                現在の MLOps に関わる課題とその解決法を考える - GMOインターネットグループ グループ研究開発本部
                                                                              • Azure Machine LearningワークスペースをCLIv2で操作する 入門編1-機械学習モデル作成 - JBS Tech Blog

                                                                                概要 やりたいこと 準備 Azure CLI 拡張機能(CLIv2)によるAzure Machine Learningの基本操作と学習の実行 ログイン 拡張機能のセットアップ コンピューティングの作成 データセットの登録 学習 学習環境の整備 学習の実施 おわりに 概要 2022年11月現在、CLIv2、SDKv2がAzure Machine Learningで提供されている最新のフレームワークです。 learn.microsoft.com 本記事はAzure Machine LearningワークスペースをCLIv2を使って操作するチュートリアルです。 使い方を習得すれば自動化パイプラインを自身で構築できるようになります。 本内容はシリーズとなっておりますので、関連記事も併せてご覧ください。 Azure Machine LearningワークスペースをCLIv2で操作する 入門編1-機械

                                                                                  Azure Machine LearningワークスペースをCLIv2で操作する 入門編1-機械学習モデル作成 - JBS Tech Blog
                                                                                • Azure DatabricksのML Quickstartやーる - Qiita

                                                                                  はじめに DatabricksのML Quickstartやっていきます 開発環境 10.4 LTS, Standard_DS3_v2 10.4 LTS ML, Standard_NC6s_v3(※クォータ制限の緩和申請が必要です) 実装 1.Azure Databricksで新しいノートブックを作成する 2.ライブラリのインストール %pip install mlflow %pip install numpy %pip install pandas %pip install scikit-learn %pip install hyperopt import mlflow import numpy as np import pandas as pd import sklearn.datasets import sklearn.metrics import sklearn.model_sel

                                                                                    Azure DatabricksのML Quickstartやーる - Qiita