並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 468件

新着順 人気順

mlflowの検索結果361 - 400 件 / 468件

  • mlflow.Trackingの導入とTips - Qiita

    これは何か 2020年3月に筆者が参加したkaggleコンペGoogle Cloud & NCAA® ML Competition 2020-NCAAWにてmlflowのtracking機能を導入してみた結果、使い勝手が良かったので、備忘録ついでに投稿する。記載内容は主にmlflowのtracking機能導入方法と自身が導入時に躓いた点について記載していく。 mlflowとは mlflowとは、機械学習のライフサイクル(前処理→学習→デプロイ)を管理するオープンソースなプラットフォームであり、主に3つの機能を有している。 - Tracking: ロギング - Projects: パッケージング - Models: デプロイ支援 今回は主にTracking導入方法について触れていく。Projects, Modelsの詳細についてはこちらを参考にしてほしい。 Trackingとは Tracki

      mlflow.Trackingの導入とTips - Qiita
    • MLFlowの使い方 - クラウドエンジニアのノート

      はじめに MLFlowの3本の柱 MLFlow Tracking 最小サンプル 複数の実験を管理したい Experiments Runs Tags log_param argparseをまるごと記録したい log_metric x軸をtimeじゃなくてstepで記録したい log_metricの履歴のcsvが欲しい log_artifact フォルダまるごと記録したい run_idからファイル取ってきたい あとから結果を追加したい run_idを取得したい artifactsをrun_idでダウンロードしてきたい 複数人で使うとき モデルを直接ロギングしたい pytorchモデルのロギング pytorchモデルの推論 run_idで保存したparamにアクセスしたい さいごに 参考 はじめに 恥ずかしながらExcelとTensorboardを使って実験管理していたのですが、そろそろ実験管理

        MLFlowの使い方 - クラウドエンジニアのノート
      • Google ColaboratoryでKaggle環境を整える時の知っておくと良いことまとめ - Qiita

        KaggleにおけるColab OPS的な話+α 最近Kaggleにちゃんと取り組み始めてKaggler生活を楽しんでおります。 KaggleでDNNモデルを学習・推論する上でGPU/TPU環境を用意することが求められますが、環境の選択肢としては以下4種類が挙げられます。 Kaggle Notebookで時間制限付きのリソースを借りる(無料) Google Colaboratory(無料/有料) GCPでAI Platform(有料) 自分のマシンのGPUを使う(使用自体は当然無料,マシン購入代と電気代がかかる) 私はKaggle初心者なので今回環境構築の手間と金銭的負担が相対的に少ない1,2の手段を選びました。 その結果Google Colaboratory(以下Colab)はコスパに優れ、工夫をすれば使い勝手も良い環境だと感じました。 そんなColabについてKaggleライフを送る上

          Google ColaboratoryでKaggle環境を整える時の知っておくと良いことまとめ - Qiita
        • 無料のDatabricks Community Editionを使って大規模言語モデルを体験してみる - Qiita

          こちらの続編的に。 使っているノートブックはこちらです。 Databricksとは データブリックスは、学術界とオープンソースコミュニティをルーツとするデータ+AIの企業です。Apache Spark™、Delta Lake、MLflowの開発者グループによる2013年の創業以来、最新のレイクハウスアーキテクチャを基盤に、データウェアハウスとデータレイクの優れた機能を取り入れた、データとAIのためのクラウドベースのオープンな統合プラットフォームを提供しています。 このレイクハウスプラットフォームをご利用いただくことで、機械学習モデルのトレーニングはもちろん、機械学習モデルの運用管理、ETLパイプラインの開発・運用、データの蓄積、BIなど様々なワークロードを一つのプラットフォーム上で効率的に実施いただけるようになります。 Databricks Community Editionとは Data

            無料のDatabricks Community Editionを使って大規模言語モデルを体験してみる - Qiita
          • 【Docker】ubuntu18でpython3.7が使えるdockerfileを作ってみた - こすたろーんエンジニアの試行錯誤部屋

            スポンサーリンク ubuntu18.04はデフォルトでpython3.6が入ってます mlflowなどの最近のモジュールではpython3.7以上が必要となるので、どうしてもpythonのバージョンアップが 必要になります 今回ubuntuは18.04のままpython3.7を使うためのdockerfileを作成します 目次 目次 この記事でわかること 1.実行環境 2. dockerfile内容 参考 スポンサーリンク この記事でわかること ubuntuは18.04上でpython3.7を使うためのdockerfileの作成方法 1.実行環境 Jetson Xavier NX ubuntu18.04 docker19.03.6 2. dockerfile内容 FROM ubuntu:18.04 ENV LC_ALL C.UTF-8 ENV LANG C.UTF-8 RUN apt-get

              【Docker】ubuntu18でpython3.7が使えるdockerfileを作ってみた - こすたろーんエンジニアの試行錯誤部屋
            • DBRXのご紹介: 新たなSOTAオープンLLM - Qiita

              本日、Databricksによって作成されたオープンかつ汎用のLLMであるDBRXをご紹介できることを嬉しく思っています。様々な標準的なベンチマークを通じて、DBRXは新たな最先端のオープンLLMの地位を確立しました。さらに、自身のLLMを構築するオープンコミュニティや企業に、かつてはクローズドモデルのAPIに限定されていた機能を提供します。我々の計測によれば、GPT-3.5を上回っており、Gemini 1.0 Proと拮抗するものとなっています。特に、優れたコードモデルとなっており、CodeLLaMA-70Bのように特化されたモデルを上回っており、汎用LLMとしての強みも有しています。 この最先端の品質は、トレーニングと推論パフォーマンスにおける特筆すべき改善によってもたらされています。DBRXは自身の高精細なmixture-of-experts (MoE)アーキテクチャによって、オープ

                DBRXのご紹介: 新たなSOTAオープンLLM - Qiita
              • Google Vision,aws textract,azureなどのOCR エンジンをラップする「ocrpy」のインストール

                Google Vision,aws textract,azureなどのOCR エンジンをラップする「ocrpy」のインストールについて解説しています。 「ocrpy(https://github.com/maxent-ai/ocrpy)」は、Tesseract OCR、Aws Textract、Google Cloud Vision、Azure Computer Vision などのさまざまな OCR エンジンをラップし、クラウドツールやオープンソースライブラリによって提供されるインターフェイスを統合。統合することで、シンプルなインターフェイスを提供している。 ■Python 今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認) ■ocrpyをインストールするocrpyをインストールを行いますが、今回はpipを経由してイ

                  Google Vision,aws textract,azureなどのOCR エンジンをラップする「ocrpy」のインストール
                • 米Databricksが「Data + AI 2022」を開催 - データとAIは世界を完全に変える

                  米Databricks(データブリックス)は6月27日~同30日、年次のカンファレンス「Data + AI 2022」を米国サンフランシスコのMoscone Centerで開催した。160カ国以上の国・地域から現地参加者が約5000人以上、オンラインでの参加者は約5万人にのぼり、ブレイクアウトセッション14トラックを含めて、240以上のセッションが行われた。基調講演の開催日である同28日、29日は特に来場者が多く、初日(28日)の基調講演の様子を本稿ではレポートする。 同社は、OSS(オープンソースソフトウェア)の分散処理フレームワーク「Apache Spark」のクリエイター20人により、2013年にサンフランシスコで創業した。 DWH(データウェアハウス)とデータレイクの両機能をカバーするアーキテクチャ「Lakehouse」は、クラウド上でApache Sparkですべてのデータにアク

                    米Databricksが「Data + AI 2022」を開催 - データとAIは世界を完全に変える
                  • 第4回 MLOps 勉強会で発表しました - Sansan Tech Blog

                    こんにちは。 DSOC R&D グループの高橋寛治です。 2021年2月18日に開催された 第4回 MLOps 勉強会 で登壇の機会をいただき、MLOps に関する取り組みについて発表いたしました。 勉強会の概要と発表内容について簡単に紹介いたします。 MLOps 勉強会 日本の MLOps をより盛んにすべく活動されている団体です。 座談会や勉強会という形式で、MLOps に関する取り組みや最新動向の共有、MLOpsに関するコミュニティ形成を目的として活動されています。 mlops.connpass.com connpass ページにて勉強会の案内がされておりますので、詳しくは上記リンクよりご覧ください。 運営コミュニティが書いているイベントレポートからも勉強会の雰囲気がわかるかと思います。 www.atmarkit.co.jp 発表内容 以前に本ブログに掲載した Data Versio

                      第4回 MLOps 勉強会で発表しました - Sansan Tech Blog
                    • Python で Multi-stage Builds する - Tak's Notebook

                      TOC TOC きっかけ Python で Multi-stage Build する ハマったところ Jupyter Jupyter Lab Lightgbm Docker Image のサイズを比較する 余談 github のレポジトリです。 github.com きっかけ Python でマルチステージビルドをどうするかという話。特にデータ分析用で Jupyter やLightgbm 等のパッケージを含んだものに関する例が多くないように感じたので、ハマったポイントも含めて備忘録的にまとめました。 最近 NLP 周りのイメージを作ってる時に信じられないくらいにイメージサイズが大きくなってきたので(これはまた別の問題を含んでいるかもしれないが)、イメージサイズの縮小を考えないと漠然と思ってる時に Twitter で見かけたのが以下のブログ記事です。 future-architect.git

                        Python で Multi-stage Builds する - Tak's Notebook
                      • たかいとの備忘録

                        はじめに 2023年11月1日(水)〜2024年1月23日(火)に開催されたLLM - Detect AI Generated Textというkaggleのコンペに参加し,参加者5,264人,4,358のチームが参加する中で単独14位の順位で終えることができました. 報告が遅くなりましたが,念願のソロ金をついに取ることができました!!! これでSolo Kaggle Masterの仲間入りです! 今日にいたるまで,いろいろなコンペやイベントで皆さんから学ばせていただいたことが,実を結んだ結果だと思っております. 本当にありがとうございました!! pic.twitter.com/K5XRmlF0A1— たかいと (@takaito0423) 2024年1月23日 この記事では,主にコンペの整理と,一部ではありますが自身の取り組みを効いたかどうかに関わらず,お気持ちとともに残しておけたらと思っ

                          たかいとの備忘録
                        • Databricksレイクハウスプラットフォームを用いたWalgreens Boots AllianceにおけるMLOps - Qiita

                          Databricksレイクハウスプラットフォームを用いたWalgreens Boots AllianceにおけるMLOpsAzureDatabricksMLOps レイクハウスにおけるMLプラクティスの標準化: Walgreens MLOpsアクセラレータのご紹介 本記事では、増加するMLOpsの重要性と、Walgreens Boots Alliance (WBA)とDatabricksによって共同開発されたMLOpsアクセラレータを説明します。MLOpsアクセラレータは、MLプラクティスを標準化するために設計されており、MLモデルのプロダクション化に要する時間を削減し、データサイエンティストとMLエンジニアのコラボレーションを促進し、ビジネス価値と投資対効果を生み出します。本記事を通じて、DatabricksレイクハウスプラットフォームにおけるMLOpsのアプリケーションとどのようにWB

                            Databricksレイクハウスプラットフォームを用いたWalgreens Boots AllianceにおけるMLOps - Qiita
                          • LakeFS とは: 重要な調査

                            LakeFS とは: 重要な調査 これは、Git のような操作とバージョン管理をオブジェクト ストレージにもたらす新しいメタデータ レイヤリング ソリューションです。 Data Minded では、お客様に最高のサービスを提供するために、データ領域の技術開発を常に把握しておく必要があります。この文脈では、我々は最近、調査LakeFS、によって開発された新しい「オブジェクト・ストレージ・ソリューション」Treeverseラウンドを作り続けてきた(彼らはまた、持っている優れたブログを)。しかし、 LakeFS は正確に何をするのでしょうか? それはクライアントが直面する実際の問題に対処していますか? 本番環境で使用する準備はできていますか? このストーリーは、 LakeFS の入門から始まり、その基本的なセットアップ、アイデア、操作を紹介します。次に、LakeFS について気に入った点のリスト

                              LakeFS とは: 重要な調査
                            • MLOpsの知見をオープンにする - Qiita

                              MLOpsコミュニティの運営と学び 本投稿はテックコミュニティの運営の知見と、そこから得られたMLOpsのノウハウをまとめたものになります。 2021年の4月くらいからMLOpsコミュニティの運営に参加させて頂いています。本コミュニティは元々DataRobot JapanがMLOpsの情報共有や推進を目的に2020年くらいに始めた業界横断コミュニティです。 DataRobot Japanがスポンサーとして配信システムのRemoを提供してくださっていますが、実際にはDataRobotに関わらない内容で勉強会を開くことが多く、業種や企業を問わないオープンなコミュニティとして運営しています。 毎月一回、1時間程度の勉強会と交流会を開催しているので、MLOpsや機械学習の実用化に興味のあるエンジニアは是非ご参加ください。 宣伝 2021年最後のMLOps勉強会は12月8日(水)を予定しています。

                                MLOpsの知見をオープンにする - Qiita
                              • MLflow モデルのログ、読み込み、登録、デプロイ - Azure Databricks

                                MLflow モデルは、Apache Spark でのバッチ推論や、REST API を介したリアルタイムのサービスなどのさまざまなダウンストリーム ツールで使用できる機械学習モデルをパッケージ化するための標準形式です。 この形式では、さまざまなフレーバー (python 関数、pytorch、sklearn など) でモデルを保存できる規則が定義されています。これは、さまざまなモデル サービングと推論プラットフォームで解釈できます。 モデルのログ記録と読み込み モデルをログに記録すると、MLflow によって自動的に requirements.txt と conda.yaml の各ファイルがログに記録されます。 これらのファイルを使用して、モデルの開発環境を再作成し、virtualenv (推奨) または conda を使用して依存関係を再インストールできます。 Databricks A

                                  MLflow モデルのログ、読み込み、登録、デプロイ - Azure Databricks
                                • Databricksで日本語GPT-2モデルをファインチューニングして文章生成をやってみる - Qiita

                                  こちらの続きです。単に試行錯誤しながら勉強中な訳で。 今度はこちらの記事を参考に。 ライブラリのインストール 最新のMLflowをインストールしているのは今後の布石です。 %pip install transformers==4.20.1 %pip install sentencepiece %pip install mlflow==2.3.1 from transformers import T5Tokenizer,AutoModelForCausalLM tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-small") DATABRICKS_TOKENS = ["MLflow", "Databricks", "Delta Lake", "Spark"] num_added_toks = tokenizer.add_

                                    Databricksで日本語GPT-2モデルをファインチューニングして文章生成をやってみる - Qiita
                                  • Databricks Container Servicesを使って Runtime環境をカスタムする - Qiita

                                    はじめに Databricksではクラスター作成時にRuntimeを選択することで、さまざまなライブラリーやバージョンの入ったRuntimeを選ぶことが出来ます。Runtimeに含まれるライブラリーやバージョンはこちらから確認出来ます。 また追加のライブラリーや設定ファイルなどは、Databricksライブラリーサービスやinitスクリプトを利用することでクラスター起動時に追加や設定が可能です。 Databricksでライブラリをインストールする (@taka_yayoi) 自作ライブラリをインストールする - Databricks (by tktsqさん) Databricksで python モジュールをimportするには? Databricksクラスターノード初期化スクリプト (@taka_yayoi) 基本的にはベースのライブラリーには新機能への対応やBug fixなどのアップデ

                                      Databricks Container Servicesを使って Runtime環境をカスタムする - Qiita
                                    • MLflow、AutoMLによるモデルアンサンブルの管理 - Qiita

                                      How to Manage Model Ensembles With MLflow and AutoML - The Databricks Blogの翻訳です。 機械学習において、アンサンブルは単体のモデルよりも優れた予測能力を提供する複数モデルのコレクションを意味します。複数の機械学習アルゴリズムのアウトプットは、平均あるいは投票のプロセスを経て組み合わされ、与えられた入力に対して優れた予測性能を示します。 しかし、アンサンブル学習アプローチにはトレードオフが存在します。それぞれの予測を説明(モデルの解釈)することはさらに困難になります。さらに、このアプローチはエンジニアリングの複雑性を増加させ、アンサンブルモデルをライフサイクルを通じて、どのように管理するのかが明確ではないケースが頻発します。N個の異なるモデルを作成するという事実に加え、以下の様な管理に関する懸念がいくつかあります。

                                        MLflow、AutoMLによるモデルアンサンブルの管理 - Qiita
                                      • マクニカ、機械学習の統合プラットフォーム「データブリックス」の取り扱いを開始 - DX事業 - マクニカ

                                        AI活用におけるデータ保管の課題 多くの企業や組織において、データ活用のためのAIの採用が本格化しています。特にビジネスでの活用に注目が集まる機械学習は、顧客向けの個別最適化やレコメンド機能による売上の拡大(広告やレコメンドの最適化)、需要予測やサプライチェーンの最適化(コスト削減、納期短縮等)、IoTなどのセンサーデータを活用した予知保全や異常検知など様々な場面において大きな効果を上げており、適用範囲が拡大しています。ビジネスにおいてAI活用を実現するためには、分析対象となるデータの効率的な取り込み・分析・可視化が不可欠と言われています。しかしながら、単純なデータ活用のために「データウェアハウス」(処理後のデータを保管するためのデータストレージ)を導入すると、ストレージ内の既に処理されたデータをAI活用の分析対象として活かすことはできません。一方、AI活用のためのプラットフォームである「

                                          マクニカ、機械学習の統合プラットフォーム「データブリックス」の取り扱いを開始 - DX事業 - マクニカ
                                        • MLflowがLinux Foundationプロジェクトに

                                          MLflowがLinux Foundationプロジェクトに初のエンドツーエンドの機械学習プラットフォームは、わずか2年で月間200万ダウンロードと200人以上のコントリビューターによるコミュニティ エンゲージメントを経験 オープンソースを通じた大規模イノベーションの実現に取り組む非営利団体であるLinux Foundationは6月25日 (現地時間)、Databricksが開発したオープンソースの機械学習 (ML) プラットフォームMLflowが新たにLinux Foundationプロジェクトに加わることを発表しました。 2020年6月25日 サンフランシスコ発 ー オープンソースを通じた大規模イノベーションの実現に取り組む非営利団体であるLinux Foundation ( https://www.linuxfoundation.jp/ ) は、Databricksが開発したオープ

                                            MLflowがLinux Foundationプロジェクトに
                                          • 【寄稿】株式会社D2CにおけるAWSを活用した機械学習ハッカソンの取り組み | Amazon Web Services

                                            Amazon Web Services ブログ 【寄稿】株式会社D2CにおけるAWSを活用した機械学習ハッカソンの取り組み この投稿は株式会社D2Cのデータサイエンティスト 阿部 将大 氏に、自社で開催された機械学習ハッカソンの取り組みについて寄稿頂いたものです。 ※ 一部、ハッカソン開催を支援したAWSも執筆しています 1. はじめに 株式会社D2C ドコモ広告事業本部 データソリューション部の阿部と申します。D2Cは広告事業を展開しており、我々の部署はユーザーや広告主、メディアの分析を行い、広告配信システムのロジックやユーザーセグメントなどの開発をしています。 現在多くの企業でデータを使って何が出来るか、という部分を注力している状況かと思いますが、個人的に一番難しいと感じているのは実課題をデータサイエンスで解けるような設定に落とし込む箇所だと思っています。そのためにはデータサイエンスの

                                              【寄稿】株式会社D2CにおけるAWSを活用した機械学習ハッカソンの取り組み | Amazon Web Services
                                            • 大規模特徴量エンジニアリング - Qiita

                                              What Is Feature Engineering and How to Apply/Scale It for Machine Learning - The Databricks Blogの翻訳です。 特徴量エンジニアリングは、機械学習プロセスにおいて最も重要でもっとも時間を必要とするステップの一つです。データサイエンティストとデータアナリストは、モデル改善し、ビジネス上の洞察を得るためのBIレポートを作成するために、異なる特徴量の組み合わせを用いた実験に多大なる時間を費やしてしまいがちです。データサイエンティストがより膨大、かつより複雑なデータセットと格闘することで、以下のような課題をさらに困難なものにします: シンプルかつ一貫性のある特徴量の定義 既存の特徴量の検索、再利用 既存の特徴量を用いたモデル構築 特徴量とモデルのバージョンのトラッキング 特徴量定義のライフサイクル管理 特

                                                大規模特徴量エンジニアリング - Qiita
                                              • データブリックス・ジャパン、NTTデータとの戦略的パートナーシップを締結し国内企業の「データとAIの民主化」を推進

                                                データブリックス・ジャパン、NTTデータとの戦略的パートナーシップを締結し国内企業の「データとAIの民主化」を推進 Databricks Japan株式会社 データブリックスの「レイクハウス・プラットフォーム」を活用し、NTTデータの「デジタルサクセス(R)プログラム」を強化 データレイクとデータウェアハウス双方の利点を生かし、あらゆる組織のデータドリブンなデジタル変革を実現 東京 - 2021年5月13日 - 米Databricks(*1) 社の日本法人であるデータブリックス・ジャパン株式会社(本社:東京都港区、社長:竹内 賢佑、以下:データブリックス)は、「データとAIの民主化」による国内企業のデジタルトランスフォーメーション(DX)のさらなる推進に向けて、株式会社エヌ・ティ・ティ・データ(東京都江東区、代表取締役社長 本間 洋、以下:NTTデータ)と戦略的パートナーシップを締結したこ

                                                  データブリックス・ジャパン、NTTデータとの戦略的パートナーシップを締結し国内企業の「データとAIの民主化」を推進
                                                • tensorflow keras で 学習にかかった時間を保存する - Qiita

                                                  やりたいこと tensorflow keras で各epochにかかった時間を計測して、どこかに(今回はmlflow)へ保存する。 方法 Callbackを自作して対応。 コード import mlflow import time import tensorflow as tf class SaveElapsedTime(tf.keras.callbacks.Callback): def __init__(self): self.epoch_start_time = None self.train_start_time = None def _cal_elapsed_time(self, st): return = time.time() - st def on_train_begin(self, logs=None): self.train_start = time.time() def

                                                    tensorflow keras で 学習にかかった時間を保存する - Qiita
                                                  • 8 Creators and Core Contributors Talk About Their Model Training Libraries From PyTorch Ecosystem | by Jakub Czakon | Towards Data Science

                                                    8 Creators and Core Contributors Talk About Their Model Training Libraries From PyTorch Ecosystem Source: neptune.ai/blogI started using Pytorch to train my models back in early 2018 with 0.3.1 release. I got hooked by the Pythonic feel, ease of use and flexibility. It was just so much easier to do things in Pytorch than in Tensorflow or Theano. But something I missed was the Keras-like high-level

                                                      8 Creators and Core Contributors Talk About Their Model Training Libraries From PyTorch Ecosystem | by Jakub Czakon | Towards Data Science
                                                    • 認証付きサーバーレス機械学習の実験管理ダッシュボードの作った!

                                                      まとめ 機械学習のダッシュボードでVMをずっと立ち上げっぱなしにしたくないので、アクセス時のみインスタンスが立ち上がるGCPのCloud Runというサービスにtensorboardを立ち上げました。 立ち上げただけだと、誰でもアクセスできるので認証用のコンテナを別に立ち上げました。 github actionsを使ってインフラの変更を適用してくれるようにワークフローを組みました。 発端 ウェルモ社内では、機械学習の前処理や実験管理をGCPで行いたいという要望がありました。 AWSにはSageMaker Experimentsなどのサービスがあるので、GCPで類似したサービスがないか調べるとAI Platform pipelinesを見つけました。 ただ、このサービスはGKEを立ち上げる必要があり、今の規模ではコストに見合わないと判断し、できれば使いたくありませんでした。 そんな折に、サー

                                                        認証付きサーバーレス機械学習の実験管理ダッシュボードの作った!
                                                      • 機械学習を向上させる合成データ

                                                        Leverage AI to generate synthetic data for better models, or safer data sharing with data teams Original Blog : Synthetic Data for Better Machine Learning 翻訳: junichi.maruyama この1年で最も話題になった、ChatGPTやDALL-Eのような生成AIの進化を試したことがある人も多いでしょう。これらのツールは、複雑なデータを消費し、より多くのデータを生成することで、驚くほど知的なもののように感じられるのです。これらやその他の新しいアイデア(diffusion models、generative adversarial networks、GAN)は、遊んでみると楽しく、恐ろしいとさえ感じます。 しかし、日常的な機械学習のタ

                                                          機械学習を向上させる合成データ
                                                        • ぎのわん勉強会 #10 夏のLT大会をやりました #ginowan_study - ミントフレーバー緑茶

                                                          今週の沖縄は台風 9 号と 10 号に挟まれてガクブルしそうな感じですね。 ginowan.connpass.com 天気にはまあまあ恵まれていた 7/31、ぎのわん勉強会で LT 大会をやりました。参加者は 22 名、発表者は飛び入り含め 14 名。 ぎのわん勉強会は誰が何を話しても良いということになっているので、プログラミングは初心者という方の発表から、変なコーディングの発表までいろいろあります。今回はとてもバラエティーに飛んだ回だったので軽くレポします。 (タイトルや内容については間違ってる可能性があります。間違いを発見したら教えて下さい) トーク内容 @jewel_x12 「社内チャットをリニューアルした話」 Bolt でリニューアルした話をしました。 @DEKA1066 さん「Edge TPU で遊ぼうぜ!」 github.com Edge TPU で画像分類。Edge TP

                                                            ぎのわん勉強会 #10 夏のLT大会をやりました #ginowan_study - ミントフレーバー緑茶
                                                          • DatabricksでMLflowとLLMを用いたRAGシステムの評価 - Qiita

                                                            こちらのノートブックをウォークスルーします。Retrieval Augumented Generation(RAG)システムの評価にLLMを使うような時代になったとは。 このノートブックでは、MLflowを用いてどのように様々なRAGシステムを評価するのかをデモンストレーションします。LLM-as-a-judgeの手法を用いています。 chromadbをインストールします。あとでエラーに遭遇するので明示的にバージョンを指定します。 %pip install chromadb==0.4.15 dbutils.library.restartPython() import os os.environ["OPENAI_API_KEY"] = dbutils.secrets.get("demo-token-takaaki.yayoi", "openai") # If using Azure Open

                                                              DatabricksでMLflowとLLMを用いたRAGシステムの評価 - Qiita
                                                            • Databricks、Delta、トランスフォーマーを用いた迅速なNLP開発 - Qiita

                                                              自由記述のテキストデータは、構造化データの領域では利用できないアクション可能な洞察を提供することができます。保険会社は、他の方法では知ることができない主訴の特性を理解するために、主訴を調整する担当者のノートを活用するかも知れません。IT部門は、サポートチケットのリクエストを適切な専門チームにルーティングするために、効率的にチケットを解析するかも知れません。自由記述のテキストからこのレベルの価値を生成することは困難となることがありますが、トランスフォーマーモデルと呼ばれる一連のモデルは、企業のデータサイエンス実践者が容易に活用できる強力なツールセットを提供しています。 トランスフォーマーモデルは、これまでの手法よりも効果的かつ効率的にテキストのセマンティックを捕捉するセルフアテンションというニューラルネットワークアーキテクチャを活用しています。また、これらは、モデルの開発者によってmaske

                                                                Databricks、Delta、トランスフォーマーを用いた迅速なNLP開発 - Qiita
                                                              • 機械学習基盤 "Refeed" のアーキテクチャ - GiXo Ltd.

                                                                この記事は GiXo アドベントカレンダー の 7日目の記事です。 昨日は、Business Optimization Div. 紹介でした。 MLOps Div. の廣津です。本記事では、弊社の機械学習基盤である Refeed について、現状のアーキテクチャや技術要素について掘り下げながら紹介していきます。 Refeed の位置づけ Refeed は弊社の社内向けの機械学習ツールとして開発しているプロダクトであり、主なターゲットは、分析コンサルティングを業務としている社内のアナリストやデータサイエンティストを想定しています。MLOps Div. の紹介記事でも書いているとおり、大規模な機械学習による実験を簡単に実行できるような環境を提供することで、社内の分析案件を効率化することを目的としています。 Refeed はあくまで分析コンサルティングを補助するためのツールなので、一般的な事業会社

                                                                  機械学習基盤 "Refeed" のアーキテクチャ - GiXo Ltd.
                                                                • Azure Machine LearningデータセットのMLTableについて学ぶ - JBS Tech Blog

                                                                  Azure Machine Learning上では複数のデータセット形式が用意されています。 mltable形式は表形式でデータを使用することができます。学習・推論を行う際にこの形式を使用することになることがありますが、プログラム上から表形式でデータ登録・更新を行う場合には特殊な設定を行う必要があります。 本記事ではAzure Machine Learning上でCSVデータをmltable形式で登録する方法を示します。 概要 関連記事 データセットを登録する方法 前提 MLTableファイルについて MLTableファイル解説 区切り文字 CSVファイルの文字コード 空白行への対応 その他設定 使用する列を制限する データ型を任意に設定する SDKv2を使用して表形式データを登録する まとめ 概要 Azure Machine LearningでAutoMLを使用して学習するようなケースが

                                                                    Azure Machine LearningデータセットのMLTableについて学ぶ - JBS Tech Blog
                                                                  • Hugging FaceとDeepSpeedによる大規模言語モデルのファインチューニング - Qiita

                                                                    数十億のパラメータを持つ大規模言語モデルの容易な適用とカスタマイズ ChatGPTのセンセーショナルなリリースに続いて、大規模言語モデル(LLM)は現在スポットライトを浴びています。多くの人々は、自身のアプリケーションでこのようなモデルをどのように活用するのかを検討しています。しかし、これは、チャットだけではなく、翻訳、分類、要約などのオープンかつすぐに利用できるタスクのようなトランスフォーマーベースモデルのいくつかの進歩の単なる一部でしかありません。 以前の記事では、人気のHugging Faceトランスフォーマーライブラリを通じた、Databricksにおけるこれらのモデルの基本的な使い方を探索しました。T5やBERTのようにすぐに利用でき、事前学習済みのLLMは、追加のデータやトレーニングなしに、様々な現実世界の問題をうまく解きます。しかし、時には特定タスクでよりうまく動作するように

                                                                      Hugging FaceとDeepSpeedによる大規模言語モデルのファインチューニング - Qiita
                                                                    • DatabricksでMLflowとLLMを用いたRAGシステムの評価(日本語編) - Qiita

                                                                      %pip install chromadb==0.4.15 dbutils.library.restartPython() import os os.environ["OPENAI_API_KEY"] = dbutils.secrets.get("demo-token-takaaki.yayoi", "openai") from langchain.chains import RetrievalQA from langchain.document_loaders import WebBaseLoader from langchain.embeddings.openai import OpenAIEmbeddings from langchain.llms import OpenAI from langchain.text_splitter import CharacterTextSplit

                                                                        DatabricksでMLflowとLLMを用いたRAGシステムの評価(日本語編) - Qiita
                                                                      • LangChainのv0.0.166からv0.0.178までの差分を整理(もくもく会向け)|mah_lab / 西見 公宏

                                                                        本日は第5回目のLangChainもくもく会なので、前回5月11日に実施した回から本日までのLangChainの差分について整理しました。 ドタ参OKですので、ぜひお気軽にご参加くださいー。 v0.0.166 (2023.05.12)新しい機能の追加 ・Azure Cognitive Search Retrieverの追加 ・環境変数用のドキュメントの追加 ・Aleph Alpha APIキー属性の追加 ・HuggingFaceツールのロード ・AnyscaleサービスにLLMsサポートの追加 ・MLflow用コールバックハンドラの追加 ・すべてのパーサーに_typeの追加 既存機能の変更 ・Harrison/new search ・テストワークフローのリファクタリング ・Contributionガイドラインの更新 ・[ドキュメント]Kinstaをデプロイメントプロバイダのリストに追加 ・

                                                                          LangChainのv0.0.166からv0.0.178までの差分を整理(もくもく会向け)|mah_lab / 西見 公宏
                                                                        • クラウドネイティブな統合分析基盤のデータブリックスが日本法人設立

                                                                          米Databricksは2020年9月11日、日本でのビジネスを本格化させるため、日本法人としてデータブリックス・ジャパンを設立することを発表した。カントリーマネージャ(社長)には、セールスフォース・ドットコムでコマースクラウド事業部の執行役員を務めていた竹内賢佑氏が就任。「そこにデータがある限り価値を提供できるよう、“データとAIの民主化”を実現していく。今後1年間で日本法人の社員を2倍にしていきたい」と述べて、日本のデータ分析市場におけるプレゼンス拡大を目指す方針を示した。 「Apache Spark」のクリエーターたちが、UCバークレイの学内プロジェクトを発展させるかたちで創業したDatabricks。現在はAIやデータサイエンスに特化した統合分析基盤をクラウドネイティブで提供するプロバイダとして、グローバルで事業を拡大中 「AI特化/オープンソース/クラウドネイティブ」を徹底する事

                                                                            クラウドネイティブな統合分析基盤のデータブリックスが日本法人設立
                                                                          • Databricksのコントロールプレーンには何が格納されるのか? - Qiita

                                                                            ご質問いただくことがあるのでこちらにメモ。自分の備忘録も兼ねて。 コントロールプレーンとは Databricksのアーキテクチャはコントロールプレーンとデータプレーンから構成されています。 コントロールプレーンには、DatabricksのAWSアカウント上でDatabricksが管理するバックエンドサービスが含まれます。ノートブックコマンドやその他のワークスペース設定はコントロールプレーンに格納され、暗号化されています。 データプレーンはあなたのデータを処理する場所となります。 ほとんどのDatabricksの計算処理における計算リソースは、クラシックデータプレーンと呼ばれるあなたのAWSアカウントに存在します。ノートブック、ジョブ、Databricks SQLウェアハウスのproとクラシックでは、Databricksはこのタイプのデータプレーンを使用します。 Databricks SQL

                                                                              Databricksのコントロールプレーンには何が格納されるのか? - Qiita
                                                                            • MLflow を使用して ML の実験とモデルを追跡する - Azure Machine Learning

                                                                              この記事では、MLflow を使用して Azure Machine Learning ワークスペースで実験と実行を追跡する方法について説明します。 追跡 は、実行する実験に関する関連情報を保存するプロセスです。 保存された情報 (メタデータ) はプロジェクトによって異なり、次の情報を含めることができます。 コード 環境の詳細 (OS バージョン、Python パッケージなど) 入力データ パラメーターの構成 モデル 評価メトリック 評価の視覚化 (混同行列、重要度プロットなど) 評価結果 (一部の評価予測を含む) Azure Machine Learning でジョブを操作している場合、Azure Machine Learning は、コード、環境、入出力データなど、実験に関する情報を自動的に追跡します。 ただし、モデル、パラメーター、メトリックなどの他のものは、特定のシナリオに固有である

                                                                                MLflow を使用して ML の実験とモデルを追跡する - Azure Machine Learning
                                                                              • PythonによるDatabricks MLflowクイックスタートガイド - Qiita

                                                                                Databricksクイックスタートガイドのコンテンツです。 Quickstart Python | Databricks on AWS [2021/3/30時点]の翻訳です。 MLflowは、機械学習のエンドツーエンドのライフサイクルを管理するためのオープンソースプラットフォームです。MLflowはメトリクス(モデルのロスなど)、パラメーター(学習率など)、学習モデルをロギングするためのシンプルなAPIを提供し、トレーニング結果の分析、モデルのデプロイを容易にします。 本記事では以下を説明します。 MLflowのインストール ランの自動ロギング 結果の表示 追加のメトリクス、パラメーター、モデルの追跡 サンプルノートブック 追加情報 MLflowのインストール Databricks機械学習ランタイムを使用しているのであれば、既にMLflowはインストールされています。そうでない場合には、

                                                                                  PythonによるDatabricks MLflowクイックスタートガイド - Qiita
                                                                                • DVCでデータ分析実務を想定したKaggle環境を作ろう! - Qiita

                                                                                  この記事はKaggle Advent Calender 12/04の記事として書かれています。 Kaggleはデータ分析者の登竜門としても使われことが多いかと思います。実際自分もその一人でした。 しかし、実際にデータ分析実務をして気づきます「あれ実務、Kaggleと全然ちがくね」。 何が違うかというと、分析ゴリゴリというよりもデータ生成周りが賢くなること、それが機動的に行えることが大事なのです。 今回はこのことを意識した分析環境づくりを僕おすすめのDVCで作って見たいと思います。データ分析用のツールは他にKedroやMLFlowなどのツールがありますが、Kedroは複雑で覚えること多いですし、MLFlowはPythonのコード修正が必要だったり、そもそも実験の管理自体はハイパラチューニングとしてPython内部でやれる(どっちかというと学習器のつなげ方などのコードレベルでの変化をトラッキン

                                                                                    DVCでデータ分析実務を想定したKaggle環境を作ろう! - Qiita