並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 1703件

新着順 人気順

Pandasの検索結果201 - 240 件 / 1703件

  • 機械学習のデータドリフト検知を自動化する方法|Dentsu Digital Tech Blog

    電通デジタルでデータサイエンティストを務める吉田です。 本記事では、機械学習においてモデル学習時点でのデータと推論時点でのデータが経時的に乖離を起こしていく、いわゆるデータドリフトの検知を自動化するために構築したワークフローについてご紹介いたします。 データドリフトによる機械学習モデルの劣化とは機械学習モデルを実運用していく際に課題になる事象の1つとして、データドリフトの問題があります。 一般的に、機械学習ではいくつかの特徴量Xに対する目的変数Yとの隠れた関係を定式化します。XとYの関係は時間が経つにつれて変化していくことがしばしばあり、これに伴って一度作成したモデルの推論精度も低下していきます。 簡単な例として、あるWebサービスにおいてサイト上の行動ログを元にユーザーごとにコンバージョンの発生を予測する機械学習モデルを作成したとします。このモデルは、「平均的に10分以上閲覧しているユー

      機械学習のデータドリフト検知を自動化する方法|Dentsu Digital Tech Blog
    • flairを使って最速でNLPのベースラインモデルを作る - moriyamaのエンジニアリング備忘録

      自然言語処理に限らず、機械学習関連のプロジェクトではスタート時は、なるべく複雑なコーディングをせずにシンプルなベースラインモデルを低コストで作成し、そこからデータの傾向やタスクの複雑さを把握することが重要です。 ところが自然言語処理では前処理のコストが高く、最低限でも単語分割、ベクトル化、深層学習を用いる場合は事前学習された埋め込みベクトルを準備する必要があります。その後は他のタスクと同様にモデルの保存方法や、予測のパイプラインで悩みポイントを抱えることが多いと思います。 最近はAutoMLを始めとした機械学習の自動化が進歩し、初手から高性能なモデルをブラウザ上で数クリックで作成できますが、中身がブラックボックスである故に前述のデータの傾向やタスクの複雑さを把握することを目的とした場合には適切とは言えない側面があります。 本記事では自然言語処理を対象にモデルの中身が参照可能でかつ少ないコー

        flairを使って最速でNLPのベースラインモデルを作る - moriyamaのエンジニアリング備忘録
      • OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog

        地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を経て、ローカルLLMを中心としたAIソリューションを主軸に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、性的違和の治療に一歩足を踏み出しています。 【IIJ 2022 TECHアドベントカレンダー 12/8(木)の記事です】 Whisperの追加学習に挑む2022年の冬 2022年アドベントカレンダー企画だそうです。 いかがお過ごしでしょうか。 私はもう興味を引くものに没頭するしか楽しみがないもんで、PCに向かってぼんやり面白いネタはないかなーと探す日々です。 最近はすっかりディープラーニングにズブズブで、とうとう数式かくのが面倒なあまり手書き入力のためのペンタブレットを買いました

          OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog
        • ポケモンを題材に因果推論を実践してみる - kanayamaのブログ

          問題設定 有意差検定 交絡因子の存在 線形重回帰によるモデル化 回帰係数の推定 回帰係数の仮説検定 補足など 残差の分布について 他の交絡因子について データの生成方法について 参考文献 @tkanayama_です。最近「計量経済学*1」と「効果検証入門 *2」を読んだので、せっかくなので実際に手を動かすことによって理解の整理をしたいと思いました。 www.yuhikaku.co.jp gihyo.jp そこで今回は、人工データを用いて「ボールの性能と捕獲確率」の関係性を効果検証してみました(人工データの生成方法は記事の末尾に記述しました)。 問題設定 今は昔、モンスターボールしか存在せず、スーパーボールが世の中で出回り始めたばかりの頃、オーキド博士が「スーパーボールは本当にモンスターボールより捕まえやすいのか?」という仮説を検証しようとしています。 そこでオーキド博士は世界中のトレーナー

            ポケモンを題材に因果推論を実践してみる - kanayamaのブログ
          • 機械学習初心者がKaggle Masterになって昇進した話 - Qiita

            この記事はKDDI Engineer&Designer Advent Calendar 2022の16日目の記事です。 はじめに はじめまして、KDDI株式会社の@kazuki_yです。 KDDIではデータサイエンティストのエキスパートとして、お客様向けサービスのデータ分析支援やAI・データ利活用の全社方針策定などの業務を行っております。 コンペ経歴は約2年半でKaggle MasterとSIGNATE Masterの称号を持っています。 本記事では、機械学習初心者がKaggleにどう取り組んで、どのようにKaggle Masterになったのか、Kaggleに取り組んで良かった点を振り返っていきたいと思います。 世の中では度々Kaggleは役に立たない論が出てきますが、私としては昇進もして、賞金も獲得して、技術力も得て、更には自信もついたので超役に立つと思います!本記事が参加への一助になれ

              機械学習初心者がKaggle Masterになって昇進した話 - Qiita
            • 【Python実践編】ビットコインのアービトラージ(裁定取引)コード例 - Qiita

              [8/27追記] 投資関連のPythonプラグラム等を自由にシェアできるサービスのベータ版を作成しました。 興味がある方は覗いてみてください↓ inbaseシェア|EA・bot・プログラムのシェアサービス この投稿では、Python3を使って仮想通貨の裁定取引を行います。 今回は、コインチェックとGMOコインの価格差を利用してサヤ抜きを行うことを目指します。 以前自分のブログで、 【Pythonデモコード】仮想通貨のアービトラージ(裁定取引)botの作り方 という記事を公開したのですが、こちらはあくまでもシュミレーションで実際に売買が作動することはありませんでした。 今回は実際に取引所のAPIを操作するところまでコートに組み込んでみました。 なおコインチェックと GMO コインの口座開設から API キーの発行までは下の記事で公開している手順と全く同じです。 一応画像付きで解説しているので

                【Python実践編】ビットコインのアービトラージ(裁定取引)コード例 - Qiita
              • 時系列分析をお手軽に!機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog

                こんにちは! 以前にDartsという時系列分析に特化したpythonライブラリを紹介しました。 前編はこちら 今回は実際にDartsを動かしていきましょう。 Darts内にもデータセットがありますが、公式でも触れられているのであえて、外部のデータを参照してみましょう。導入編でも触れたアイスクリームの生産量の変化を推測したいと思います。 アイスクリームのデータセットはこちら 上記リンクの上部右側Downloadからcsvをダウンロードしてください。 Dartsのインストールは以下の1コマンドです。Windowsではデフォルトのコマンドプロンプトでうまくインストールが終了しなかったので、WSL環境などを推奨します。 $ pip install darts ARIMAで学習してみる バックテストでモデルの選定を行う RNNで共変量を扱ってみる まとめ ARIMAで学習してみる まずは、導入編で最

                  時系列分析をお手軽に!機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog
                • AutoTrainでテキスト分類 - Qiita

                  AutoTrain🚂🚂🚂とは ノーコードでテキスト分類や要約などがstate-of-the-artできるサービスです。AutoNLPだとググラビリティが低かったので名称が変わったのだと思います。 データ準備 livedoorニュースコーパスのタイトルと本文を結合して、9つのカテゴリを分類しようと思います。 !wget https://www.rondhuit.com/download/ldcc-20140209.tar.gz !tar xf ldcc-20140209.tar.gz import glob import pandas as pd data = [] for path in glob.glob('text/**/*-*.txt'): with open(path) as f: data.append({ 'url': next(f).strip(), 'datetime

                    AutoTrainでテキスト分類 - Qiita
                  • BigQueryとGemini 1.5 Proによるラーメン店クチコミの定量分析 - G-gen Tech Blog

                    G-gen の神谷です。本記事では、Google Maps API から取得したラーメン店のクチコミデータに対する定量分析手法をご紹介します。 従来の BigQuery による感情分析の有用性を踏まえつつ、Gemini 1.5 Pro の導入によって可能となった、より柔軟なデータの構造化や特定タスクの実行方法を解説します。 分析の背景と目的 可視化イメージ 分析の流れとアーキテクチャ クチコミデータ取得と BigQuery への保存 API キーの取得 データ取得のサンプルコード クチコミ数の制限と緩和策 料金 感情分析とデータパイプライン Dataform の利点 Dataform を使った感情分析のパイプライン定義例 感情分析の結果解釈 ML.GENERATE_TEXT(Gemini 1.5 Pro) 関数を使用した高度な分析 ユースケースに応じた独自の評価観点によるクチコミの定量化

                      BigQueryとGemini 1.5 Proによるラーメン店クチコミの定量分析 - G-gen Tech Blog
                    • 最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk

                      今回は、最新の Google Gemma モデルを Apple Silicon に最適化されたライブラリ MLX を使ってローカルで実行したり、ファインチューニングしてみましたのでその手順を紹介します。 MLX 関連の情報はドキュメンテーションが分かりづらいものも多かったので色々試した経緯も共有しながら少しでも何かの参考になれば幸いです。 実際に使った Jupyter Notebook を Gist にアップロードしていますので、そちらも参考にしてください。 →Google Gemma モデルを MLX を使ってローカルでファインチューニング 事前準備必要なライブラリをインストールします。 また Apple Silicon 搭載の Mac が必要です。今回は M3 Max 128GB 搭載の MacBook Pro で実行しました。 !pip install -U mlx mlx_lm t

                        最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk
                      • 2日目:Python 3.10新機能パターンマッチの神髄がわかる | gihyo.jp

                        先日公開した「PyCon JP 2021」1日目のカンファレンスレポートはいかがでしたでしょうか? 本レポートでは引き続き、2日目の様子をご紹介します。 PyCon JPは日本国内外のPythonユーザーが一堂に会し、互いに交流を深め、知識を分け合い、新たな可能性を見つけられる場所として毎年開催される国際カンファレンスです。 PyCon JP 2021は2021年10月15日~16日のカンファレンスと2日間の会期で開催されました。 今回は16日に行われたカンファレンスの中から、注目セッションと感想について運営スタッフがレポートします。 Day2 Keynote:A Perfect match ―Mr. Brandt Bucher (nikkie) 2021年10月、PyCon JP 2021の少し前にリリースされたPython3.10。その目玉機能といえば、Structural Patte

                          2日目:Python 3.10新機能パターンマッチの神髄がわかる | gihyo.jp
                        • Rust製のPythonパッケージ管理ツール「uv」を使ってみよう | gihyo.jp

                          それぞれのツールに関する詳しい説明は本記事では行いません。詳しく知りたい方は、ツール名のリンクから公式ドキュメント等を参照してみてください。 上記の表に挙げたツール群にはそれぞれに特徴があります。pyenv、venv、pipのように単一機能に特化したものから、Condaのようにデータサイエンスや機械学習プロジェクトで使用される複雑なパッケージの依存関係や環境管理をサポートするツール、PoetryのようにPythonパッケージインデックス(PyPI)への公開をサポートするツールなど、開発シーンに合わせて選択することができます。 uvとは uvは2024年の2月中旬に発表されたばかりの新しいパッケージ管理ツールです。Rustで書かれており、ここ最近で飛躍的に使用されるようになったRust製のPythonリンター&フォーマッター「Ruff」を開発しているAstral社によって提供されています[1

                            Rust製のPythonパッケージ管理ツール「uv」を使ってみよう | gihyo.jp
                          • プログラミングする時に知っておきたいPythonライブラリ13選

                            Pythonライブラリとは Pythonのライブラリとは、複数のパッケージをまとめたものです。パッケージは複数のモジュールをまとめたもので、モジュールは複数の関数をまとめたものです。 つまり、 のような関係性があります。 ライブラリには、標準ライブラリと外部ライブラリがあります。標準ライブラリは、Pythonをインストールした際に標準でインストールされているライブラリです。そのため、自分でインストールをする必要はありません。 対して外部ライブラリは、標準ではインストールされておらず自分でインストールが必要なライブラリです。 ではここからは、各ライブラリの紹介しましょう。 まずはこれから!標準ライブラリ3選 標準ライブラリでおさえておきたいライブラリは3つです。 pip Pythonで書かれたライブラリをインストールや管理をするためのライブラリがpip。ライブラリをインストールする場合、pi

                              プログラミングする時に知っておきたいPythonライブラリ13選
                            • Pandas で時系列データをグループ化して集計できる「Grouper」 - kakakakakku blog

                              Pandas で groupby() 関数を使うと,データセットをグループ化して集計できる.さらに Grouper オブジェクトと組み合わせると,より高機能なグループ化を実現できる.今回は groupby() 関数と Grouper オブジェクトを組み合わせて「時系列データの集計」を試す.最後に関連する resample() 関数も試す. pandas.DataFrame.groupby — pandas 1.2.4 documentation pandas.Grouper — pandas 1.2.4 documentation データセット 🪢 今回使うサンプルデータセットを準備する.まず,Pandas の date_range() 関数を使って 2020/1/1 ~ 2020/12/31 の範囲で1年間の DatetimeIndex を作る.そして DatetimeIndex をイ

                                Pandas で時系列データをグループ化して集計できる「Grouper」 - kakakakakku blog
                              • Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog

                                ABEJAでデータサイエンティストをしている服部です。 2022年10月28, 29日にバルセロナにてKaggle Days World Championship Finalというデータサイエンスに関するイベント兼コンペティションが開催され、そこに参加しました。そして幸いなことに私の所属するチームが優勝することができました!! 本記事では今回のイベントそのものと、優勝に至るまでのコンペ上での過程や工夫点などについてご紹介しようと思います。 Kaggle Days World Championship Finalとは 1日目(ワークショップやプレゼンテーション等) Opening remarks by LogicAI and Kaggle HP introduction - Key note Kaggle Team - Ask Me Anything Winners team present

                                  Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog
                                • なぜあなたのA/Bテストはうまくいくのか?A/Bテストの分析で注意すること | CyberAgent Developers Blog

                                  概要 同じ介入を比較するA/Aテストで統計的に有意な差が出てしまうケースがある その原因は、A/Bテストの指標の設計に失敗していることかもしれない この問題の対処法としてユーザベースCTR、デルタメソッド、クラスターロバスト標準誤差を紹介する これらの手法は実務で運用する上では一長一短 はじめに AI事業本部Dynalystの伊藤、小売セクターの藤田(@6km6km)です。 DynalystはReal Time Biddingと呼ばれる広告オークションにおいて広告枠の買付を行うプラットフォーム(DSP: Demand Side Platform)です。DSPでは、ユーザに広告を表示する際に複数あるクリエイティブの候補からひとつクリエイティブを選ぶ必要があり、その選択ロジックにバンディットアルゴリズムを用いています。(参考リンク1, 2) 以下では、バンディットアルゴリズムのA/Bテストをす

                                    なぜあなたのA/Bテストはうまくいくのか?A/Bテストの分析で注意すること | CyberAgent Developers Blog
                                  • ランサーズのデータ活用を手伝っている話 - 下町柚子黄昏記 by @yuzutas0

                                    ランサーズ Advent Calendar 2020 24日目の記事です。 昨日は まなみん さんの 「思考発話法でUXリサーチをしてみた話」 でした。 概要 社員ではなく、1人のフリーランス人材(ランサー)として、ランサーズ社を手伝っています。 「こんなことをやってきたよ!」という話を、書ける範囲で書きます。 CRM(顧客管理)x データ活用 の案件を主に担当しています。 注意 本稿は筆者個人の見解に基づく内容であり、関係組織を代表するものではありません。 不適切・考慮不足だと感じさせてしまう点があれば、それは筆者個人の責任によるものです。 どうぞ筆者個人宛てにご指摘のコメントをいただけますと幸いです。 もくじ 概要 注意 もくじ きっかけ 案件1:顧客セグメント可視化 案件2:社内システム改善 案件3:オープンデータ活用 その他:データプラットフォームのメンテナンス性向上 意識している

                                      ランサーズのデータ活用を手伝っている話 - 下町柚子黄昏記 by @yuzutas0
                                    • 数学に強いエンジニアむけの機械学習勉強法

                                      今年の3月から機械学習の勉強を始めて9ヶ月たったのでその振り返りと今後機械学習に入門する人の参考になればという記事です。 巷の記事だと「数学何もわからない人向けの機械学習~」みたいなものが多いので「数学チョットワカル人向け」に勉強方法をまとめてみようと思いました。 前提として筆者は大学で数学を専攻しており、社会人になってからはプログラミングを生業としております。 # 前提知識のおさらいいきなり機械学習入門~のような書籍に入る前に、基礎知識としてこの辺を抑えておくと良いと思います。 ## 線形代数:大学1年レベル機械学習の説明はほとんど行列の計算として表現されますので大前提として。手を動かして計算問題を解くのもおすすめです。 プログラミングのための線形代数 https://www.amazon.co.jp/dp/4274065782 ## 基礎統計(頻度主義):大学1年レベル正規分布や指数分

                                      • 【日本株対応】Pythonで株価のローソク足データを取得する方法まとめ【CSV、ライブラリ、スクレイピング】

                                        方法①はシンプルでは手軽に利用できますが、データ読み込み後のデータ整形作業が必要になります。 また、複数の銘柄の株価データを集める際には手間がかかります。 1つの銘柄で、なおかつ1度限りの分析であれば有効と思いますが、繰り返し分析したり、複数銘柄を扱いたい場合には不便です。 データ取得の手順を解説ここからは、Investing.comから株価データをCSV形式でダウンロードして、Pythonで読み込み、データ整形するまでの手順を解説します。 *無料登録が必要です。株価データを取得するには無料の会員登録が必要になります。 必要なのはこれだけです。 お金もかからないので余裕ですね。 銘柄を検索してCSVファイルをダウンロード会員登録を済ませてログインすると株価データをCSV形式でダウンロードできるようになります。 データは日足、週足、月足から選択することができます。 Investing.com

                                          【日本株対応】Pythonで株価のローソク足データを取得する方法まとめ【CSV、ライブラリ、スクレイピング】
                                        • MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog

                                          こんにちは!nakamura(@naka957)です。今回はMLflowをご紹介します。 読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。 今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。 本記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。 では、早速始めていきます。 実験記録の重要性 MLflowとは MLflowのインストール データセット準備 機械学習モデルの用意 M

                                            MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog
                                          • 0から作るLLMーLlama

                                            本記事の対象読者: LLM(大規模言語モデル)の複雑な構造や階層を理解しているが、それをどのように組み合わせるかが分からない人 LlaMaモデルに関するすべてのオペレータとアーキテクチャ(RMSNorm、ROPE、SwiGLUの実装を含む)を一行ずつ分解します。 本記事ではhuggingfaceのライブラリを使用しておらず、すべてpytorchで実装しています。また、事前学習済みモデルも使用していません。 スタート地点は『源氏物語』の原文であり、ゴール地点はあなた自身がトレーニングした大規模モデルです。 pytorchを準備してください。GPUがなくても大丈夫です。重要なのはLLMの原理を学ぶことであり、この文章を読んだだけで新しい大規模モデルのアーキテクチャを作れるわけではありません。 本記事では、できる限り平易な言葉を使って原理を解説していきます。 序文 本記事のすべてのコードはGoo

                                              0から作るLLMーLlama
                                            • 序盤に試すテーブルデータの特徴量エンジニアリング

                                              この記事はKaggle Advent Calendar 2021の4日目の記事です. はじめに この記事ではテーブルデータコンペティションにおいて,主に数値データ,カテゴリデータをもとに特徴量を作成する方法をまとめました.発展的な内容というより,初めてコンペに参加する方でも使える汎用的な特徴量エンジニアリングを紹介します. 特徴量エンジニアリング!...そのまえに モデルについて 特徴量エンジニアリングはモデルによって処理が変わることがあります. 例えば勾配ブースティング決定木(GBDT)といった決定木はスケーリングする必要がなく,またLightGBMなどは欠損値をそのまま扱うことができます.一方でニューラルネットワーク(NN)や線形回帰モデルはスケーリングおよび欠損値補完をする必要があります. このこと以外にも,決定木は各特徴量間で差や比率を表現することが苦手であるために明示的に作る必要

                                                序盤に試すテーブルデータの特徴量エンジニアリング
                                              • AWS による Jupyter の 生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 | Amazon Web Services

                                                Amazon Web Services ブログ AWS による Jupyter の 生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 Project Jupyter は複数のステークホルダーで運営されるオープンソースプロジェクトであり、データサイエンス、機械学習、計算科学のためのアプリケーションだけでなく公開標準やツールも開発しています。なかでも、2011 年にリリースされた Jupyter Notebook は学術、研究、産業のあらゆる分野で世界で数百万人のユーザーが使用するデファクトスタンダードのツールとなりました。Jupyter ではユーザーがコードやデータをインタラクティブに実行でき、完全に再現可能な作業記録として作成、共有することが可能です。 AWS はデータサイエンティストや機械学習エンジニアにとって欠かせない Jupyter を開発する Proj

                                                  AWS による Jupyter の 生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 | Amazon Web Services
                                                • 検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ

                                                  エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は社内でPyTerrierを採用して文書検索BatchをPythonで実装したので、PyTerrierの紹介とPyTerrierで日本語検索を実装する方法を紹介します(日本語でPyTerrierを扱う記事は多分初?)。 PyTerrierとは 弊社でのPyTerrier利用 PyTerrierで日本語検索 Phrase Queryの注意点 まとめ We're hiring !!! PyTerrierとは Terrierのロゴ PyTerrierは、Pythonでの情報検索実験のためのプラットフォームです。 JavaベースのTerrierを内部的に使用して、インデックス作成と検索操作を行うことができます。基本的なQuery RewritingやBM

                                                    検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ
                                                  • 安定期に入っている「機械学習OSS」だからこそ貢献しやすい 実績やキャリアにつなげるために大切な、知識や実装の可視化

                                                    「つよいエンジニア」になるためのオープンソースの使い方をはじめ、OSSへの貢献を推奨している企業のエンジニア文化や、コミッター視点からみたOSSの未来について話す「TECH HILLS~まつもとゆきひろ氏と考える つよいエンジニアになるためのオープンソースの使い方~」。ここでキャディ株式会社の河合氏が登壇。機械学習OSSの現状と未来について話します。 自己紹介 河合俊典氏:「機械学習OSSの変遷と未来」と題して発表します。「ばんくし」として活動しています。今、キャディという小さい製造業向けのITベンチャーで機械学習とかデータサイエンスをやるチームを立ち上げて、そこでリーダーをやっています。 前職はM3という医療ITの会社ですが、そこのフェローをやらせてもらっています。私は“ギルド”と呼んでいますが、趣味でそういった開発が好きな人で集まって開発をするチームを組んでいて、そこの主宰もやっていま

                                                      安定期に入っている「機械学習OSS」だからこそ貢献しやすい 実績やキャリアにつなげるために大切な、知識や実装の可視化
                                                    • お手軽で欲しい機能が揃っている実験管理ツールGuild AIの紹介 - kuromt blog

                                                      機械学習の実験管理ツールにGuild AIというものがあります。特に大きな特徴はコード追加なしで実験管理ができるというものです。 試しに触ってみたところ、まさにコード追加なしで簡単に試せる、ちょっとした条件を変えた実行も簡単、結果の可視化はシンプルなCLIもリッチなGUIもどちらも用意されている、ローカルだけではなくS3にもデータを保存できる、しかもWebサーバを別に立てる必要がなく手元の環境で完結します。 ただ、Guild AIは一部の方にSNS上で言及されているものの日本語で書かれたドキュメントやブログは見つかりませんでした。良いツールが埋もれるのはもったいないと思いGuild AIの記事を書くことにしました。 この記事の前半では実行条件を変えながら実行して結果を可視化するまでの流れを紹介します。Guild AIのお手軽さをお伝えすることを意識しました。 後半はある程度実務での状況を想

                                                        お手軽で欲しい機能が揃っている実験管理ツールGuild AIの紹介 - kuromt blog
                                                      • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章 スクレイピングによる公共データベース(PDB)からの機械学習データを収集~ - LabCode

                                                        本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第2章で、スクレイピングによる公共データベース(PDB)からの機械学習の学習データを収集となります。webからの情報収集であるスクレイピングの基礎ができるようになります。ぜひ、トライしてみてください!第1章はこちら。 AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが

                                                        • AWS Lambda の Python で pandas や requests を使うのに、Lambda Layer を自作する必要はない - AWS SDK for pandas を活用しよう - Qiita

                                                          AWS Lambda の Python で pandas や requests を使うのに、Lambda Layer を自作する必要はない - AWS SDK for pandas を活用しようAWSpandaslambdaLambda-Layers 概要 AWS Lambda では、マネージドに提供されている AWS レイヤーがあり、自分でビルドすることなく簡単に利用できる AWS SDK for pandas のマネージドな Lambda Leyer には、 pandas / numpy といったデータ処理系のモジュールや aiohttp / requests といった HTTP リクエスト用モジュールなど、様々なモジュールがバンドルされている (一覧は後述) AWS Lambda でこれらのモジュールを使用する方法として、多くの記事では Lambda Layer を自作する方法や第三

                                                            AWS Lambda の Python で pandas や requests を使うのに、Lambda Layer を自作する必要はない - AWS SDK for pandas を活用しよう - Qiita
                                                          • SHAPで因果関係を説明できる? - Qiita

                                                            はじめに 予測モデル(機械学習モデル)を解釈するのに有用なSHAPを用いて因果関係を説明することができるか、についてPythonによるシミュレーションを交えてまとめました。内容に誤り等ございましたら、ご指摘いただけますと幸いです。 結論 基本的に、SHAPで因果関係は説明できません。これは、SHAPが予測モデルの因果ではなく相関を明らかにするものであるからです。 そこで今回は、予測モデルをSHAPで解釈する上でありがちなミスリーディングや、それに関連する因果効果を推定するためのアプローチについて記載しています。 そもそもSHAPとは SHAPとはSHapley Additive exPlanationsの略で、協力ゲーム理論のShapley Valueを機械学習に応用した手法です。「その予測モデルがなぜ、その予測値を算出しているか」を解釈するためのツールとしてオープンソースのライブラリが開

                                                              SHAPで因果関係を説明できる? - Qiita
                                                            • Numeraiで学ぶ金融時系列モデル評価指標

                                                              雨にも負けず 風にも負けず 冬にも 夏の過熱相場にも負けぬ ロバストな予測を持ち 強欲はなく 決して悲観せず いつも静かに利益を重ねている ... そう言うモデルを 私は作りたい by ??? (20??年) 前書き こんにちは。日本爆損防止委員会です(さっき考えた)。 さて、皆さんは今日も今日とて爆損を垂れ流していらっしゃると思います。その原因は様々あろうかと思いますが、そもそも「原因がわからない」という方がほとんどではないでしょうか。 爆損しているのに原因がわからない、というのは、言うまでもありませんが大変なストレスです。楽しい思いをしようと小さな島に遊びに行ったら殺人事件が起きて誰が犯人かわからないけど容疑者の人たちと一緒に暮らさないといけないイメージです(?)。 どうせ爆損するなら、「あーワイのモデルはこういう市況に弱いことが検証でもわかってて、今はその市況だから爆損なんやー」と原

                                                                Numeraiで学ぶ金融時系列モデル評価指標
                                                              • NumPy Illustrated: The Visual Guide to Numpy

                                                                Image credit: AuthorNumPy is a fundamental library that most of the widely used Python data processing libraries are built upon (pandas, OpenCV), inspired by (PyTorch), or can efficiently share data with (TensorFlow, Keras, etc). Understanding how NumPy works gives a boost to your skills in those libraries as well. It is also possible to run NumPy code with no or minimal changes on GPU¹. The centr

                                                                  NumPy Illustrated: The Visual Guide to Numpy
                                                                • Feature Storeについてふんわり理解する - Re:ゼロから始めるML生活

                                                                  最近こちらのサイトを参考にfeature storeに関して勉強してみたので、今回はそのメモです。 www.featurestore.org Why:なぜ必要か? 機械学習の実運用時の困りごと 実験環境と本番環境を揃えたい 過去のある時点の状況を再現したい 特徴量に関する車輪の再発明をなくしたい 歴史的経緯 What:Feature Storeとはなにものか? 求められる要件 共有性 学習系と推論系の一貫性 Feature Engineeringと透明性 バージョン管理と再現性 ガバナンスとアクセスコントロール バッチとオンライン処理 How:どうやって実現する? 標準的なFeature Storeの構成 Serving Storage Transformation Monitoring Registory その他、主なプロダクト群 OSS Feast Hopsworks Rasgo マネ

                                                                    Feature Storeについてふんわり理解する - Re:ゼロから始めるML生活
                                                                  • 【Python】データ可視化ライブラリ Altair を使いこなす - Qiita

                                                                    更新のお知らせ 好評につきまして Altair のハンズオン資料を大幅アップデートしました。ぜひこちらもご活用ください。 概要 本稿ではグラフ可視化ライブラリ Altair を用いて、interactive な図を作成する方法を紹介する。前稿では Kaggle のデータセットを用いたが、今回は乱数を用いてクロスセクションデータ(ある一点のデータ)と時系列データをそれぞれ生成し、それぞれに適した可視化を説明する。 ハンズオン (2022年11月26日追記) 本稿のipython notebookを公開しました(WEB形式, ソースコード)。よろしければご活用ください。 Altair の長所 データ可視化記述フォーマット VEGA に準拠したデザイン streamlit などでサーバーを立てなくても interactive な図を html や vega で出力できる。(interactive

                                                                      【Python】データ可視化ライブラリ Altair を使いこなす - Qiita
                                                                    • 【Python】データ可視化ライブラリAltairハンズオン【基礎編】 - Qiita

                                                                      Altair のようにインタラクティブなグラフを作成できる Python の可視化ライブラリとして、他には Bokeh や Plotly などがあります。それぞれ作成可能なグラフの種類やデザインが異なるため、好みに合わせて使い分けるとよいと思います。個人的な意見としては、三次元モデルの可視化が得意なのは Plotly で、二次元モデルの可視化が得意なのは Altair です。 データ作成 今回は架空の学校で行われた期末試験の得点をデモデータとして作成します。この学校には学生が 30 人在籍し、普通、特進、理数の 3 コースが存在します。期末試験の科目は国語、数学、理科、社会、英語で各教科 100 点満点とします。 import random import pandas as pd # パラメータ N = 30 # 学生の人数 mu, sigma = 60, 18 # 学力の平均と標準偏差

                                                                        【Python】データ可視化ライブラリAltairハンズオン【基礎編】 - Qiita
                                                                      • 仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ - Lean Baseball

                                                                        お仕事や, (個人的には)趣味のデータ分析・開発などでpandasをよく使う人です. pandasはPythonでデータサイエンスやデータ分析(解析)をやってると必ずと言っていいほどよく使うライブラリだと思います. お仕事で同僚やインターンが書いたnotebookをよく読む(レビューする)のですが, 煩雑なことやってるけどこれ一行で書けるやで 最初からデータを整理するとそんな面倒くさいことしなくても大丈夫やで ...といったコメントを返す機会が増えてきました. これらは当人たちにフィードバックしているのですが, このフィードバックの内容が案外重要な気がしてきたのでブログに書いてみることにしました. 読んだ方の理解・生産性の向上および, 「つまらない仕事が334倍楽になる」ような感じにつながると嬉しいです🙏 TL;DR pandasのread関数にはとりあえずURLを渡しておけ &使うカラ

                                                                          仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ - Lean Baseball
                                                                        • はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場

                                                                          今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transformers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。 (本記事公開後に公開されたデータセットで再検証しています。最新情報は 第18回 をご覧ください。 2021.12.21 追記) 1. はじめに 本記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日本語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ

                                                                            はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場
                                                                          • LightGBMを使って競馬予想で回収率100%を超えるコードを書いた(その2) - Qiita

                                                                            つまりモデルでは穴馬の当選も予測できているが、卍氏の賭け方では予算の金額によって賭けられる最大オッズが下がってしまい、穴馬に賭けることができなくなります。その影響によりオッズの低い人気馬しか賭けることができず、回収率が下がる要因ともなっているようです。しかしその反対に荒れなかったレースについては卍氏の賭け方のように傾斜をつける方が回収率を上げる要因になっています。 なお今考えている予算が10万円の場合、複勝のようにオッズが低い場合(せいぜい5倍前後で)はあまり影響しません。しかし単勝ではオッズが約10倍以上の場合は、最小賭け金が100円のため、特に影響が出るようです。 このあたりは賭け金の計算式の定数(今の場合0.01)と自身の予算、モデルの予測値との検討が必要となります。 コードの公開 noteにて公開します。またコードの詳細な説明は公開するnote及びnotebook内のコメントにて記

                                                                              LightGBMを使って競馬予想で回収率100%を超えるコードを書いた(その2) - Qiita
                                                                            • サイエンティストとエンジニアでつくるML ワークフロー - スタディサプリ Product Team Blog

                                                                              こんにちは、データエンジニアの@masaki925 です。 この記事はMLOps Advent Calendar 2020 の19 日目の記事です。 MLOps には、その成熟度に応じて3つのレベルがあると言われています。 MLOps レベル 0: 手動プロセス MLOps レベル 1: ML パイプラインの自動化 MLOps レベル 2: CI / CD パイプラインの自動化 私の所属するチームでは現在ここのレベルを上げるべく取り組んでいますが、その中でデータサイエンティスト(以下、DS) とデータエンジニア(以下、Dev) の協業って難しいよな〜と思う事例があったので紹介したいと思います。 想定読者は以下のような方です。 これからMLOps を始めようとしている方 既存プロジェクトがあり、ML 等を使ってエンハンスしていきたいと考えている方 異文化協業に興味がある方 ML ワークフロー

                                                                                サイエンティストとエンジニアでつくるML ワークフロー - スタディサプリ Product Team Blog
                                                                              • 株式会社リクルート データスペシャリストコース新人研修レポート(2021年)①

                                                                                自己紹介 はじめまして!株式会社リクルートにデータスペシャリストとして新卒入社しました橋本大輝と申します。 自分は入社当初はデータサイエンティストって結局具体的には何をする仕事なんだろう、エンジニアリングにも興味あるけどどこまで手を伸ばせるのかな、という不安感を持っていたのですが、新人研修を通して社内で触れることができる技術の幅と自由度を知りその不安が大きく解消されました。 ここではそんなデータスペシャリスト入社者に向けた新人研修の概要について、個人的に面白かった/ためになったところに重点を置きながら紹介していきたいと思います。 全体の流れ スケジュール データサイエンス×ソフトウェアエンジニアリング ソフトウェアエンジニアリング データサイエンス まとめ 最後に スケジュール 技術に関する研修は全てリモートで実施され、大まかに下図のようなスケジュールで行われました。 図1: 研修のスケジ

                                                                                  株式会社リクルート データスペシャリストコース新人研修レポート(2021年)①
                                                                                • DS/AIブームは「ソフトランディング」できるか - 渋谷駅前で働くデータサイエンティストのブログ

                                                                                  旧知の友人でもある、アラヤ創業者・社長の金井さん*1が興味深い記事を書かれて評判になっているようです。 その内容はズバリ「AIブーム終焉」。AIブームが終焉すれば一種の「連れ高」として再燃していたデータサイエンス・データサイエンティスト(DS)ブームも終焉すると予想されるので、これはDS/AIブームの終焉とも言い換えられそうです。 当事者でありながら他人事みたいなことを言うようで気が引けますが、何であれブームというものはいつかは終わりを迎えます。あるもののブームが終わったからといってそのものが滅んでしまうということは一般に多くありませんが、ブームが「ソフトランディング」するかどうかによってその後の状況は変わってくるもの。「浮かれてみんな飛びついていたけれども実は大したことがなかった・金と時間の無駄だった・害悪の方が大きかった」というような感じで反動が強ければ、ブームだったものはその後も定着

                                                                                    DS/AIブームは「ソフトランディング」できるか - 渋谷駅前で働くデータサイエンティストのブログ