並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 1744件

新着順 人気順

Pandasの検索結果201 - 240 件 / 1744件

  • GiNZAと患者表現辞書を使って患者テキストの表記ゆれを吸収した意味構造検索を試した - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI・機械学習チームの中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 最近「医療言語処理」という本を読んで、医療用語の表記ゆれ吸収や意味構造検索などについて学びました。 医療言語処理 (自然言語処理シリーズ) 作者:荒牧 英治発売日: 2017/08/01メディア: 単行本 そこで今回はElasticsearchと患者表現辞書を使った意味構造検索がどのくらい実戦投入できるかを簡単に試したので、概要と実装方法を簡単にご紹介します。 患者テキストの表記ゆれ 患者テキストの表記ゆれとは MEDNLPの患者表現辞書 トークンによる検索の課題と対策の検討 主語が違うのにヒットしちゃう? 意味構造検索 係り受け解析と患者表現辞書を使った意味構造検索の実装 患者表現辞書を使った係り受け解析 患者表現辞書の表現をクエリに展開する

      GiNZAと患者表現辞書を使って患者テキストの表記ゆれを吸収した意味構造検索を試した - エムスリーテックブログ
    • 生成AIの活用事例 10選|masa_kazama

      「テクノロジーで人々を適切な医療に案内する」をミッションに、医療プラットフォームを提供しているUbie株式会社の@masa_kazamaです。 この記事は#Ubieアドベントカレンダー5日目にエントリーしています。 今年は生成AI一色の1年でした。Ubieでは、生成AIをプロダクト活用と社内生産性向上の観点で取り組んでいます。(取り組みの詳細は、こちらの記事で紹介しています。) この記事では、社内生産性向上観点で、社内の業務プロセスに溶け込んでいて、なくてはならない使い方になっている事例を10個ご紹介します。その中のいくつかは、実際に生産性が倍以上になっていたり、外部委託のコストが半分になったりしています。この記事が、生成AIを活用している人や活用していきたい人のご参考になれば幸いです。 プロダクト活用にもいくつか事例が出ており、問診の内容を大規模言語モデル(LLM)を活用して要約する機能

        生成AIの活用事例 10選|masa_kazama
      • まだJupyter Notebook使ってるの? VS CodeでJupyter生活 (.py)で快適Pythonライフを?! - Qiita

        まだJupyter Notebook使ってるの? VS CodeでJupyter生活 (.py)で快適Pythonライフを?!PythonVSCodeJupyterNotebookipynb みなさん、よいPython生活送れていますでしょうか? いきなりですが、普段Pythonのコードを扱う際、どのように扱っていますか? 普通に.pyのファイルを作成して動かしたり、もしくはJupyter NotebookやJupyter Labなどを使ってコードブロックにコードを書いてブロックごとに実行していく、という人も多いと思います。自分は大学の授業で配布されているPythonコードの資料がJupyterで扱える.ipynb形式のファイルなので、今まではJupyter Notebookを使ってコードを閲覧・実行等行っていました。 しかし、みなさん、Jupyter Notebookを立ち上げてブラウザ

          まだJupyter Notebook使ってるの? VS CodeでJupyter生活 (.py)で快適Pythonライフを?! - Qiita
        • 機械学習初心者がデータ分析コンペサイトProbSpaceで総合ランク1位に到達するまでの道のり - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話

          機械学習について全くの専門外で初心者だった私がコンペサイトProbspaceのRe:不動産取引価格予測コンペで3位入賞、YouTube動画視聴回数予測コンペで9位入賞するなど、累計で金2銀1銅1を獲得することができ、総合ランクで1位に到達することができました。 これまでたどってきた道のりを振り返って、良かった点、悪かった点を見直して、今後の進め方を考えていきたいと思います。 悪戦苦闘、一進一退しながら勧めてきた内容を、思いつくまま記載しているので、お見苦しい箇所もありますが、これから機械学習を始める皆さんや、始めたばかりの皆さんの何らかのキッカケになれれば光栄です。 では、振り返ってまいりたいと思います。 【目次】 1.G検定との出会い(2019年2月〜3月) 2.Pythonの勉強を始める(2019年4月) 3.kaggleのデータセットを使って機械学習に挑戦する(2019年4月〜5月)

            機械学習初心者がデータ分析コンペサイトProbSpaceで総合ランク1位に到達するまでの道のり - 俺人〜OREGIN〜俺、バカだから人工知能に代わりに頑張ってもらうまでのお話
          • AI・機械学習チームで学んだ開発技法で趣味の通知系ツールを量産した - エムスリーテックブログ

            AI・機械学習チームブログリレー 7日目担当の高田です。 AI・機械学習チームでは、開発するプロダクトの数が多く、スピード感を持って開発を進めることが求められます。 そのような環境の中では、高速にプロダクトを生むためのあるあるのアーキテクチャであったり、どのプロダクトでも使っているぞというライブラリが存在します。 それらのノウハウを活かして、日曜大工で作った趣味開発のプロダクトを紹介していきたいと思います。 AI・機械学習チームのあるある アーキテクチャ編 ライブラリ編 趣味プロダクトもスピードが大事 YouTubeライブ開始通知 ポイ活案件検知 ANAトクたびマイル通知 まとめ We're hiring! AI・機械学習チームのあるある アーキテクチャ編 例えばm3.com会員向けのコンテンツ配信設定など、ビジネスサイドでデータの入力を運用するプロダクトがあります。そういったプロダクトで

              AI・機械学習チームで学んだ開発技法で趣味の通知系ツールを量産した - エムスリーテックブログ
            • Auth0からCognitoへのユーザー移行 - ROBOT PAYMENT TECH-BLOG

              こんにちは。ROBOT PAYMENT (以下、ロボペイ)でエンジニアをしているtakamoriです。 私が所属しているチームでは、請求先マイページ機能を開発しており、その中でユーザー認証基盤をAuth0からCognitoへと移行させました。そこで今回は、Auth0からCognitoへのユーザー移行手順を書いていきたいと思います。 ※ 本記事ではAuth0やCognitoの環境構築は対象外で、それぞれの環境が構築済み前提となります。 移行手順 Auth0からユーザーをエクスポート Auth0ユーザー情報をCognitoユーザー情報へマッピング Cognitoへユーザーをインポート Auth0からユーザーをエクスポート Auth0からのユーザーをエクスポートするには、ExportUsersJob APIを利用します。GetUsers APIを利用して取得することも可能ですが1,000件の取得

                Auth0からCognitoへのユーザー移行 - ROBOT PAYMENT TECH-BLOG
              • 機械学習で競馬必勝本に勝てるのか? 〜Pythonで実装するランク学習〜 - エニグモ開発者ブログ

                こんにちは。データサイエンティストの堀部です。 この記事は Enigmo Advent Calendar 2020 の9日目の記事です。 何か社外のデータを使っていい感じのことができないかなと思っていたところ、3日目の竹本さんの記事がおもしろく、パクリ二次創作しました。 短期間で実装したので汚いコードで見苦しいかもしれないですがご了承ください。ちなみに、私は競馬は簡単なルールを知っているくらいでズブの素人です。 目次 使用したライブラリ データ取得 前処理 学習 予測・評価 VSオッズ低い順 VS競馬必勝本 感想 参考資料 使用したライブラリ import urllib.parse import urllib.request as req from time import sleep import category_encoders as ce import lightgbm as lgb

                  機械学習で競馬必勝本に勝てるのか? 〜Pythonで実装するランク学習〜 - エニグモ開発者ブログ
                • 物体検出ライブラリの紹介と所感 - arutema47's blog

                  記事について 画像はDetectron2より 物体検出をほとんど使っていない方を対象として、2021年末の物体検出ライブラリを俯瞰することが本記事の目的。 ある程度物体検出の経験ある方は学ぶことは少ないと思う。またあくまで書いてあるのは筆者の感想であるので人によっては全く違う意見になることもあるかと。また本記事ではモデルの技術的な説明はありません。それらについて理解を深める際は参考ページや元論文を当ってみると良いかと思います。 また大変遅くなりましたが、本記事はKaggleアドベントカレンダー(裏)の24日目でもあります(年明けちゃってすみません)。 qiita.com 記事について 紹介するライブラリ一覧 所感 アンサンブルについて 精度vs速度トレードオフ ライブラリ紹介 yolov5 学習について 推論について Yolox 学習について Efficientdet 学習コード torc

                    物体検出ライブラリの紹介と所感 - arutema47's blog
                  • 機械学習のデータドリフト検知を自動化する方法|Dentsu Digital Tech Blog

                    電通デジタルでデータサイエンティストを務める吉田です。 本記事では、機械学習においてモデル学習時点でのデータと推論時点でのデータが経時的に乖離を起こしていく、いわゆるデータドリフトの検知を自動化するために構築したワークフローについてご紹介いたします。 データドリフトによる機械学習モデルの劣化とは機械学習モデルを実運用していく際に課題になる事象の1つとして、データドリフトの問題があります。 一般的に、機械学習ではいくつかの特徴量Xに対する目的変数Yとの隠れた関係を定式化します。XとYの関係は時間が経つにつれて変化していくことがしばしばあり、これに伴って一度作成したモデルの推論精度も低下していきます。 簡単な例として、あるWebサービスにおいてサイト上の行動ログを元にユーザーごとにコンバージョンの発生を予測する機械学習モデルを作成したとします。このモデルは、「平均的に10分以上閲覧しているユー

                      機械学習のデータドリフト検知を自動化する方法|Dentsu Digital Tech Blog
                    • flairを使って最速でNLPのベースラインモデルを作る - moriyamaのエンジニアリング備忘録

                      自然言語処理に限らず、機械学習関連のプロジェクトではスタート時は、なるべく複雑なコーディングをせずにシンプルなベースラインモデルを低コストで作成し、そこからデータの傾向やタスクの複雑さを把握することが重要です。 ところが自然言語処理では前処理のコストが高く、最低限でも単語分割、ベクトル化、深層学習を用いる場合は事前学習された埋め込みベクトルを準備する必要があります。その後は他のタスクと同様にモデルの保存方法や、予測のパイプラインで悩みポイントを抱えることが多いと思います。 最近はAutoMLを始めとした機械学習の自動化が進歩し、初手から高性能なモデルをブラウザ上で数クリックで作成できますが、中身がブラックボックスである故に前述のデータの傾向やタスクの複雑さを把握することを目的とした場合には適切とは言えない側面があります。 本記事では自然言語処理を対象にモデルの中身が参照可能でかつ少ないコー

                        flairを使って最速でNLPのベースラインモデルを作る - moriyamaのエンジニアリング備忘録
                      • 素人でも1ヶ月 Causal Impact で遊んだら、統計的有意差が見えるようになった話 - ブログ - 株式会社JADE

                        こんにちは。2024年5月にJADEに入社した江越です。 前職でデータ加工を生業としていた関係で、現在はデータ分析に関わるサポートをメインに取り組んでいます。……とはいえ、法学部出身ということもあり、統計やデータ分析に関しては「素人に毛が生えた程度」の知識しかありません。 今回は、そんな統計素人の私が Causal Impact という分析パッケージに1ヶ月間触れてみた結果、施策の効果を統計的かつ定量的に説明できる手段が得られた経験をシェアしたいと思います。 【もくじ】 Causal Impactとの出会い 効果検証について持っていた課題感 Causal Impact を知る前の効果検証手段 上記の説明の何が問題なのか? 実際に遊んでみる Causal Impactとは一体何者だ! 何をすれば良いか整理してみる inputとthroughを用意して実行してみる 統計的有意差が見える……見え

                          素人でも1ヶ月 Causal Impact で遊んだら、統計的有意差が見えるようになった話 - ブログ - 株式会社JADE
                        • ポケモンを題材に因果推論を実践してみる - kanayamaのブログ

                          問題設定 有意差検定 交絡因子の存在 線形重回帰によるモデル化 回帰係数の推定 回帰係数の仮説検定 補足など 残差の分布について 他の交絡因子について データの生成方法について 参考文献 @tkanayama_です。最近「計量経済学*1」と「効果検証入門 *2」を読んだので、せっかくなので実際に手を動かすことによって理解の整理をしたいと思いました。 www.yuhikaku.co.jp gihyo.jp そこで今回は、人工データを用いて「ボールの性能と捕獲確率」の関係性を効果検証してみました(人工データの生成方法は記事の末尾に記述しました)。 問題設定 今は昔、モンスターボールしか存在せず、スーパーボールが世の中で出回り始めたばかりの頃、オーキド博士が「スーパーボールは本当にモンスターボールより捕まえやすいのか?」という仮説を検証しようとしています。 そこでオーキド博士は世界中のトレーナー

                            ポケモンを題材に因果推論を実践してみる - kanayamaのブログ
                          • Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER

                            一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。 そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。 もし、未来のデータがモデルの学習データに混入すると、本来は利用できないデータにもとづいた楽観的な予測が得られてしまう。 今回は、そんな時系列データの交差検証と scikit-learn の TimeSeriesSplit の改良について書いてみる。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.8.1 下準備 あらかじめ、必要なパッケージをインストールしておく。 $ pip install scikit-le

                              Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER
                            • OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog

                              地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 【IIJ 2022 TECHアドベントカレンダー 12/8(木)の記事です】 Whisperの追加学習に挑む2022年の冬 2022年アドベントカレンダー企画だそうです。 いかがお過ごしでしょうか。 私はもう興味を引くものに没頭するしか楽しみがないもんで、PCに向かってぼんやり面白いネタはないかなーと探す日々です。 最近はすっかりディープラーニングにズブズブで、とうとう数式かくのが面倒なあまり手書き入力のためのペンタブレットを買いました。てへ。 今回は9月から10月にかけてStabl

                                OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog
                              • 機械学習初心者がKaggle Masterになって昇進した話 - Qiita

                                この記事はKDDI Engineer&Designer Advent Calendar 2022の16日目の記事です。 はじめに はじめまして、KDDI株式会社の@kazuki_yです。 KDDIではデータサイエンティストのエキスパートとして、お客様向けサービスのデータ分析支援やAI・データ利活用の全社方針策定などの業務を行っております。 コンペ経歴は約2年半でKaggle MasterとSIGNATE Masterの称号を持っています。 本記事では、機械学習初心者がKaggleにどう取り組んで、どのようにKaggle Masterになったのか、Kaggleに取り組んで良かった点を振り返っていきたいと思います。 世の中では度々Kaggleは役に立たない論が出てきますが、私としては昇進もして、賞金も獲得して、技術力も得て、更には自信もついたので超役に立つと思います!本記事が参加への一助になれ

                                  機械学習初心者がKaggle Masterになって昇進した話 - Qiita
                                • 【Python実践編】ビットコインのアービトラージ(裁定取引)コード例 - Qiita

                                  [8/27追記] 投資関連のPythonプラグラム等を自由にシェアできるサービスのベータ版を作成しました。 興味がある方は覗いてみてください↓ inbaseシェア|EA・bot・プログラムのシェアサービス この投稿では、Python3を使って仮想通貨の裁定取引を行います。 今回は、コインチェックとGMOコインの価格差を利用してサヤ抜きを行うことを目指します。 以前自分のブログで、 【Pythonデモコード】仮想通貨のアービトラージ(裁定取引)botの作り方 という記事を公開したのですが、こちらはあくまでもシュミレーションで実際に売買が作動することはありませんでした。 今回は実際に取引所のAPIを操作するところまでコートに組み込んでみました。 なおコインチェックと GMO コインの口座開設から API キーの発行までは下の記事で公開している手順と全く同じです。 一応画像付きで解説しているので

                                    【Python実践編】ビットコインのアービトラージ(裁定取引)コード例 - Qiita
                                  • AutoTrainでテキスト分類 - Qiita

                                    AutoTrain🚂🚂🚂とは ノーコードでテキスト分類や要約などがstate-of-the-artできるサービスです。AutoNLPだとググラビリティが低かったので名称が変わったのだと思います。 データ準備 livedoorニュースコーパスのタイトルと本文を結合して、9つのカテゴリを分類しようと思います。 !wget https://www.rondhuit.com/download/ldcc-20140209.tar.gz !tar xf ldcc-20140209.tar.gz import glob import pandas as pd data = [] for path in glob.glob('text/**/*-*.txt'): with open(path) as f: data.append({ 'url': next(f).strip(), 'datetime

                                      AutoTrainでテキスト分類 - Qiita
                                    • BigQueryとGemini 1.5 Proによるラーメン店クチコミの定量分析 - G-gen Tech Blog

                                      G-gen の神谷です。本記事では、Google Maps API から取得したラーメン店のクチコミデータに対する定量分析手法をご紹介します。 従来の BigQuery による感情分析の有用性を踏まえつつ、Gemini 1.5 Pro の導入によって可能となった、より柔軟なデータの構造化や特定タスクの実行方法を解説します。 分析の背景と目的 可視化イメージ 分析の流れとアーキテクチャ クチコミデータ取得と BigQuery への保存 API キーの取得 データ取得のサンプルコード クチコミ数の制限と緩和策 料金 感情分析とデータパイプライン Dataform の利点 Dataform を使った感情分析のパイプライン定義例 感情分析の結果解釈 ML.GENERATE_TEXT(Gemini 1.5 Pro) 関数を使用した高度な分析 ユースケースに応じた独自の評価観点によるクチコミの定量化

                                        BigQueryとGemini 1.5 Proによるラーメン店クチコミの定量分析 - G-gen Tech Blog
                                      • 2日目:Python 3.10新機能パターンマッチの神髄がわかる | gihyo.jp

                                        先日公開した「PyCon JP 2021」1日目のカンファレンスレポートはいかがでしたでしょうか? 本レポートでは引き続き、2日目の様子をご紹介します。 PyCon JPは日本国内外のPythonユーザーが一堂に会し、互いに交流を深め、知識を分け合い、新たな可能性を見つけられる場所として毎年開催される国際カンファレンスです。 PyCon JP 2021は2021年10月15日~16日のカンファレンスと2日間の会期で開催されました。 今回は16日に行われたカンファレンスの中から、注目セッションと感想について運営スタッフがレポートします。 Day2 Keynote:A Perfect match ―Mr. Brandt Bucher (nikkie) 2021年10月、PyCon JP 2021の少し前にリリースされたPython3.10。その目玉機能といえば、Structural Patte

                                          2日目:Python 3.10新機能パターンマッチの神髄がわかる | gihyo.jp
                                        • プログラミングする時に知っておきたいPythonライブラリ13選

                                          Pythonライブラリとは Pythonのライブラリとは、複数のパッケージをまとめたものです。パッケージは複数のモジュールをまとめたもので、モジュールは複数の関数をまとめたものです。 つまり、 のような関係性があります。 ライブラリには、標準ライブラリと外部ライブラリがあります。標準ライブラリは、Pythonをインストールした際に標準でインストールされているライブラリです。そのため、自分でインストールをする必要はありません。 対して外部ライブラリは、標準ではインストールされておらず自分でインストールが必要なライブラリです。 ではここからは、各ライブラリの紹介しましょう。 まずはこれから!標準ライブラリ3選 標準ライブラリでおさえておきたいライブラリは3つです。 pip Pythonで書かれたライブラリをインストールや管理をするためのライブラリがpip。ライブラリをインストールする場合、pi

                                            プログラミングする時に知っておきたいPythonライブラリ13選
                                          • 時系列分析をお手軽に!機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog

                                            こんにちは! 以前にDartsという時系列分析に特化したpythonライブラリを紹介しました。 前編はこちら 今回は実際にDartsを動かしていきましょう。 Darts内にもデータセットがありますが、公式でも触れられているのであえて、外部のデータを参照してみましょう。導入編でも触れたアイスクリームの生産量の変化を推測したいと思います。 アイスクリームのデータセットはこちら 上記リンクの上部右側Downloadからcsvをダウンロードしてください。 Dartsのインストールは以下の1コマンドです。Windowsではデフォルトのコマンドプロンプトでうまくインストールが終了しなかったので、WSL環境などを推奨します。 $ pip install darts ARIMAで学習してみる バックテストでモデルの選定を行う RNNで共変量を扱ってみる まとめ ARIMAで学習してみる まずは、導入編で最

                                              時系列分析をお手軽に!機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog
                                            • Pandas で時系列データをグループ化して集計できる「Grouper」 - kakakakakku blog

                                              Pandas で groupby() 関数を使うと,データセットをグループ化して集計できる.さらに Grouper オブジェクトと組み合わせると,より高機能なグループ化を実現できる.今回は groupby() 関数と Grouper オブジェクトを組み合わせて「時系列データの集計」を試す.最後に関連する resample() 関数も試す. pandas.DataFrame.groupby — pandas 1.2.4 documentation pandas.Grouper — pandas 1.2.4 documentation データセット 🪢 今回使うサンプルデータセットを準備する.まず,Pandas の date_range() 関数を使って 2020/1/1 ~ 2020/12/31 の範囲で1年間の DatetimeIndex を作る.そして DatetimeIndex をイ

                                                Pandas で時系列データをグループ化して集計できる「Grouper」 - kakakakakku blog
                                              • Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog

                                                ABEJAでデータサイエンティストをしている服部です。 2022年10月28, 29日にバルセロナにてKaggle Days World Championship Finalというデータサイエンスに関するイベント兼コンペティションが開催され、そこに参加しました。そして幸いなことに私の所属するチームが優勝することができました!! 本記事では今回のイベントそのものと、優勝に至るまでのコンペ上での過程や工夫点などについてご紹介しようと思います。 Kaggle Days World Championship Finalとは 1日目(ワークショップやプレゼンテーション等) Opening remarks by LogicAI and Kaggle HP introduction - Key note Kaggle Team - Ask Me Anything Winners team present

                                                  Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog
                                                • 最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk

                                                  今回は、最新の Google Gemma モデルを Apple Silicon に最適化されたライブラリ MLX を使ってローカルで実行したり、ファインチューニングしてみましたのでその手順を紹介します。 MLX 関連の情報はドキュメンテーションが分かりづらいものも多かったので色々試した経緯も共有しながら少しでも何かの参考になれば幸いです。 実際に使った Jupyter Notebook を Gist にアップロードしていますので、そちらも参考にしてください。 →Google Gemma モデルを MLX を使ってローカルでファインチューニング 事前準備必要なライブラリをインストールします。 また Apple Silicon 搭載の Mac が必要です。今回は M3 Max 128GB 搭載の MacBook Pro で実行しました。 !pip install -U mlx mlx_lm t

                                                    最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング|alexweberk
                                                  • Rust製のPythonパッケージ管理ツール「uv」を使ってみよう | gihyo.jp

                                                    それぞれのツールに関する詳しい説明は本記事では行いません。詳しく知りたい方は、ツール名のリンクから公式ドキュメント等を参照してみてください。 上記の表に挙げたツール群にはそれぞれに特徴があります。pyenv、venv、pipのように単一機能に特化したものから、Condaのようにデータサイエンスや機械学習プロジェクトで使用される複雑なパッケージの依存関係や環境管理をサポートするツール、PoetryのようにPythonパッケージインデックス(PyPI)への公開をサポートするツールなど、開発シーンに合わせて選択することができます。 uvとは uvは2024年の2月中旬に発表されたばかりの新しいパッケージ管理ツールです。Rustで書かれており、ここ最近で飛躍的に使用されるようになったRust製のPythonリンター&フォーマッター「Ruff」を開発しているAstral社によって提供されています[1

                                                      Rust製のPythonパッケージ管理ツール「uv」を使ってみよう | gihyo.jp
                                                    • なぜあなたのA/Bテストはうまくいくのか?A/Bテストの分析で注意すること | CyberAgent Developers Blog

                                                      概要 同じ介入を比較するA/Aテストで統計的に有意な差が出てしまうケースがある その原因は、A/Bテストの指標の設計に失敗していることかもしれない この問題の対処法としてユーザベースCTR、デルタメソッド、クラスターロバスト標準誤差を紹介する これらの手法は実務で運用する上では一長一短 はじめに AI事業本部Dynalystの伊藤、小売セクターの藤田(@6km6km)です。 DynalystはReal Time Biddingと呼ばれる広告オークションにおいて広告枠の買付を行うプラットフォーム(DSP: Demand Side Platform)です。DSPでは、ユーザに広告を表示する際に複数あるクリエイティブの候補からひとつクリエイティブを選ぶ必要があり、その選択ロジックにバンディットアルゴリズムを用いています。(参考リンク1, 2) 以下では、バンディットアルゴリズムのA/Bテストをす

                                                        なぜあなたのA/Bテストはうまくいくのか?A/Bテストの分析で注意すること | CyberAgent Developers Blog
                                                      • ランサーズのデータ活用を手伝っている話 - 下町柚子黄昏記 by @yuzutas0

                                                        ランサーズ Advent Calendar 2020 24日目の記事です。 昨日は まなみん さんの 「思考発話法でUXリサーチをしてみた話」 でした。 概要 社員ではなく、1人のフリーランス人材(ランサー)として、ランサーズ社を手伝っています。 「こんなことをやってきたよ!」という話を、書ける範囲で書きます。 CRM(顧客管理)x データ活用 の案件を主に担当しています。 注意 本稿は筆者個人の見解に基づく内容であり、関係組織を代表するものではありません。 不適切・考慮不足だと感じさせてしまう点があれば、それは筆者個人の責任によるものです。 どうぞ筆者個人宛てにご指摘のコメントをいただけますと幸いです。 もくじ 概要 注意 もくじ きっかけ 案件1:顧客セグメント可視化 案件2:社内システム改善 案件3:オープンデータ活用 その他:データプラットフォームのメンテナンス性向上 意識している

                                                          ランサーズのデータ活用を手伝っている話 - 下町柚子黄昏記 by @yuzutas0
                                                        • 数学に強いエンジニアむけの機械学習勉強法

                                                          今年の3月から機械学習の勉強を始めて9ヶ月たったのでその振り返りと今後機械学習に入門する人の参考になればという記事です。 巷の記事だと「数学何もわからない人向けの機械学習~」みたいなものが多いので「数学チョットワカル人向け」に勉強方法をまとめてみようと思いました。 前提として筆者は大学で数学を専攻しており、社会人になってからはプログラミングを生業としております。 # 前提知識のおさらいいきなり機械学習入門~のような書籍に入る前に、基礎知識としてこの辺を抑えておくと良いと思います。 ## 線形代数:大学1年レベル機械学習の説明はほとんど行列の計算として表現されますので大前提として。手を動かして計算問題を解くのもおすすめです。 プログラミングのための線形代数 https://www.amazon.co.jp/dp/4274065782 ## 基礎統計(頻度主義):大学1年レベル正規分布や指数分

                                                          • 【日本株対応】Pythonで株価のローソク足データを取得する方法まとめ【CSV、ライブラリ、スクレイピング】

                                                            方法①はシンプルでは手軽に利用できますが、データ読み込み後のデータ整形作業が必要になります。 また、複数の銘柄の株価データを集める際には手間がかかります。 1つの銘柄で、なおかつ1度限りの分析であれば有効と思いますが、繰り返し分析したり、複数銘柄を扱いたい場合には不便です。 データ取得の手順を解説ここからは、Investing.comから株価データをCSV形式でダウンロードして、Pythonで読み込み、データ整形するまでの手順を解説します。 *無料登録が必要です。株価データを取得するには無料の会員登録が必要になります。 必要なのはこれだけです。 お金もかからないので余裕ですね。 銘柄を検索してCSVファイルをダウンロード会員登録を済ませてログインすると株価データをCSV形式でダウンロードできるようになります。 データは日足、週足、月足から選択することができます。 Investing.com

                                                              【日本株対応】Pythonで株価のローソク足データを取得する方法まとめ【CSV、ライブラリ、スクレイピング】
                                                            • MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog

                                                              こんにちは!nakamura(@naka957)です。今回はMLflowをご紹介します。 読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。 今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。 本記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。 では、早速始めていきます。 実験記録の重要性 MLflowとは MLflowのインストール データセット準備 機械学習モデルの用意 M

                                                                MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog
                                                              • 0から作るLLMーLlama

                                                                本記事の対象読者: LLM(大規模言語モデル)の複雑な構造や階層を理解しているが、それをどのように組み合わせるかが分からない人 LlaMaモデルに関するすべてのオペレータとアーキテクチャ(RMSNorm、ROPE、SwiGLUの実装を含む)を一行ずつ分解します。 本記事ではhuggingfaceのライブラリを使用しておらず、すべてpytorchで実装しています。また、事前学習済みモデルも使用していません。 スタート地点は『源氏物語』の原文であり、ゴール地点はあなた自身がトレーニングした大規模モデルです。 pytorchを準備してください。GPUがなくても大丈夫です。重要なのはLLMの原理を学ぶことであり、この文章を読んだだけで新しい大規模モデルのアーキテクチャを作れるわけではありません。 本記事では、できる限り平易な言葉を使って原理を解説していきます。 序文 本記事のすべてのコードはGoo

                                                                  0から作るLLMーLlama
                                                                • 不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASEプロダクトチームブログ

                                                                  はじめに こんにちは、Data Strategy所属の岡です。グループ会社BASE BANKで分析/モデリングなども兼務しています。 テキストデータを特徴量にもつ不均衡データ分類問題をDNNで解きたくなった際、下記の論文を参考にしたのでその内容を紹介します。 https://users.cs.fiu.edu/~chens/PDF/ISM15.pdf 不均衡データ分類問題ってなに? 何かしらのカテゴリを機械学習などで分類予測しようとする際、カテゴリごとのデータ件数に偏りがある、特に正例のデータが極端に少ないケースで予測精度が上がりにくい、という問題をこのように呼んでいます。 例: 不正決済と正常な注文、不正商品と健全な商品、がん患者と正常な患者 普通はどうやって対処するの? ベースとなるアプローチは下記3つにまとめられます。 アプローチ 内容 デメリット アンダーサンプリング 多数派データを

                                                                    不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASEプロダクトチームブログ
                                                                  • 序盤に試すテーブルデータの特徴量エンジニアリング

                                                                    この記事はKaggle Advent Calendar 2021の4日目の記事です. はじめに この記事ではテーブルデータコンペティションにおいて,主に数値データ,カテゴリデータをもとに特徴量を作成する方法をまとめました.発展的な内容というより,初めてコンペに参加する方でも使える汎用的な特徴量エンジニアリングを紹介します. 特徴量エンジニアリング!...そのまえに モデルについて 特徴量エンジニアリングはモデルによって処理が変わることがあります. 例えば勾配ブースティング決定木(GBDT)といった決定木はスケーリングする必要がなく,またLightGBMなどは欠損値をそのまま扱うことができます.一方でニューラルネットワーク(NN)や線形回帰モデルはスケーリングおよび欠損値補完をする必要があります. このこと以外にも,決定木は各特徴量間で差や比率を表現することが苦手であるために明示的に作る必要

                                                                      序盤に試すテーブルデータの特徴量エンジニアリング
                                                                    • 検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ

                                                                      エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は社内でPyTerrierを採用して文書検索BatchをPythonで実装したので、PyTerrierの紹介とPyTerrierで日本語検索を実装する方法を紹介します(日本語でPyTerrierを扱う記事は多分初?)。 PyTerrierとは 弊社でのPyTerrier利用 PyTerrierで日本語検索 Phrase Queryの注意点 まとめ We're hiring !!! PyTerrierとは Terrierのロゴ PyTerrierは、Pythonでの情報検索実験のためのプラットフォームです。 JavaベースのTerrierを内部的に使用して、インデックス作成と検索操作を行うことができます。基本的なQuery RewritingやBM

                                                                        検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ
                                                                      • AWS による Jupyter の 生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 | Amazon Web Services

                                                                        Amazon Web Services ブログ AWS による Jupyter の 生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 Project Jupyter は複数のステークホルダーで運営されるオープンソースプロジェクトであり、データサイエンス、機械学習、計算科学のためのアプリケーションだけでなく公開標準やツールも開発しています。なかでも、2011 年にリリースされた Jupyter Notebook は学術、研究、産業のあらゆる分野で世界で数百万人のユーザーが使用するデファクトスタンダードのツールとなりました。Jupyter ではユーザーがコードやデータをインタラクティブに実行でき、完全に再現可能な作業記録として作成、共有することが可能です。 AWS はデータサイエンティストや機械学習エンジニアにとって欠かせない Jupyter を開発する Proj

                                                                          AWS による Jupyter の 生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 | Amazon Web Services
                                                                        • 安定期に入っている「機械学習OSS」だからこそ貢献しやすい 実績やキャリアにつなげるために大切な、知識や実装の可視化

                                                                          「つよいエンジニア」になるためのオープンソースの使い方をはじめ、OSSへの貢献を推奨している企業のエンジニア文化や、コミッター視点からみたOSSの未来について話す「TECH HILLS~まつもとゆきひろ氏と考える つよいエンジニアになるためのオープンソースの使い方~」。ここでキャディ株式会社の河合氏が登壇。機械学習OSSの現状と未来について話します。 自己紹介 河合俊典氏:「機械学習OSSの変遷と未来」と題して発表します。「ばんくし」として活動しています。今、キャディという小さい製造業向けのITベンチャーで機械学習とかデータサイエンスをやるチームを立ち上げて、そこでリーダーをやっています。 前職はM3という医療ITの会社ですが、そこのフェローをやらせてもらっています。私は“ギルド”と呼んでいますが、趣味でそういった開発が好きな人で集まって開発をするチームを組んでいて、そこの主宰もやっていま

                                                                            安定期に入っている「機械学習OSS」だからこそ貢献しやすい 実績やキャリアにつなげるために大切な、知識や実装の可視化
                                                                          • お手軽で欲しい機能が揃っている実験管理ツールGuild AIの紹介 - kuromt blog

                                                                            機械学習の実験管理ツールにGuild AIというものがあります。特に大きな特徴はコード追加なしで実験管理ができるというものです。 試しに触ってみたところ、まさにコード追加なしで簡単に試せる、ちょっとした条件を変えた実行も簡単、結果の可視化はシンプルなCLIもリッチなGUIもどちらも用意されている、ローカルだけではなくS3にもデータを保存できる、しかもWebサーバを別に立てる必要がなく手元の環境で完結します。 ただ、Guild AIは一部の方にSNS上で言及されているものの日本語で書かれたドキュメントやブログは見つかりませんでした。良いツールが埋もれるのはもったいないと思いGuild AIの記事を書くことにしました。 この記事の前半では実行条件を変えながら実行して結果を可視化するまでの流れを紹介します。Guild AIのお手軽さをお伝えすることを意識しました。 後半はある程度実務での状況を想

                                                                              お手軽で欲しい機能が揃っている実験管理ツールGuild AIの紹介 - kuromt blog
                                                                            • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章 スクレイピングによる公共データベース(PDB)からの機械学習データを収集~ - LabCode

                                                                              本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第2章で、スクレイピングによる公共データベース(PDB)からの機械学習の学習データを収集となります。webからの情報収集であるスクレイピングの基礎ができるようになります。ぜひ、トライしてみてください!第1章はこちら。 AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが

                                                                              • SHAPで因果関係を説明できる? - Qiita

                                                                                はじめに 予測モデル(機械学習モデル)を解釈するのに有用なSHAPを用いて因果関係を説明することができるか、についてPythonによるシミュレーションを交えてまとめました。内容に誤り等ございましたら、ご指摘いただけますと幸いです。 結論 基本的に、SHAPで因果関係は説明できません。これは、SHAPが予測モデルの因果ではなく相関を明らかにするものであるからです。 そこで今回は、予測モデルをSHAPで解釈する上でありがちなミスリーディングや、それに関連する因果効果を推定するためのアプローチについて記載しています。 そもそもSHAPとは SHAPとはSHapley Additive exPlanationsの略で、協力ゲーム理論のShapley Valueを機械学習に応用した手法です。「その予測モデルがなぜ、その予測値を算出しているか」を解釈するためのツールとしてオープンソースのライブラリが開

                                                                                  SHAPで因果関係を説明できる? - Qiita
                                                                                • Numeraiで学ぶ金融時系列モデル評価指標

                                                                                  雨にも負けず 風にも負けず 冬にも 夏の過熱相場にも負けぬ ロバストな予測を持ち 強欲はなく 決して悲観せず いつも静かに利益を重ねている ... そう言うモデルを 私は作りたい by ??? (20??年) 前書き こんにちは。日本爆損防止委員会です(さっき考えた)。 さて、皆さんは今日も今日とて爆損を垂れ流していらっしゃると思います。その原因は様々あろうかと思いますが、そもそも「原因がわからない」という方がほとんどではないでしょうか。 爆損しているのに原因がわからない、というのは、言うまでもありませんが大変なストレスです。楽しい思いをしようと小さな島に遊びに行ったら殺人事件が起きて誰が犯人かわからないけど容疑者の人たちと一緒に暮らさないといけないイメージです(?)。 どうせ爆損するなら、「あーワイのモデルはこういう市況に弱いことが検証でもわかってて、今はその市況だから爆損なんやー」と原

                                                                                    Numeraiで学ぶ金融時系列モデル評価指標