本文「Pandas」を検索 - はてなブックマーク

201 - 240 件 / 1670件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Pandasの検索結果201 - 240 件 / 1670件

【Python実践編】ビットコインのアービトラージ（裁定取引）コード例 - Qiita
- 52 users
- qiita.com/kimukouM
- テクノロジー
- 2021/02/10
[8/27追記] 投資関連のPythonプラグラム等を自由にシェアできるサービスのベータ版を作成しました。興味がある方は覗いてみてください↓ inbaseシェア|EA・bot・プログラムのシェアサービスこの投稿では、Python3を使って仮想通貨の裁定取引を行います。今回は、コインチェックとGMOコインの価格差を利用してサヤ抜きを行うことを目指します。以前自分のブログで、【Pythonデモコード】仮想通貨のアービトラージ（裁定取引）botの作り方という記事を公開したのですが、こちらはあくまでもシュミレーションで実際に売買が作動することはありませんでした。今回は実際に取引所のAPIを操作するところまでコートに組み込んでみました。なおコインチェックと GMO コインの口座開設から API キーの発行までは下の記事で公開している手順と全く同じです。一応画像付きで解説しているので
時系列分析をお手軽に！機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog
- 51 users
- tech.datafluct.com
- テクノロジー
- 2022/05/02
こんにちは！以前にDartsという時系列分析に特化したpythonライブラリを紹介しました。前編はこちら今回は実際にDartsを動かしていきましょう。 Darts内にもデータセットがありますが、公式でも触れられているのであえて、外部のデータを参照してみましょう。導入編でも触れたアイスクリームの生産量の変化を推測したいと思います。アイスクリームのデータセットはこちら上記リンクの上部右側Downloadからcsvをダウンロードしてください。 Dartsのインストールは以下の1コマンドです。Windowsではデフォルトのコマンドプロンプトでうまくインストールが終了しなかったので、WSL環境などを推奨します。 $ pip install darts ARIMAで学習してみるバックテストでモデルの選定を行う RNNで共変量を扱ってみるまとめ ARIMAで学習してみるまずは、導入編で最
AutoTrainでテキスト分類 - Qiita
- 51 users
- qiita.com/relu
- テクノロジー
- 2022/04/09
AutoTrain🚂🚂🚂とはノーコードでテキスト分類や要約などがstate-of-the-artできるサービスです。AutoNLPだとググラビリティが低かったので名称が変わったのだと思います。データ準備 livedoorニュースコーパスのタイトルと本文を結合して、9つのカテゴリを分類しようと思います。 !wget https://www.rondhuit.com/download/ldcc-20140209.tar.gz !tar xf ldcc-20140209.tar.gz import glob import pandas as pd data = [] for path in glob.glob('text/**/*-*.txt'): with open(path) as f: data.append({ 'url': next(f).strip(), 'datetime
- 自然言語処理
- 文章
- qiita
- あとで読む
- git
- AI
- サービス
BigQueryとGemini 1.5 Proによるラーメン店クチコミの定量分析 - G-gen Tech Blog
- 51 users
- blog.g-gen.co.jp
- テクノロジー
- 2024/07/18
G-gen の神谷です。本記事では、Google Maps API から取得したラーメン店のクチコミデータに対する定量分析手法をご紹介します。従来の BigQuery による感情分析の有用性を踏まえつつ、Gemini 1.5 Pro の導入によって可能となった、より柔軟なデータの構造化や特定タスクの実行方法を解説します。分析の背景と目的可視化イメージ分析の流れとアーキテクチャクチコミデータ取得と BigQuery への保存 API キーの取得データ取得のサンプルコードクチコミ数の制限と緩和策料金感情分析とデータパイプライン Dataform の利点 Dataform を使った感情分析のパイプライン定義例感情分析の結果解釈 ML.GENERATE_TEXT（Gemini 1.5 Pro）関数を使用した高度な分析ユースケースに応じた独自の評価観点によるクチコミの定量化
- Gemini
- BigQuery
- AI
- LLM
- google
- api
- あとで読む
最新の Google Gemma モデルを MLX を使ってローカルでファインチューニング｜alexweberk
- 51 users
- note.com/alexweberk
- テクノロジー
- 2024/02/25
今回は、最新の Google Gemma モデルを Apple Silicon に最適化されたライブラリ MLX を使ってローカルで実行したり、ファインチューニングしてみましたのでその手順を紹介します。 MLX 関連の情報はドキュメンテーションが分かりづらいものも多かったので色々試した経緯も共有しながら少しでも何かの参考になれば幸いです。実際に使った Jupyter Notebook を Gist にアップロードしていますので、そちらも参考にしてください。 →Google Gemma モデルを MLX を使ってローカルでファインチューニング事前準備必要なライブラリをインストールします。また Apple Silicon 搭載の Mac が必要です。今回は M3 Max 128GB 搭載の MacBook Pro で実行しました。 !pip install -U mlx mlx_lm t
- LLM
- LoRA
- あとで読む
- google
- AI
- モデル
- 機械学習
- 学習
2日目：Python 3.10新機能パターンマッチの神髄がわかる | gihyo.jp
- 51 users
- gihyo.jp
- テクノロジー
- 2022/01/13
先日公開した「PyCon JP 2021」1日目のカンファレンスレポートはいかがでしたでしょうか？本レポートでは引き続き、2日目の様子をご紹介します。 PyCon JPは日本国内外のPythonユーザーが一堂に会し、互いに交流を深め、知識を分け合い、新たな可能性を見つけられる場所として毎年開催される国際カンファレンスです。 PyCon JP 2021は2021年10月15日～16日のカンファレンスと2日間の会期で開催されました。今回は16日に行われたカンファレンスの中から、注目セッションと感想について運営スタッフがレポートします。 Day2 Keynote：A Perfect match ―Mr. Brandt Bucher （nikkie） 2021年10月、PyCon JP 2021の少し前にリリースされたPython3.10。その目玉機能といえば、Structural Patte
Rust製のPythonパッケージ管理ツール「uv」を使ってみよう | gihyo.jp
- 51 users
- gihyo.jp
- テクノロジー
- 2024/03/26
それぞれのツールに関する詳しい説明は本記事では行いません。詳しく知りたい方は、ツール名のリンクから公式ドキュメント等を参照してみてください。上記の表に挙げたツール群にはそれぞれに特徴があります。pyenv、venv、pipのように単一機能に特化したものから、Condaのようにデータサイエンスや機械学習プロジェクトで使用される複雑なパッケージの依存関係や環境管理をサポートするツール、PoetryのようにPythonパッケージインデックス（PyPI）への公開をサポートするツールなど、開発シーンに合わせて選択することができます。 uvとは uvは2024年の2月中旬に発表されたばかりの新しいパッケージ管理ツールです。Rustで書かれており、ここ最近で飛躍的に使用されるようになったRust製のPythonリンター＆フォーマッター「Ruff」を開発しているAstral社によって提供されています[1
- python
- uv
- ツール
- あとで読む
- article
プログラミングする時に知っておきたいPythonライブラリ13選
- 51 users
- aizine.ai
- テクノロジー
- 2021/01/17
Pythonライブラリとは Pythonのライブラリとは、複数のパッケージをまとめたものです。パッケージは複数のモジュールをまとめたもので、モジュールは複数の関数をまとめたものです。つまり、のような関係性があります。ライブラリには、標準ライブラリと外部ライブラリがあります。標準ライブラリは、Pythonをインストールした際に標準でインストールされているライブラリです。そのため、自分でインストールをする必要はありません。対して外部ライブラリは、標準ではインストールされておらず自分でインストールが必要なライブラリです。ではここからは、各ライブラリの紹介しましょう。まずはこれから！標準ライブラリ3選標準ライブラリでおさえておきたいライブラリは3つです。 pip Pythonで書かれたライブラリをインストールや管理をするためのライブラリがpip。ライブラリをインストールする場合、pi
Pandas で時系列データをグループ化して集計できる「Grouper」 - kakakakakku blog
- 50 users
- kakakakakku.hatenablog.com
- テクノロジー
- 2021/05/24
Pandas で groupby() 関数を使うと，データセットをグループ化して集計できる．さらに Grouper オブジェクトと組み合わせると，より高機能なグループ化を実現できる．今回は groupby() 関数と Grouper オブジェクトを組み合わせて「時系列データの集計」を試す．最後に関連する resample() 関数も試す． pandas.DataFrame.groupby — pandas 1.2.4 documentation pandas.Grouper — pandas 1.2.4 documentation データセット 🪢 今回使うサンプルデータセットを準備する．まず，Pandas の date_range() 関数を使って 2020/1/1 ~ 2020/12/31 の範囲で1年間の DatetimeIndex を作る．そして DatetimeIndex をイ
Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog
- 50 users
- tech-blog.abeja.asia
- テクノロジー
- 2022/11/18
ABEJAでデータサイエンティストをしている服部です。 2022年10月28, 29日にバルセロナにてKaggle Days World Championship Finalというデータサイエンスに関するイベント兼コンペティションが開催され、そこに参加しました。そして幸いなことに私の所属するチームが優勝することができました！！本記事では今回のイベントそのものと、優勝に至るまでのコンペ上での過程や工夫点などについてご紹介しようと思います。 Kaggle Days World Championship Finalとは 1日目（ワークショップやプレゼンテーション等） Opening remarks by LogicAI and Kaggle HP introduction - Key note Kaggle Team - Ask Me Anything Winners team present
- kaggle
- チーム
- 機械学習
- あとで読む
- データ
- 学習
- 勉強
- tech
なぜあなたのA/Bテストはうまくいくのか？A/Bテストの分析で注意すること | CyberAgent Developers Blog
- 50 users
- developers.cyberagent.co.jp
- テクノロジー
- 2021/12/18
概要同じ介入を比較するA/Aテストで統計的に有意な差が出てしまうケースがあるその原因は、A/Bテストの指標の設計に失敗していることかもしれないこの問題の対処法としてユーザベースCTR、デルタメソッド、クラスターロバスト標準誤差を紹介するこれらの手法は実務で運用する上では一長一短はじめに AI事業本部Dynalystの伊藤、小売セクターの藤田(@6km6km)です。 DynalystはReal Time Biddingと呼ばれる広告オークションにおいて広告枠の買付を行うプラットフォーム（DSP: Demand Side Platform）です。DSPでは、ユーザに広告を表示する際に複数あるクリエイティブの候補からひとつクリエイティブを選ぶ必要があり、その選択ロジックにバンディットアルゴリズムを用いています。（参考リンク1, 2）以下では、バンディットアルゴリズムのA/Bテストをす
- abTest
- 分析
- テスト
- あとで読む
- 統計
ランサーズのデータ活用を手伝っている話 - 下町柚子黄昏記 by @yuzutas0
- 49 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2020/12/24
ランサーズ Advent Calendar 2020 24日目の記事です。昨日はまなみんさんの「思考発話法でUXリサーチをしてみた話」でした。概要社員ではなく、1人のフリーランス人材（ランサー）として、ランサーズ社を手伝っています。「こんなことをやってきたよ！」という話を、書ける範囲で書きます。 CRM（顧客管理）x データ活用の案件を主に担当しています。注意本稿は筆者個人の見解に基づく内容であり、関係組織を代表するものではありません。不適切・考慮不足だと感じさせてしまう点があれば、それは筆者個人の責任によるものです。どうぞ筆者個人宛てにご指摘のコメントをいただけますと幸いです。もくじ概要注意もくじきっかけ案件1:顧客セグメント可視化案件2:社内システム改善案件3:オープンデータ活用その他:データプラットフォームのメンテナンス性向上意識している
【日本株対応】Pythonで株価のローソク足データを取得する方法まとめ【CSV、ライブラリ、スクレイピング】
- 49 users
- myfrankblog.com
- 暮らし
- 2021/01/04
方法①はシンプルでは手軽に利用できますが、データ読み込み後のデータ整形作業が必要になります。また、複数の銘柄の株価データを集める際には手間がかかります。 1つの銘柄で、なおかつ1度限りの分析であれば有効と思いますが、繰り返し分析したり、複数銘柄を扱いたい場合には不便です。データ取得の手順を解説ここからは、Investing.comから株価データをCSV形式でダウンロードして、Pythonで読み込み、データ整形するまでの手順を解説します。 *無料登録が必要です。株価データを取得するには無料の会員登録が必要になります。必要なのはこれだけです。お金もかからないので余裕ですね。銘柄を検索してCSVファイルをダウンロード会員登録を済ませてログインすると株価データをCSV形式でダウンロードできるようになります。データは日足、週足、月足から選択することができます。 Investing.com
- python
- データ
- 分析
- 株
- 調査
- あとで読む
- 勉強
- 本
- 日本
MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog
- 49 users
- tech.datafluct.com
- テクノロジー
- 2022/06/03
こんにちは！nakamura（@naka957）です。今回はMLflowをご紹介します。読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。本記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。では、早速始めていきます。実験記録の重要性 MLflowとは MLflowのインストールデータセット準備機械学習モデルの用意 M
0から作るLLMーLlama
- 48 users
- zenn.dev/fusic
- テクノロジー
- 2024/10/22
本記事の対象読者： LLM（大規模言語モデル）の複雑な構造や階層を理解しているが、それをどのように組み合わせるかが分からない人 LlaMaモデルに関するすべてのオペレータとアーキテクチャ（RMSNorm、ROPE、SwiGLUの実装を含む）を一行ずつ分解します。本記事ではhuggingfaceのライブラリを使用しておらず、すべてpytorchで実装しています。また、事前学習済みモデルも使用していません。スタート地点は『源氏物語』の原文であり、ゴール地点はあなた自身がトレーニングした大規模モデルです。 pytorchを準備してください。GPUがなくても大丈夫です。重要なのはLLMの原理を学ぶことであり、この文章を読んだだけで新しい大規模モデルのアーキテクチャを作れるわけではありません。本記事では、できる限り平易な言葉を使って原理を解説していきます。序文本記事のすべてのコードはGoo
- LLM
- あとで読む
- AI
- 人工知能
- techfeed
序盤に試すテーブルデータの特徴量エンジニアリング
- 48 users
- zenn.dev/colum2131
- テクノロジー
- 2021/12/04
この記事はKaggle Advent Calendar 2021の4日目の記事です．はじめにこの記事ではテーブルデータコンペティションにおいて，主に数値データ，カテゴリデータをもとに特徴量を作成する方法をまとめました．発展的な内容というより，初めてコンペに参加する方でも使える汎用的な特徴量エンジニアリングを紹介します．特徴量エンジニアリング！...そのまえにモデルについて特徴量エンジニアリングはモデルによって処理が変わることがあります．例えば勾配ブースティング決定木(GBDT)といった決定木はスケーリングする必要がなく，またLightGBMなどは欠損値をそのまま扱うことができます．一方でニューラルネットワーク(NN)や線形回帰モデルはスケーリングおよび欠損値補完をする必要があります．このこと以外にも，決定木は各特徴量間で差や比率を表現することが苦手であるために明示的に作る必要
AWS による Jupyter の生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 | Amazon Web Services
- 48 users
- aws.amazon.com
- テクノロジー
- 2023/05/22
Amazon Web Services ブログ AWS による Jupyter の生成系 AI の民主化とノートブック実行のスケールのための新しい拡張機能を発表 Project Jupyter は複数のステークホルダーで運営されるオープンソースプロジェクトであり、データサイエンス、機械学習、計算科学のためのアプリケーションだけでなく公開標準やツールも開発しています。なかでも、2011 年にリリースされた Jupyter Notebook は学術、研究、産業のあらゆる分野で世界で数百万人のユーザーが使用するデファクトスタンダードのツールとなりました。Jupyter ではユーザーがコードやデータをインタラクティブに実行でき、完全に再現可能な作業記録として作成、共有することが可能です。 AWS はデータサイエンティストや機械学習エンジニアにとって欠かせない Jupyter を開発する Proj
- AWS
- あとで読む
- Jupyter
- AI
検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ
- 48 users
- www.m3tech.blog
- テクノロジー
- 2022/04/26
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。今回は社内でPyTerrierを採用して文書検索BatchをPythonで実装したので、PyTerrierの紹介とPyTerrierで日本語検索を実装する方法を紹介します(日本語でPyTerrierを扱う記事は多分初?)。 PyTerrierとは弊社でのPyTerrier利用 PyTerrierで日本語検索 Phrase Queryの注意点まとめ We're hiring !!! PyTerrierとは Terrierのロゴ PyTerrierは、Pythonでの情報検索実験のためのプラットフォームです。 JavaベースのTerrierを内部的に使用して、インデックス作成と検索操作を行うことができます。基本的なQuery RewritingやBM
お手軽で欲しい機能が揃っている実験管理ツールGuild AIの紹介 - kuromt blog
- 47 users
- kuromt.hatenablog.com
- テクノロジー
- 2020/09/12
機械学習の実験管理ツールにGuild AIというものがあります。特に大きな特徴はコード追加なしで実験管理ができるというものです。試しに触ってみたところ、まさにコード追加なしで簡単に試せる、ちょっとした条件を変えた実行も簡単、結果の可視化はシンプルなCLIもリッチなGUIもどちらも用意されている、ローカルだけではなくS3にもデータを保存できる、しかもWebサーバを別に立てる必要がなく手元の環境で完結します。ただ、Guild AIは一部の方にSNS上で言及されているものの日本語で書かれたドキュメントやブログは見つかりませんでした。良いツールが埋もれるのはもったいないと思いGuild AIの記事を書くことにしました。この記事の前半では実行条件を変えながら実行して結果を可視化するまでの流れを紹介します。Guild AIのお手軽さをお伝えすることを意識しました。後半はある程度実務での状況を想
【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章スクレイピングによる公共データベース（PDB)からの機械学習データを収集~ - LabCode
- 47 users
- labo-code.com
- テクノロジー
- 2024/02/01
本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第2章で、スクレイピングによる公共データベース（PDB)からの機械学習の学習データを収集となります。webからの情報収集であるスクレイピングの基礎ができるようになります。ぜひ、トライしてみてください！第1章はこちら。 AI創薬とは？ AI創薬は、人工知能（AI）技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが
安定期に入っている「機械学習OSS」だからこそ貢献しやすい　実績やキャリアにつなげるために大切な、知識や実装の可視化 | ログミーBusiness
- 47 users
- logmi.jp
- テクノロジー
- 2022/05/28
「つよいエンジニア」になるためのオープンソースの使い方をはじめ、OSSへの貢献を推奨している企業のエンジニア文化や、コミッター視点からみたOSSの未来について話す「TECH HILLS～まつもとゆきひろ氏と考えるつよいエンジニアになるためのオープンソースの使い方～」。ここでキャディ株式会社の河合氏が登壇。機械学習OSSの現状と未来について話します。自己紹介河合俊典氏：「機械学習OSSの変遷と未来」と題して発表します。「ばんくし」として活動しています。今、キャディという小さい製造業向けのITベンチャーで機械学習とかデータサイエンスをやるチームを立ち上げて、そこでリーダーをやっています。前職はM3という医療ITの会社ですが、そこのフェローをやらせてもらっています。私は“ギルド”と呼んでいますが、趣味でそういった開発が好きな人で集まって開発をするチームを組んでいて、そこの主宰もやっています
AWS Lambda の Python で pandas や requests を使うのに、Lambda Layer を自作する必要はない - AWS SDK for pandas を活用しよう - Qiita
- 47 users
- qiita.com/mabuchs
- テクノロジー
- 2025/02/24
AWS Lambda の Python で pandas や requests を使うのに、Lambda Layer を自作する必要はない - AWS SDK for pandas を活用しようAWSpandaslambdaLambda-Layers 概要 AWS Lambda では、マネージドに提供されている AWS レイヤーがあり、自分でビルドすることなく簡単に利用できる AWS SDK for pandas のマネージドな Lambda Leyer には、 pandas / numpy といったデータ処理系のモジュールや aiohttp / requests といった HTTP リクエスト用モジュールなど、様々なモジュールがバンドルされている (一覧は後述) AWS Lambda でこれらのモジュールを使用する方法として、多くの記事では Lambda Layer を自作する方法や第三
- Python
- あとで読む
- AWS
- techfeed
SHAPで因果関係を説明できる？ - Qiita
- 47 users
- qiita.com/s1ok69oo
- テクノロジー
- 2023/02/25
はじめに予測モデル（機械学習モデル）を解釈するのに有用なSHAPを用いて因果関係を説明することができるか、についてPythonによるシミュレーションを交えてまとめました。内容に誤り等ございましたら、ご指摘いただけますと幸いです。結論基本的に、SHAPで因果関係は説明できません。これは、SHAPが予測モデルの因果ではなく相関を明らかにするものであるからです。そこで今回は、予測モデルをSHAPで解釈する上でありがちなミスリーディングや、それに関連する因果効果を推定するためのアプローチについて記載しています。そもそもSHAPとは SHAPとはSHapley Additive exPlanationsの略で、協力ゲーム理論のShapley Valueを機械学習に応用した手法です。「その予測モデルがなぜ、その予測値を算出しているか」を解釈するためのツールとしてオープンソースのライブラリが開
- 機械学習
- SHAP
- Python
- 分析
- あとで読む
- qiita
- データ
Numeraiで学ぶ金融時系列モデル評価指標
- 46 users
- zenn.dev/katsu1110
- テクノロジー
- 2023/07/04
雨にも負けず風にも負けず冬にも夏の過熱相場にも負けぬロバストな予測を持ち強欲はなく決して悲観せずいつも静かに利益を重ねている ... そう言うモデルを私は作りたい by ??? (20??年) 前書きこんにちは。日本爆損防止委員会です(さっき考えた)。さて、皆さんは今日も今日とて爆損を垂れ流していらっしゃると思います。その原因は様々あろうかと思いますが、そもそも「原因がわからない」という方がほとんどではないでしょうか。爆損しているのに原因がわからない、というのは、言うまでもありませんが大変なストレスです。楽しい思いをしようと小さな島に遊びに行ったら殺人事件が起きて誰が犯人かわからないけど容疑者の人たちと一緒に暮らさないといけないイメージです（?）。どうせ爆損するなら、「あーワイのモデルはこういう市況に弱いことが検証でもわかってて、今はその市況だから爆損なんやー」と原
NumPy Illustrated: The Visual Guide to Numpy
- 46 users
- betterprogramming.pub
- テクノロジー
- 2020/12/25
Image credit: AuthorNumPy is a fundamental library that most of the widely used Python data processing libraries are built upon (pandas, OpenCV), inspired by (PyTorch), or can efficiently share data with (TensorFlow, Keras, etc). Understanding how NumPy works gives a boost to your skills in those libraries as well. It is also possible to run NumPy code with no or minimal changes on GPU¹. The centr
- numpy
- python
- プログラミング
- あとで読む
- 勉強
- IT
- programming
Feature Storeについてふんわり理解する - Re:ゼロから始めるML生活
- 46 users
- www.nogawanogawa.com
- テクノロジー
- 2022/03/21
最近こちらのサイトを参考にfeature storeに関して勉強してみたので、今回はそのメモです。 www.featurestore.org Why：なぜ必要か？機械学習の実運用時の困りごと実験環境と本番環境を揃えたい過去のある時点の状況を再現したい特徴量に関する車輪の再発明をなくしたい歴史的経緯 What：Feature Storeとはなにものか？求められる要件共有性学習系と推論系の一貫性 Feature Engineeringと透明性バージョン管理と再現性ガバナンスとアクセスコントロールバッチとオンライン処理 How：どうやって実現する？標準的なFeature Storeの構成 Serving Storage Transformation Monitoring Registory その他、主なプロダクト群 OSS Feast Hopsworks Rasgo マネ
【Python】データ可視化ライブラリ Altair を使いこなす - Qiita
- 46 users
- qiita.com/keisuke-ota
- テクノロジー
- 2021/06/28
更新のお知らせ好評につきまして Altair のハンズオン資料を大幅アップデートしました。ぜひこちらもご活用ください。概要本稿ではグラフ可視化ライブラリ Altair を用いて、interactive な図を作成する方法を紹介する。前稿では Kaggle のデータセットを用いたが、今回は乱数を用いてクロスセクションデータ（ある一点のデータ）と時系列データをそれぞれ生成し、それぞれに適した可視化を説明する。ハンズオン (2022年11月26日追記) 本稿のipython notebookを公開しました（WEB形式, ソースコード）。よろしければご活用ください。 Altair の長所データ可視化記述フォーマット VEGA に準拠したデザイン streamlit などでサーバーを立てなくても interactive な図を html や vega で出力できる。（interactive
【Python】データ可視化ライブラリAltairハンズオン【基礎編】 - Qiita
- 46 users
- qiita.com/keisuke-ota
- テクノロジー
- 2022/12/05
Altair のようにインタラクティブなグラフを作成できる Python の可視化ライブラリとして、他には Bokeh や Plotly などがあります。それぞれ作成可能なグラフの種類やデザインが異なるため、好みに合わせて使い分けるとよいと思います。個人的な意見としては、三次元モデルの可視化が得意なのは Plotly で、二次元モデルの可視化が得意なのは Altair です。データ作成今回は架空の学校で行われた期末試験の得点をデモデータとして作成します。この学校には学生が 30 人在籍し、普通、特進、理数の 3 コースが存在します。期末試験の科目は国語、数学、理科、社会、英語で各教科 100 点満点とします。 import random import pandas as pd # パラメータ N = 30 # 学生の人数 mu, sigma = 60, 18 # 学力の平均と標準偏差
- Python
- プログラミング
- あとで読む
- qiita
- データ
- clip
- IT
- programming
仕事する前に知っておくと幸せかもしれないpandasのきほん - read関数にはとりあえずURL渡しておけ - Lean Baseball
- 46 users
- shinyorke.hatenablog.com
- テクノロジー
- 2021/06/21
お仕事や, （個人的には）趣味のデータ分析・開発などでpandasをよく使う人です. pandasはPythonでデータサイエンスやデータ分析（解析）をやってると必ずと言っていいほどよく使うライブラリだと思います. お仕事で同僚やインターンが書いたnotebookをよく読む（レビューする）のですが, 煩雑なことやってるけどこれ一行で書けるやで最初からデータを整理するとそんな面倒くさいことしなくても大丈夫やで ...といったコメントを返す機会が増えてきました. これらは当人たちにフィードバックしているのですが, このフィードバックの内容が案外重要な気がしてきたのでブログに書いてみることにしました. 読んだ方の理解・生産性の向上および, 「つまらない仕事が334倍楽になる」ような感じにつながると嬉しいです🙏 TL;DR pandasのread関数にはとりあえずURLを渡しておけ &使うカラ
はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場
- 45 users
- www.ogis-ri.co.jp
- 暮らし
- 2020/07/08
今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transformers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。（本記事公開後に公開されたデータセットで再検証しています。最新情報は第18回をご覧ください。 2021.12.21 追記） 1. はじめに本記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日本語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ
- BERT
- 自然言語処理
- NLP
- あとで読む
- 日本語
- 学習
- ai
LightGBMを使って競馬予想で回収率100％を超えるコードを書いた（その2） - Qiita
- 45 users
- qiita.com/km_takao
- テクノロジー
- 2020/08/31
つまりモデルでは穴馬の当選も予測できているが、卍氏の賭け方では予算の金額によって賭けられる最大オッズが下がってしまい、穴馬に賭けることができなくなります。その影響によりオッズの低い人気馬しか賭けることができず、回収率が下がる要因ともなっているようです。しかしその反対に荒れなかったレースについては卍氏の賭け方のように傾斜をつける方が回収率を上げる要因になっています。なお今考えている予算が10万円の場合、複勝のようにオッズが低い場合（せいぜい5倍前後で）はあまり影響しません。しかし単勝ではオッズが約10倍以上の場合は、最小賭け金が100円のため、特に影響が出るようです。このあたりは賭け金の計算式の定数(今の場合0.01)と自身の予算、モデルの予測値との検討が必要となります。コードの公開 noteにて公開します。またコードの詳細な説明は公開するnote及びnotebook内のコメントにて記
サイエンティストとエンジニアでつくるML ワークフロー - スタディサプリ Product Team Blog
- 45 users
- blog.studysapuri.jp
- テクノロジー
- 2020/12/19
こんにちは、データエンジニアの@masaki925 です。この記事はMLOps Advent Calendar 2020 の19 日目の記事です。 MLOps には、その成熟度に応じて3つのレベルがあると言われています。 MLOps レベル 0: 手動プロセス MLOps レベル 1: ML パイプラインの自動化 MLOps レベル 2: CI / CD パイプラインの自動化私の所属するチームでは現在ここのレベルを上げるべく取り組んでいますが、その中でデータサイエンティスト(以下、DS) とデータエンジニア(以下、Dev) の協業って難しいよな〜と思う事例があったので紹介したいと思います。想定読者は以下のような方です。これからMLOps を始めようとしている方既存プロジェクトがあり、ML 等を使ってエンハンスしていきたいと考えている方異文化協業に興味がある方 ML ワークフロー
株式会社リクルート　データスペシャリストコース新人研修レポート（2021年）①
- 45 users
- blog.recruit.co.jp
- テクノロジー
- 2022/09/14
自己紹介はじめまして！株式会社リクルートにデータスペシャリストとして新卒入社しました橋本大輝と申します。自分は入社当初はデータサイエンティストって結局具体的には何をする仕事なんだろう、エンジニアリングにも興味あるけどどこまで手を伸ばせるのかな、という不安感を持っていたのですが、新人研修を通して社内で触れることができる技術の幅と自由度を知りその不安が大きく解消されました。ここではそんなデータスペシャリスト入社者に向けた新人研修の概要について、個人的に面白かった/ためになったところに重点を置きながら紹介していきたいと思います。全体の流れスケジュールデータサイエンス×ソフトウェアエンジニアリングソフトウェアエンジニアリングデータサイエンスまとめ最後にスケジュール技術に関する研修は全てリモートで実施され、大まかに下図のようなスケジュールで行われました。図1: 研修のスケジ
DS/AIブームは「ソフトランディング」できるか - 渋谷駅前で働くデータサイエンティストのブログ
- 45 users
- tjo.hatenablog.com
- テクノロジー
- 2020/08/13
旧知の友人でもある、アラヤ創業者・社長の金井さん*1が興味深い記事を書かれて評判になっているようです。その内容はズバリ「AIブーム終焉」。AIブームが終焉すれば一種の「連れ高」として再燃していたデータサイエンス・データサイエンティスト(DS)ブームも終焉すると予想されるので、これはDS/AIブームの終焉とも言い換えられそうです。当事者でありながら他人事みたいなことを言うようで気が引けますが、何であれブームというものはいつかは終わりを迎えます。あるもののブームが終わったからといってそのものが滅んでしまうということは一般に多くありませんが、ブームが「ソフトランディング」するかどうかによってその後の状況は変わってくるもの。「浮かれてみんな飛びついていたけれども実は大したことがなかった・金と時間の無駄だった・害悪の方が大きかった」というような感じで反動が強ければ、ブームだったものはその後も定着
- AI
- データサイエンス
- 人工知能
- あとで読む
- データ
- techfeed
- it
- blog
pandas/doc/cheatsheet at main · pandas-dev/pandas
- 44 users
- github.com/pandas-dev
- テクノロジー
- 2022/04/02
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- pandas
- Python
- あとで読む
- data
- tutorial
- github
実装初心者向けにディープラーニングの全体像、実装手順をわかりやすくまとめてみた - Qiita
- 44 users
- qiita.com/y_sayama
- テクノロジー
- 2020/05/24
対象者機械学習、ディープラーニングを一通り勉強したが、実装するときにどう関連するのかわからない人。頭の中を整理したい人。詳しい数学的な説明はchainerチュートリアルを参照すると良い。解説内容ディープラーニングでもっとも一般的な教師あり学習の手順を解説する。また、それに伴う周辺知識を説明する。ディープラーニングのモデルになったものディープラーニングは人の神経細胞における情報伝達の仕組みを真似て作られた。これにより、精度が飛躍的に向上した。ニューラルネットワークの仕組みニューロンのモデル化ニューラルネットワークでは、人間の神経細胞の動きをコンピュータで再現した数式モデルを作る。個々の神経細胞は簡単な演算能力しか持たないが、お互いに繋がり連動することで高度な認識、判断をすることができる。行列や特別な関数の計算をしながら情報伝達の仕組みを数式で再現していく。ニューロンのモ
Python言語による実務で使える100+の最適化問題 | opt100
- 44 users
- scmopt.github.io
- テクノロジー
- 2021/12/13
はじめに本書は，筆者が長年書き溜めた様々な実務的な最適化問題についてまとめたものである．本書は，Jupyter Laboで記述されたものを自動的に変換したものであり，以下のサポートページで公開している．コードも一部公開しているが，ソースコードを保管した Github 自体はプライベートである．本を購入した人は，サポートページで公開していないプログラムを圧縮ファイルでダウンロードすることができる．ダウンロードしたファイルの解凍パスワードは<本に記述>である．作者のページ My HP 本書のサポートページ Support Page 出版社のページ Pythonによる実務で役立つ最適化問題100+ (1) ―グラフ理論と組合せ最適化への招待― Pythonによる実務で役立つ最適化問題100+ (2) ―割当・施設配置・在庫最適化・巡回セールスマン― Pythonによる実務で役立つ
[Dify]現状Difyができないこと - Qiita
- 44 users
- qiita.com/hudebakononaka
- テクノロジー
- 2024/07/12
前提 Difyのバージョンは Dify：0.6.11 Dify：0.6.13です。今の最新バージョンで現状できないことをまとめてみました。いろんな人がXでDifyでできることをあげていってくれていますが、あまりできないことをまとめている人はいなかったのでまとめた次第です。「探索に時間を費やしたけど結局できなかった...」となる人が少なくなること祈って書いています。ループ処理の制限現在のDifyでは、特定の条件を満たすまでループを回す処理の実装が困難です。例えば、Self-RAGのような自己反復型のRAGの実装ができません。一時的解決策現状見つかっていないです。実装方法あったら教えてください。モニタリングツール（LangSmith、Langfuse）との連携 (0.6.12からできるようになりました) できるようになったので、混乱を与えないため内容は削除しました。 AIモデル
- Dify
- AI
- あとで読む
- 人工知能
BigQuery を使って分析する際の tips (part1)
- 44 users
- yoheikikuta.github.io
- テクノロジー
- 2021/11/16
TL;DR BigQuery で分析する際の tips をまとめてみる。長くなりそうなのでいくつかに分割して書く part1 はエディタとして何を使うかとか実行結果の連携などについて書く BigQuery console/DataGrip を使いつつ、結果を GitHub issues/Google Sheets/Bdash Server で共有するという感じで使っている仕事で BigQuery を使って分析することが多いので、いくつかの回に分けて BigQuery を使って分析する際の tips をまとめていくことにする。今回は part1 としてエディタとして何を使うかとか実行結果の連携などについて書く。個人的な探索的・アドホック分析用途の話に限定して、組織的にどういうデータ分析基盤を使うかとかそういう話はしない（会社だと ETL の L として dbt https://www.g
- bigquery
- あとで読む
- tips
- tech
- google
決定木分析を使用して、データ分析を行った話 - エニグモ開発者ブログ
- 44 users
- tech.enigmo.co.jp
- テクノロジー
- 2021/12/07
こんにちは、エニグモでデータアナリストをしている井原です。この記事は Enigmo Advent Calendar 2021 の 7日目の記事です。今日は、実際に業務で、データ分析をした内容を元に、データアナリストがどのような仕事をしているのかをお話したいと思います。データアナリストの仕事世の中では、データアナリストと言われる職種の仕事は多岐に渡ると思います。データマイニング、データ分析基盤の整備、ビジュアライゼーション、KPIの設計、機械学習モデルの構築、etc... エンジニアリングやサイエンスの領域と思われるところを担っているデータアナリストの方もいらっしゃるのではないかと思います。エニグモの場合、データサイエンティストやデータ基盤エンジニアといった、専門家が在籍しています。そのため、データアナリストは、施策の効果検証やサイト上の課題発見といった、ビジネス領域の課題に対し