並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 81件

新着順 人気順

python set index for dataframeの検索結果1 - 40 件 / 81件

  • 日本のウェブデザインの特異な事例

    sabrinas.spaceより。 8週間もかからなかったはずのプロジェクト 日本のウェブデザインはどう違うのか? 2013年のRandomwireのブログ投稿で、著者(David)は、日本のデザインの興味深い相違点を強調しました。日本人はミニマリストのライフスタイルで海外に知られていますが、ウェブサイトは奇妙なほどマキシマリストです。ページには様々な明るい色(3色デザイン原則を破っている)、小さな画像、そして多くのテキストが使われています。2022年11月に撮影されたこれらのスクリーンショットで、自分の目で確かめて下さい。 ブログ投稿には、文化的専門家、デザイナー仲間、そして不満を抱く市民によって支持されている、考えられる理由がいくつか挙げられていました。 この理論が今でも正しいのか、また、もっと定量的なアプローチが可能なのか気になったのでやってみました。 私が見つけたもの 各国の最も人

      日本のウェブデザインの特異な事例
    • 日本株3700社以上を分析。yfinance x「わが投資術」株式スクリーニングアプリを作った話(バイブコーディング)

      いきなりですが。 海外旅行したり働き始めたりすると、日本の良さが身に染みたと感じた人は多いんじゃないでしょうか? なんかとりあえず外で働いてみたいと思っていましたが、今はいつ戻るかと考える日々です。(とにかく温泉に入りたい) また色々と各国を回る中で、日本企業ってアジア圏や他の国にもかなり進出してるんだなぁと実感しました。(そりゃそう) そんなこんなで日本株に興味を持ち 昨年にわが投資術を購入して実践し始めました。(まだ初めて一年目なので成績はわかりません。。。が、マイナスは無し) 自分でバフェットコードや Claude mcp-yfinance などを利用しながらスクリーニングしてみましたが、毎回決算が出るたびに手動とチャット相手にあるのも何かなぁ。と思いまして。 じゃあ自動収集とスクリーニング用のアプリ作ってみよう(vibe coding) そんなノリから、日本株全銘柄を自動収集・簡易

        日本株3700社以上を分析。yfinance x「わが投資術」株式スクリーニングアプリを作った話(バイブコーディング)
      • Bulk insertでも20時間以上かかっていたMySQLへのインサート処理を1時間以内にする - エムスリーテックブログ

        この記事はエムスリー Advent Calendar 2022の30日目の記事です。 前日は id:kijuky による チームメンバーのGoogleカレンダーの休暇予定一覧をスプレッドシート+GASで作った でした。 AI・機械学習チームの北川(@kitagry)です。 今回はMySQLへのインサートを20倍以上高速化した話について書きます。 仕事をちゃんとしてるか見張る猫 TL; DR はじめに 今回のテーブル バイナリログを無効化する 追試 LOAD DATA INFILE 追試 テーブルの正規化 インデックスを一時的に剥がす まとめ We are hiring!! TL; DR バイナリログをオフにする LOAD DATA INFILEを使う インデックスを一時的に消す はじめに AI・機械学習チームではサイトトップからアプリに至るまで多くの推薦システムがあります。 そこでは推薦ロ

          Bulk insertでも20時間以上かかっていたMySQLへのインサート処理を1時間以内にする - エムスリーテックブログ
        • Python×株式投資|仕事終わりでも投資を諦めない。スクリーニング結果を自動通知するBotを作る(中編) - Qiita

          素人が生成AI無料期間中に作る!毎日自動で銘柄スクリーニング&X自動通知Bot これまでの経緯 本記事は、Pythonによる株式スクリーニング自動化・実践の続編です。これまでの背景や検証の流れは、以下の記事をご確認ください。 現在構築中のスクリーニングモデルの全体像と今回やること 生成AI無料期間にスクリーニング結果自動通知botを作り始めた 今回のモデルのスクリーニング速度を100倍向上した方法 yfinance由来の軽量データセット構築 今回のモデルの改善点 今回のスクリーニングモデルの精度 相場状況を簡易的に数値化する 財務スクリーニング *2025年7月7日 リンク修正しました。お知らせいただきありがとうございました。 はじめに 毎日自動で銘柄スクリーニングの結果を知れたら、仕事が終わった後の疲れたの脳でも、めんどくさがらずに、お布団に吸引されることもなく、定期的に投資が続けられる

            Python×株式投資|仕事終わりでも投資を諦めない。スクリーニング結果を自動通知するBotを作る(中編) - Qiita
          • 日々のExcel管理を効率化するPythonスクリプトをChatGPTに作ってもらう - Taste of Tech Topics

            最近は朝型にシフトしてウォーキングを始めました。菅野です。 皆さんは日々の業務でどれぐらいExcelを用いているでしょうか? 表計算ソフトであるExcelですが、計算のみならず、グラフ描画や、文章を表形式でまとめたり、マニアックな使い方ではアニメーションの作成までできてしまいます。 エンジニア以外の方も業務で使用することが多いのではないでしょうか? しかしながら、業務上でExcelを用いると、日々の煩雑な作業が多くなりやすい印象です。 エンジニアであればVBA等を調べてマクロを作るといったことも可能ですが、一般の人にはハードルが高くなってしまいがちです。 今回はそんなExcelを用いた業務をChatGPTにPythonスクリプトを作ってもらうことで効率化してみましょう。 今回のテーマではGPT-4のモデルを使用します。 また、CodeInterpreterで対象のExcelファイルを読み込

              日々のExcel管理を効率化するPythonスクリプトをChatGPTに作ってもらう - Taste of Tech Topics
            • Gemini 2.5 Proと取り組んだデータ分析のリアルな道のり - Nealle Developer's Blog

              はじめに はじめまして。Analyticsチームの清水です。 2024年12月に入社しまして、約4ヶ月が経過しました。今回が初めてのテックブログになります。 ▼先日、入社エントリも公開しました。 本稿のテーマは、自由記述のテキストをラベリングして分類する分析タスクに対し、Geminiと共に取り組んで分かったことの共有です。 私は生成AIをそれほどたくさん使った経験があるわけではないので、これが最良の使い方というわけではないと思いますが、どのようにプロンプトを組み立て、どう効率的に分析を進められたのかを可能な限りリアルに書いていきます。 ※今回利用したモデルは、Gemini 2.5 Proです。 はじめに Geminiを活用したデータ分析の進め方 フェーズ0: アプローチの模索 - Notebook LMや教師なし学習の試行 フェーズ1: データ理解とラベルチェック - コード生成と探索的分

                Gemini 2.5 Proと取り組んだデータ分析のリアルな道のり - Nealle Developer's Blog
              • 遅くないpandasの書き方 - ML_BearのKaggleな日常

                これは何? この記事は Kaggle Advent Calendar 2021 の7日目の記事です。 pandasはデータ分析ライブラリとして非常に便利ですが、書き方を間違えると簡単に処理が遅くなってしまうという欠点があります。そこで、この記事では遅くならない書き方をするために気をつけたいポイントをいくつかご紹介したいと思います。 この Colab Notebookの実行結果をエクスポートした上で、不要な部分を一部削って記事にしています。colab notebook をコピーして実行してもらえれば再現することが可能なはずです。(colabにコメント等をいただいても返すことはできないと思います、すみません。) 前提条件 この記事ではあくまで「遅くない(なりづらい)書き方を紹介する」ことに努めます。よって、以下のような改善点はあるが一旦考慮の外におくものとして話を進めます。 並列化ライブラリ

                  遅くないpandasの書き方 - ML_BearのKaggleな日常
                • 次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェント デベロッパーズブログ

                  ※ DynalystではAWSを全面的に採用しているため、AirflowもManaged版を調査しています。 導入後の状態 Prefect導入後は、以下の構成となりました。 ポイントは以下の点です。 ワークフローをDocker Image化することで、開発・本番環境の差を軽減 staging・productionはECS Taskとしてワークフローを実行、開発ではローカルPC上でコンテナ実行 ML基盤のGitHubレポジトリへのマージで、最新ワークフローが管理画面であるPrefect Cloudへデプロイ 従来のyamlベースのdigdagから、DSに馴染み深いPythonベースのPrefectに移行したことで、コード量が減り開発負荷が軽減しました。 Prefect 入門 ~ 基礎 ~ 注意: 本記事ではPrefect 1系を扱います。Prefect 2系が2022年7月にリリースされてい

                    次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェント デベロッパーズブログ
                  • 時系列データを前処理する際のPython逆引きメモ - EurekaMoments

                    機械学習のための「前処理」入門 作者:足立悠リックテレコムAmazon 目的 データ分析の仕事をする中で最も扱う機会が多いのが 時系列データだと思います。その中で欠損値を扱ったり、 統計を取ったり、特徴量を作り出したりするのですが、 毎回やり方を忘れてググっているので、上記の書籍を読んで こういった前処理の方法をいつでも確認できるように メモしておこうと思います。 目次 目的 目次 日時のデータをdatetime型に変換する 最初の日時からの経過時間を計算する 各データの統計量を計算する 欠損値の確認と補完 経過時間の単位を変換する データフレーム結合する 基準日時からの経過時間を計算する 重複した行を削除する 特定のデータ列をインデックスにする 部分的時系列を抽出して統計量を計算する データフレームの各列をリストにして結合する 不均衡データから教師データを作成する データの読み込みと可視

                      時系列データを前処理する際のPython逆引きメモ - EurekaMoments
                    • MicrosoftのGraphRAG+Neo4jで簡単にKnowledge Graphを可視化する - Taste of Tech Topics

                      こんにちは。データサイエンティストチームYAMALEXのSsk1029Takashiです。 LLMが広く使用されるようになってから、RAGに関する研究も増加し、RAGを拡張する手法の研究も多く出ました。 その中でもテキストをグラフデータとして扱いRAGの元データとする手法をGraphRAGと言います。 今回はその中の一つであるMicrosoftが提唱しているGraphRAGの手法を使っていきます。 www.microsoft.com MicrosoftからはGraphRAGを使用できる実装もPythonライブラリとして発表されています。 ライブラリではグラフデータはあくまでRAGの元データとして使用していますが、せっかくテキストからグラフが生成できるのであれば、テキストマイニングしてみたくなるものです。 そこで、本記事ではこの手法で作成したグラフをグラフDBの一つであるNeo4jに投入して

                        MicrosoftのGraphRAG+Neo4jで簡単にKnowledge Graphを可視化する - Taste of Tech Topics
                      • JuliaとPythonを併用したデータ処理のススメ - MNTSQ Techブログ

                        Pythonでデータ処理をしている際、numpyにはまらないごちゃごちゃした前処理があり、ちょっと遅いんだよなぁ。。。となること、ないでしょうか。 ルーチンになっている解析であれば高速化を頑張る意味がありそうですが、新しい解析を試行錯誤している最中など、わざわざ高速化のためのコードをガリガリ書いていくのは辛いぐらいのフェーズ、ないでしょうか。 こんなとき、私はJuliaを使っています。Juliaは特別な書き方をしなくても高速になる場合が多く、並列処理も簡単にできます。 julialang.org Julia、いいらしいが名前は聞いたことがあるけど使うまでには至ってない、という方がと思います。今まで使っているコードの資産を書き直すのは嫌ですよね。 しかし、JuliaにはPythonの資産を活かしつつ高速にデータ処理がするための道具がそろっています。 今回の記事はPythonとJuliaをいっ

                          JuliaとPythonを併用したデータ処理のススメ - MNTSQ Techブログ
                        • 競馬必勝本は本当に当たるのかを検証!〜Pythonで実装する馬券自動選択ツール〜 - エニグモ開発者ブログ

                          こんにちは、サーバーサイドエンジニアの竹本です。 この記事は Enigmo Advent Calendar 2020 の3日目の記事です。 みなさまは2020年に買った中でよかったものはなんでしょう? 私はiPadです。 最新 Apple iPad Pro (12.9インチ, Wi-Fi, 128GB) - シルバー (第4世代) 発売日: 2020/03/25メディア: Personal Computers 主にkindleを見開きで読むことに活用しています。 エニグモの福利厚生の一つ「エンジニアサポート」で5万円の補助を受けました。わーい。 https://enigmo.co.jp/recruit/culture/ そしてみなさまは馬券、買っていますか? 馬券は競馬に賭ける際に購入する投票券です。 1口100円から、ネットでも気軽に購入することができます。(競馬は20歳から) 弊社にも

                            競馬必勝本は本当に当たるのかを検証!〜Pythonで実装する馬券自動選択ツール〜 - エニグモ開発者ブログ
                          • 素人でも1ヶ月 Causal Impact で遊んだら、統計的有意差が見えるようになった話 - ブログ - 株式会社JADE

                            こんにちは。2024年5月にJADEに入社した江越です。 前職でデータ加工を生業としていた関係で、現在はデータ分析に関わるサポートをメインに取り組んでいます。……とはいえ、法学部出身ということもあり、統計やデータ分析に関しては「素人に毛が生えた程度」の知識しかありません。 今回は、そんな統計素人の私が Causal Impact という分析パッケージに1ヶ月間触れてみた結果、施策の効果を統計的かつ定量的に説明できる手段が得られた経験をシェアしたいと思います。 【もくじ】 Causal Impactとの出会い 効果検証について持っていた課題感 Causal Impact を知る前の効果検証手段 上記の説明の何が問題なのか? 実際に遊んでみる Causal Impactとは一体何者だ! 何をすれば良いか整理してみる inputとthroughを用意して実行してみる 統計的有意差が見える……見え

                              素人でも1ヶ月 Causal Impact で遊んだら、統計的有意差が見えるようになった話 - ブログ - 株式会社JADE
                            • Python×株式投資:従来の100倍!銘柄選抜のバックテストを高速化した話 - Qiita

                              # ----------------------------- # 2nd Screening V1 # ----------------------------- import time global_start_time = time.time() from google.colab import drive drive.mount('/content/drive') import pandas as pd import numpy as np import os from tqdm.notebook import tqdm import yfinance as yf from curl_cffi import requests # -------------------------------------------------- # ヘルパー関数定義セクション # --------

                                Python×株式投資:従来の100倍!銘柄選抜のバックテストを高速化した話 - Qiita
                              • 検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ

                                エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は社内でPyTerrierを採用して文書検索BatchをPythonで実装したので、PyTerrierの紹介とPyTerrierで日本語検索を実装する方法を紹介します(日本語でPyTerrierを扱う記事は多分初?)。 PyTerrierとは 弊社でのPyTerrier利用 PyTerrierで日本語検索 Phrase Queryの注意点 まとめ We're hiring !!! PyTerrierとは Terrierのロゴ PyTerrierは、Pythonでの情報検索実験のためのプラットフォームです。 JavaベースのTerrierを内部的に使用して、インデックス作成と検索操作を行うことができます。基本的なQuery RewritingやBM

                                  検索エンジンPyTerrierを使った日本語検索パイプラインの実装 - エムスリーテックブログ
                                • the peculiar case of japanese web design - sabrinas.space

                                  the peculiar case of japanese web design a project that should not have taken 8 weeks how is japanese web design different? in this 2013 Randomwire blog post, the author (David) highlighted an intriguing discrepancy in Japanese design. While the nation is known abroad for minimalist lifestyles, their websites are oddly maximalist. The pages feature a variety of bright colours (breaking the 3 colou

                                  • 生成AIを駆使して、バーチャル水田で稲作をシミュレート - Insight Edge Tech Blog

                                    こんにちは。InsightEdgeのDataScientistのSugaです。最近もサウナに通っていますが、サウナ好きのなかではオロポという飲み物があります。 オロナミンC+ポカリスエットというもので独特な味がして気にっています。さて、今回は、生成AIを駆使して、バーチャル水田で稲作をシミュレーションしてみようと思います。 取り組むきっかけ 最近のニュースから 最近のニュースを見ていたら、「農林水産省、「天穂のサクナヒメ」とコラボ」という記事がありました。知らない方もいると思うので、少し説明すると、「天穂(てんすい)のサクナヒメ」というゲーム作品が2020年にリリースされました。ゲームの中で米作りの工程をする必要があり、その内容がとてもリアルだと話題になりました。さらに、農林水産省の公式WEBサイトがゲームの攻略に使えるということがわかり、そのことがニュースになっていたりしました。 You

                                      生成AIを駆使して、バーチャル水田で稲作をシミュレート - Insight Edge Tech Blog
                                    • 「500年後に日本人が佐藤だけになる」という試算の問題と改善 - ill-identified diary

                                      この記事の要約 はじめに 問題点の要約 (追記) 先行研究について GARCH(っぽい)モデルによるシミュレーション シミュレーション前の理論分析 選択的夫婦別姓との比較 (追記) ゴルトン゠ワトソン分枝過程について 使用するデータ シミュレーションの技術的な補足 乱数生成について GARCHモデルの結果 シミュレーションの追試 より複雑なシミュレーションについて 男女別 世代重複 創作苗字 三親等の婚姻禁止ルール より高度な人口学的モデル 結論 2024/4/22: 先行研究とゴルトン゠ワトソン分枝過程の解説の追記 2024/4/23: 多数の言い回しのおかしい箇所の校正 2024/4/24: グラフ上の記載ミスとグラフ描画コードを修正 この記事の要約 先日報道された「500年後に日本人が佐藤だけになる」という試算の内容に違和感を覚えた. 資料を確認してみると, 大きな問題のある方法で試

                                        「500年後に日本人が佐藤だけになる」という試算の問題と改善 - ill-identified diary
                                      • Qlibを使った機械学習パイプライン環境の構築 投資の取引戦略最適化と機械学習モデル作成の省力化を目指して - 株のシステムトレードをしよう - 1から始める株自動取引システムの作り方

                                        概要 はじめに Qlibの試用 動作条件 使用したrequirements.txt データの取得 予測の実施 出力 図示 ソースコード バックテストでのポートフォリオ分析 リスク分析、分析モデル おわりに 概要 本記事では、Qlibを使用して、機械学習パイプライン環境を構築する第一歩について述べる。 はじめに このブログの趣旨としては、当初は「戦略作成」→「戦略検証」→「戦略稼働」→「成果の評価」→「戦略へフィードバック」といったサイクルを管理できるような自動トレーディングシステムを作ることを考えていた。 最近、すこし株取引から離れていたのだが、最近になってまたやり始めようかなと思い、色々と現在の状況を調べはじめた。 その中で、MicrosoftのリポジトリにQlibというものがあるのを見つけた。これが2020年の8月から作られたもので、現在でもメンテされており、もしかするとこれがやりたい

                                          Qlibを使った機械学習パイプライン環境の構築 投資の取引戦略最適化と機械学習モデル作成の省力化を目指して - 株のシステムトレードをしよう - 1から始める株自動取引システムの作り方
                                        • Python Pandasを使った時系列データの移動平均計算: 実装と分析技法 - Qiita

                                          はじめに 時系列データの分析は、ビジネス、金融、科学研究など、様々な分野で重要な役割を果たしています。その中でも、移動平均は最も基本的かつ強力なツールの一つです。この記事では、Pandasを使用した移動平均の計算と可視化について、基礎から応用まで幅広く解説します。 この記事を読むメリット 実践的なデータ分析スキルの向上: 単純な移動平均から適応型移動平均まで、様々な手法の実装方法を学べます。これらのスキルは、株価予測、需要予測、センサーデータの分析など、実務で即座に活用できます。 効率的なコード設計とパフォーマンス最適化: 大規模データセットの処理技術や、再利用性の高いコード設計について学べます。これにより、より効率的で保守性の高い分析プログラムを作成できるようになります。 分析手法と可視化技術の習得: 移動平均の交差シグナルやボリンジャーバンドなど、分析手法と、それらを効果的に可視化する

                                            Python Pandasを使った時系列データの移動平均計算: 実装と分析技法 - Qiita
                                          • 4 Pandas Anti-Patterns to Avoid and How to Fix Them

                                            pandas is a powerful data analysis library with a rich API that offers multiple ways to perform any given data manipulation task. Some of these approaches are better than others, and pandas users often learn suboptimal coding practices that become their default workflows. This post highlights four common pandas anti-patterns and outlines a complementary set of techniques that you should use instea

                                              4 Pandas Anti-Patterns to Avoid and How to Fix Them
                                            • Deep learning等の精度評価に便利なPyCMの紹介と各種指標の比較 - OPTiM TECH BLOG

                                              OPTiM TECH BLOG Advent Calendar 2020 12/8 の記事です。 お久しぶりです。R&Dの加藤です。最近買った大きな買い物はDAHONのK3です。 購入したのは8月末ですが、11月に入るまでスタンドが手に入らなかったです。現状の不満点は空気が入れにくいという事だけですね。輪行するには最適な自転車です。 去年執筆したこの記事はいまだに定期的にアクセスがあって嬉しいですね。まだ読んでない方は是非こちらも読んでみてください。 今回の記事はこれの補足に加え、コードを加えた実践的な内容になります。 tech-blog.optim.co.jp 記事執筆のモチベーションとしては、「最近PyCMというライブラリを使い始めたら思いのほか便利だったので伝えたい」という事なんですが、なかなかボリュームのある記事になってしまいました。忙しい人は必要な章だけかいつまんで読んでください

                                                Deep learning等の精度評価に便利なPyCMの紹介と各種指標の比較 - OPTiM TECH BLOG
                                              • wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT docomo Business Engineers' Blog

                                                この記事は NTTコミュニケーションズ Advent Calendar 2021 の20日目の記事です。 はじめに こんにちは。プラットフォームサービス本部アプリケーションサービス部の是松です。 NTTコミュニケーションズでは自然言語処理、機械翻訳、音声認識・合成、要約、映像解析などのAI関連技術を活用した法人向けサービスを提供しています。(COTOHA シリーズ) NTTコミュニケーションズがこのようなAI関連技術を活用したサービスを展開する強みとして、 NTT研究所の研究成果が利用可能であること 自社の他サービスを利用しているお客様に対してシナジーのあるサービスを提案できること この2点が挙げられると思います。 実際に、私が担当している COTOHA Voice Insight は 通話音声テキスト化によってコンタクトセンターの業務効率化・高度化を実現するサービスなのですが、 NTT研

                                                  wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT docomo Business Engineers' Blog
                                                • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第3/5 章 機械学習データの整形~ - LabCode

                                                  AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeeni

                                                  • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第5/5 章 候補化合物のin silico screening~ - LabCode

                                                    AI創薬とは?AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeenin

                                                    • アルゴリズムトレード入門 ~ python で自動取引を始めてみる ~ - GMOインターネットグループ グループ研究開発本部

                                                      はじめに こんにちは、次世代システム研究室のT.I.です。 みなさま、本日もお仕事お疲れ様です。今回は楽して儲けたい(?)というテーマで株式や為替などの自動取引について紹介したいと思います。過去にも同様のテーマでのブログはありますが、いったん初心にかえって1から入門編として始めたいと思います。AIで自動取引というと小難しい数学を駆使して応用すると思われるかもしれませんが、実は簡単な計算の組み合わせだけで出来るので実際に手を動かして感覚を掴んでいただければと思います。 Pythonでゼロ(?)から始める自動取引 データ収集 まず、最初にデータを準備する必要があります。為替レートや株価などは様々なsiteで公開されていますが、一旦 download したり、少々手間ですよね。python library の1つである、pandas_datareader を利用すると、簡単に様々なデータソースか

                                                        アルゴリズムトレード入門 ~ python で自動取引を始めてみる ~ - GMOインターネットグループ グループ研究開発本部
                                                      • Building a recommendation engine inside Postgres with Python and Pandas | Crunchy Data Blog

                                                        Building a recommendation engine inside Postgres with Python and Pandas I'm a big fan of data in general. Data can tell you a lot about what users are doing and can help you gain all sorts of insights. One such aspect is in making recommendations based on past history or others that have made similar choices. In fact, years ago I wrote a small app to see if I could recommend wines based on how oth

                                                          Building a recommendation engine inside Postgres with Python and Pandas | Crunchy Data Blog
                                                        • Vertex Feature Storeの機械学習システムへの導入 - ZOZO TECH BLOG

                                                          こんにちは、データシステム部推薦基盤ブロックの寺崎(@f6wbl6)です。現在、推薦基盤ブロックではデータサイエンス部MLOpsブロックのメンバーと協力しながらMLOps基盤の構築を進めています。本記事ではMLOps基盤構築の一環として進めているVertex Feature Storeの機械学習システムへの導入に関する知見およびVertex Feature Storeを導入する上での制限や課題をご紹介します。 MLOps基盤に関する取り組みについては以下のテックブログでも取り上げていますので、こちらもご参照ください。 techblog.zozo.com techblog.zozo.com techblog.zozo.com 推薦基盤ブロックが抱える機械学習システムの課題 機械学習システムの課題に対する取り組み Feature Store 概要 Feature Storeの選定 Vertex

                                                            Vertex Feature Storeの機械学習システムへの導入 - ZOZO TECH BLOG
                                                          • LLRを使った複合語分割で医療用語辞書を検索特化させたい - エムスリーテックブログ

                                                            エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。好きな言語はGo。情報検索系の話が好物です。 今回はネット上に公開されている医療用語辞書を検索特化させるために統計的複合語分割を試したお話です。 医療用語辞書を検索で使う際の問題 辞書の複合語分割問題 辞書による複合語分割の指定 分割単位をどのように決めるか問題 対数尤度比を使った複合語分割 対数尤度比とは 医療用語辞書を対数尤度比で複合語分割しない単語を抽出 クエリログも含めたLLR まとめ We're hiring !!! 医療用語辞書を検索で使う際の問題 辞書の複合語分割問題 現在公開されている医療用語辞書には様々なものがあります。例えばComeJisyoは形態素解析での用途を想定した医療用語辞書です。しかし、これをそのまま検索用の辞書として利用すると、辞書に登録さ

                                                              LLRを使った複合語分割で医療用語辞書を検索特化させたい - エムスリーテックブログ
                                                            • 【仮想通貨・株・FX】海外で人気のSuperTrendインジケーターをPythonで再現してみる - Qiita

                                                              概要 記事タイトル通り、巷で人気のSuperTrendインジケーターをPythonで再現してみます。 現在における相場の方向性が視覚的にわかりやすく、なおかつトレンドが明確な曲面においては強力なパワーを発揮するため、ぜひシステムトレードや分析などに組み込んでみたいと思いました。 SuperTrendインジケーターとは SuperTrendインジケーターは、フランスの投資家であるOliver Seban氏が考案したトレンドフォロー型のインジケーターです。 参照記事: Olivier Seban – The Inventor of the SuperTrend Indicator 同氏は32歳という若さで億万長者となり、35歳でリタイアを決意。これまで投資に関する多くの著書も出版されているようで、一部の界隈では有名人とされています。 具体的にどんなインジケーターなのかというと、一定期間における

                                                                【仮想通貨・株・FX】海外で人気のSuperTrendインジケーターをPythonで再現してみる - Qiita
                                                              • Python Dask入門 小さなマシンで大きなデータを扱う最初の一歩

                                                                Pandas が登場してから Python はデータ分析の事実上の標準言語になりました。 しかし、データ量が数千万行を超えると途端に RAM が足りない・処理が遅い という現実にぶつかります。 クラスタ環境に逃げる選択肢もありますが、準備・コスト・学習コストを考えると “ちょっと重い” だけのデータに対してはオーバーキルです。 そこで登場するのが Dask。 以下 3 点が現場エンジニアにとって大きな魅力です。 API 類似度 90 %: 既存の Pandas/NumPy 知識をそのまま使える。 遅延評価 × 並列化: PC のコア数を自動で使い切り、メモリフットプリントを抑制。 スケールラインが滑らか: ローカル PC → 分散クラスタへ“ほぼ同じコード”で移行可能。 今回は「大量 CSV を集計する」という 典型的に重くなる処理 を通して、Dask がどのように恩恵をもたらすかを見てみ

                                                                  Python Dask入門 小さなマシンで大きなデータを扱う最初の一歩
                                                                • Python Jupyter Notebooks in Excel

                                                                  Jupyter Notebooks in Microsoft Excel. Image by the author.It used to be an “either/or” choice between Excel and Python Jupyter Notebooks. With the introduction of the PyXLL-Jupyter package now you can use both together, side by side. In this article I’ll show you how to set up Jupyter Notebooks running inside Excel. Share data between the two and even call Python functions written in your Jupyter

                                                                    Python Jupyter Notebooks in Excel
                                                                  • 衛星データでここまでできる! ヤッホーが綺麗に返ってくる場所(やまびこスポット)の解析とシミュレーション | 宙畑

                                                                    衛星データでここまでできる! ヤッホーが綺麗に返ってくる場所(やまびこスポット)の解析とシミュレーション 8月11日の山の日にちなんで、衛星データを活用してやまびこスポットが分かるのかのシミュレーションにチャレンジ。やまびこの文化や歴史と合わせてお楽しみください。 皆さんは山登りをした際に、綺麗な山が一望できる場所で「ヤッホー」と叫んだことがありますか? その時に山から「ヤッホー」と叫んだ声が返ってくる現象を”やまびこ”といいます。 ただ、もしかしたらやまびこが返ってこなくて残念な気持ちになった方もいらっしゃるかもしれません。 本記事はやまびこについて、どのような場所であれば聞こえるのかを衛星データをはじめとしたリモートセンシングの知識を活用にすることで調査していく内容になっています。 本記事は8月11日の山の日に合わせて企画した、やまびこの名所を探る企画の1本目となります。2本目からは株

                                                                      衛星データでここまでできる! ヤッホーが綺麗に返ってくる場所(やまびこスポット)の解析とシミュレーション | 宙畑
                                                                    • スプレッドシートをバックエンドにした社内データアプリ構築方法

                                                                      本記事では、スプレッドシートをバックエンドにして社内データアプリを構築するための複数の手段を紹介します。それぞれの手段のメリット・デメリットのまとめに加え、ニーズの高まっているAI機能の観点からの違いについてもご紹介します。 多くのチームでは、その利便性の高さから日々のデータをGoogleスプレッドシートで蓄積・管理することが珍しくありません。では、いざスプレッドシートをバックエンドとしてデータアプリを構築しようとするとどのような手段があるのでしょうか? コードベース / ローコード / ノーコード 社内データアプリ構築の手段を分類すると、コードベースでの開発 / ローコードツールでの開発 / ノーコードツールでの構築に分類されます。それぞれの概要と代表的なサービスは以下のとおりです。 コードベース コードベースでデータアプリを構築します。オープンソースのフレームワークが複数存在し、コード

                                                                        スプレッドシートをバックエンドにした社内データアプリ構築方法
                                                                      • Pythonを利用した外国為替取引(FX)の自動化 - Python転職初心者向けエンジニアリングブログ

                                                                        外国為替取引(FX)は、通貨の相対的な価値変動を利用して利益を追求する投資手法の一つです。この記事では、Pythonを使用してFX取引を自動化する方法について詳しく説明します。自動化することで、トレードの機会を見逃さず、効率的にポジションを管理することが可能となります。 FX取引の基本 FX取引では、通貨ペアの価格変動を予測し、それに応じて売買を行います。主要な通貨ペアには、EUR/USD(ユーロ/米ドル)、USD/JPY(米ドル/日本円)などがあります。価格変動には様々な要因が影響しますが、経済指標や政治的な出来事が大きな影響を与えることがあります。 PythonとFX取引 Pythonは豊富なライブラリとユーザーフレンドリーな構文を持つ言語であり、金融データの分析やトレードアルゴリズムの開発に適しています。FX取引を自動化するためには、まずAPIを使用してリアルタイムな市場データを取得

                                                                          Pythonを利用した外国為替取引(FX)の自動化 - Python転職初心者向けエンジニアリングブログ
                                                                        • 【Python】位置情報解析ライブラリscikit-mobilityについて① ~scikit-mobilityとは?~ - Qiita

                                                                          Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1. scikit-mobilityとは? scikit-mobilityは位置情報データを使用して人の動きを解析したり、可視化することができるpythonライブラリです。 公式ドキュメント:https://scikit-mobility.github.io/scikit-mobility/index.html GitHub:https://github.com/scikit-mobility/scikit-mobility 公式ドキュメントは英語しかありませんが結構充実していて、 GitHubにはチュートリアル等も載っているので試して

                                                                            【Python】位置情報解析ライブラリscikit-mobilityについて① ~scikit-mobilityとは?~ - Qiita
                                                                          • PyTorch Tabular – A Framework for Deep Learning for Tabular Data

                                                                            It is common knowledge that Gradient Boosting models, more often than not, kick the asses of every other machine learning models when it comes to Tabular Data. I have written extensively about Gradient Boosting, the theory behind and covered the different implementations like XGBoost, LightGBM, CatBoost, NGBoost etc. in detail. The unreasonable effectiveness of Deep Learning that was displayed in

                                                                              PyTorch Tabular – A Framework for Deep Learning for Tabular Data
                                                                            • 機械学習のカリブレーションとビジネスの関係 〜ローンのパーソナライゼーション | gihyo.jp

                                                                              本稿は「本当は書籍『評価指標入門』に書きたかったんだけど諸般の理由により書ききれなかった内容をgihyo.jpを借りて成仏させていく企画」の第一段「カリブレーション(Calibration、確率較正⁠)⁠」です。特に「機械学習のカリブレーションとビジネスの関係性を検討」してみたいというモチベーションで執筆します。 日本語では“⁠確率較正⁠”とも呼ばれるこの計算ですが、個人的にはカリブレーションという方が好きなので、ここではカリブレーションと統一して書きます。 早速ですが、まずカリブレーションとは「分類問題において、機械学習モデルの出力([0, 1]の値)をデータのクラス分布に近づける」ことです。例えば、二値分類問題において、モデルがあるデータ点に対して1を予測する確率が0.8である場合、そのデータ点が実際に1である割合も0.8になるように確率の数値を修正してしまう(これが較正)ということで

                                                                                機械学習のカリブレーションとビジネスの関係 〜ローンのパーソナライゼーション | gihyo.jp
                                                                              • ML Pipeline事始め – kedro(+notebook)とMLflow Trackingで始めるpipeline入門 – - GMOインターネットグループ グループ研究開発本部

                                                                                2020.07.06 ML Pipeline事始め – kedro(+notebook)とMLflow Trackingで始めるpipeline入門 – こんにちは。次世代システム研究室のT.S.です AI/機械学習が不可欠となった昨今、数多くの方がKaggleなどの分析コンペ参加から機械学習モデルの実験、そして本番環境への適用まで色々実施してらっしゃると思います。 私もその一員で、日々モデルの実験から本番機械学習基盤の構築まで色々な分野の機械学習関連業務に従事しております。 そうした中で(皆様も同じ悩みを抱えているかと思いますが)実験->本番適用->運用に渡って、色々な悩みを抱えています。 一例ですが、こん悩みがあります 実験を複数回繰り返した結果、実行結果とハイパパラメータの組み合わせがゴチャゴチャになる 実験時の処理がモジュール化していないため、処理順序の入れ替えや追加が困難 実験時

                                                                                  ML Pipeline事始め – kedro(+notebook)とMLflow Trackingで始めるpipeline入門 – - GMOインターネットグループ グループ研究開発本部
                                                                                • 「生成AI × 数理最適化」が変える、次世代の業務デザイン - NTT docomo Business Engineers' Blog

                                                                                  本記事では、現在進行中で取り組んでいるテーマ「生成AI×数理最適化」に関する試みとして、生成AIを活用して数理最適化技術の実務適用を支援するアプローチを紹介します。例として、スーパーマーケットにおける在庫管理の効率化を取り上げ、その具体的な応用と効果について述べます。 はじめに 背景 数理最適化モデルの定式化と実装に伴う困難 生成AIの台頭 実現アプローチの検討 生成AI活用の全体像 在庫最適化の課題設定 実現までのステップ 1. 定式化支援エージェントによる定式化支援 2. 入力データ設計支援エージェントによるデータ設計支援 3. Node-AIを活用したデータの準備 4. コード生成エージェントによる実行コード生成 5. 作成されたコードの実行と結果 まとめ おわりに はじめに こんにちは、イノベーションセンター テクノロジー部門 先端AI数理PJの伊藤です。 普段はNode-AIやA

                                                                                    「生成AI × 数理最適化」が変える、次世代の業務デザイン - NTT docomo Business Engineers' Blog