タグ

pythonと*dataに関するsh19910711のブックマーク (392)

  • Hugging Face + LanceDB で加速する、製造業のためのマルチモーダルベクトル DB 入門

    OpenDAL があれば、Lance / LanceDB のデータアクセスコードを一度書けば、どのストレージでもそのまま動作する。エッジデバイスのローカル SSD に保存した Lance テーブルを、設定変更だけでクラウドの S3 に同期する、といった運用がコード変更なしに実現できるのである。 これは前述の「エッジとクラウドを統合的に扱えるレイクハウス」というビジョンを、ストレージレイヤーで実現する鍵となる技術である。Lance がデータフォーマットの統一を担い、OpenDAL がストレージアクセスの統一を担う——この二つが組み合わさることで、エッジからクラウドまでシームレスなデータパイプラインが構築できる。 Hugging Face × Lance 統合がもたらすインパクト ここまで紹介した技術要素を踏まえて、今回の Hugging Face × Lance 統合が何を変えるのかを整理す

    Hugging Face + LanceDB で加速する、製造業のためのマルチモーダルベクトル DB 入門
    sh19910711
    sh19910711 2026/03/20
    "LanceDB はディスクベース(disk-first) で設計 / 検索時に必要なインデックスやデータの断片だけをディスクからオンデマンドで読み込み、Apache Arrow を活用したゼロコピーアクセスでメモリコピーのオーバーヘッドも最小化"
  • Snowflake Notebooksが速すぎる

    クエリ最適化、使いこなせてますか? データ分析業務でSnowflake Notebooksを使っている私が、良さを最大に引き出すテクニックをご紹介します。大容量データを爆速で集計して、コーナーで差をつけましょう! はじめに NTTデータの齊藤青葉です。クラウドDWHであるSnowflakeのデータを使って分析する毎日を過ごしています。 もともと、Jupyter Notebookで集計分析を行っていましたが、Snowflake Notebooksを使ってみたところ集計スピードが上がり、クラウドBIツールとの相性も良いこと、自動化もできることから良さに気づき、乗り換えて使っています。 データ基盤としてSnowflakeを使う企業も増えつつあり、そんな皆様がSnowflake環境を使いこなす一助になれたらと思います。 3行で結論! まずは3行で結論です。 Snowflake Notebooksは

    Snowflake Notebooksが速すぎる
    sh19910711
    sh19910711 2026/01/11
    "両データフレームの中間にあたるSnowpark pandasデータフレームというものがあり / pandasの記法で書けば裏でsnowparkデータフレームとして扱いますよ、という機能"
  • 実務で使った重回帰分析による効果検証のメモ(Python) - Qiita

    概要 目的:教育関連データを題材に、補習・研修の参加が学習成果に与える影響を重回帰分析で検証 手法:t検定+重回帰モデル(処置変数+制御変数)を用い、観測データの交絡因子を調整 主な結果:処置変数「準備コース受講」が平均+5.50点上昇(p < 0.001)を示し、効果の可能性を示唆 はじめに 業務で施策や介入の効果を定量的に検証する機会があります。 教育データなので、観測できない因子があるという前提で検証しています。 特に「A/Bテストのような実験設計ができないケース」で、 重回帰分析を使った効果検証(因果推論の第一歩) を試しているので、備忘録としてまとめます。 ※業務での知見を整理した学習メモです。 背景 現場では「完全なランダム実験(A/Bテスト)」を行うのが難しいです。 たとえば教育現場(実社会でも同様!?): 希望者のみが補習や研修に参加する 特定のクラスや部署だけ施策を実施す

    実務で使った重回帰分析による効果検証のメモ(Python) - Qiita
    sh19910711
    sh19910711 2025/11/24
    "教育関連データを題材に、補習・研修の参加が学習成果に与える影響 / 希望者のみが補習や研修に参加 + 特定のクラスや部署だけ施策を実施 / 参加する人自体にバイアス(=交絡因子) がある"
  • SQLModel入門〜クエリと型〜

    sh19910711
    sh19910711 2025/10/06
    2024 / "SQLModel: Pydanticと同じ簡潔なモデル定義とSQLAlchemyの豊富なクエリメソッド / 取得・更新やユーザータイプでモデルを分割する"
  • Qdrantで日本語のキーワード検索(BM25)を実装する - Qiita

    この記事は NTTコムウェア Advent Calendar 2024 19日目 の記事です。 こんにちは、NTTコムウェアの 佐々木 哲平 です。 普段は LLM に関するプロダクト開発に携わっており、最近は RAG の精度向上や機能改善に取り組んでいます。 記事では、これまでは実現が難しかった「Qdrant に BM25 を用いた日語のキーワード検索」を導入する方法をご紹介します。 記事の要旨 記事で扱うのは「Qdrant で日語文章の BM25 検索を実装する方法」です。 Qdrant は Qdrant/bm25 + qdrant/fastembed による BM25 検索機能を提供していたが、これまでは日語に対応していなかった ただ、少し前に対応が入り、開発者側でトークン化すれば日語にも対応できるようになった(feat: Added a toggle to disab

    sh19910711
    sh19910711 2025/10/03
    2024 / "qdrant/fastembed を使って Sparse Vector を生成することで、BM25 を使ったキーワード検索 を実現 / SPLADE モデルとは対象的に、計算コストが低く、コンテキスト長のような入力テキストの長さに制限がないのも特徴"
  • DagsterとオニオンアーキテクチャでETLパイプラインを構築する実践ガイド - Qiita

    はじめに 記事では、Dagsterとオニオンアーキテクチャを組み合わせたETLパイプラインの実装について解説します。 Wikipedia APIからデータを取得してCSVに保存する具体例を通じて、保守性と拡張性を兼ね備えたデータパイプラインの構築方法を紹介します。 完全なコード例は以下のリポジトリで公開しています: https://github.com/nokoxxx1212/dagster-onion-example オニオンアーキテクチャとは 概要 オニオンアーキテクチャは、ソフトウェアの関心事を層で分離し、内側の層が外側の層に依存しないよう設計するアーキテクチャパターンです。 主要な4つの層から構成されます Domain層: ビジネスロジック・データモデル・抽象インターフェース Infrastructure層: 外部システム(API、データベース、ファイルシステム)の具体実装 Us

    DagsterとオニオンアーキテクチャでETLパイプラインを構築する実践ガイド - Qiita
    sh19910711
    sh19910711 2025/09/28
    "依存関係はDomain層を中心とした同心円状 / 「UIだけ見れば8割わかる」アプローチにより、データパイプラインの理解・保守・運用が大幅に改善"
  • prefect の work-pool / worker について理解する

    はじめに prefect の構成要素のうち、work-pool / worker について理解します。 work-pool work-pool は、prefect の work flow を適切なインフラにデプロイするための架け橋となるコンポーネントです。work-pool には様々なタイプを指定できますが、例えば docker のタイプを持つ work-pool を作成した場合、その work-pool から実行された work flow は後述する worker を通して docker コンテナのインフラで起動することになります。 他にも、単一のプロセスとして work flow を起動するタイプの work-pool であったり、kubernetes 上で work flow を起動するタイプの work-pool であったり、色々な種類の work-pool が用意されています。

    prefect の work-pool / worker について理解する
    sh19910711
    sh19910711 2025/09/07
    2024 / "work-pool は、prefect の work flow を適切なインフラにデプロイするための架け橋 / workerは、指定の work-pool を polling し、その work-pool から実行された work flow を対応するインフラ上にデプロイする"
  • pytorchで Canonical Correlation Analysis (正準相関分析)の実装 - やったことの説明

    はじめに pytorchの練習も兼ねて,Canonical Correlation Analysis (正準相関分析)をpytorchを使って実装する. 当は分散共分散行列からなる行列の一般化固有値問題を解くが,今回は勾配法で解を求める. pytorchのプログラムが間違っていないことを確認するためにscikit-learnでもやる. Canonical Correlation Analysis (正準相関分析) こちらの資料を参考にプログラムを書く. 主成分分析が多次元の値に対して,分散が大きい方向に射影するアルゴリズムなのに対して,正準相関分析では2つの多次元変数を射影先で相関が大きくなるように射影するアルゴリズムである. 多次元のデータ と 間の正準相関を考える. ここではデータ数(系列データのときはデータ長),はの次元を表す. の射影ベクトルをそれぞれ , とする. の平均がそれ

    pytorchで Canonical Correlation Analysis (正準相関分析)の実装 - やったことの説明
    sh19910711
    sh19910711 2025/09/07
    2017 / "主成分分析: 分散が大きい方向 / 正準相関分析: 2つの多次元変数を射影先で相関が大きくなるように射影"
  • 道路中心線と道路縁から道幅をもった道路中心線データをつくる

    概要 この記事では,道路中心線と道路縁の線データを用い,道路中心線ごとに道幅を計算する方法について述べます.以下3つの図で,太らせた領域の端と道路縁がおおむね一致していることから,方法は単純ですがそれっぽいデータが得られていることがわかります. 入力:シアン色の一点鎖線は道路中心線.黒い細線は道路縁. 出力:道幅つきの道路中心線 入力と出力を重ねたもの 使用するデータ 稿では以下のデータを用います. 道路中心線:国土地理院ベクトルタイル提供実験のデータを用います.タイル番号は {z, x, y} = {16, 58211, 25803} です. 道路縁:国土地理院の基盤地図情報のデータのうち,道路縁(RdEdg)を用います.2次メッシュの番号は 533946 です.データが大きいので,道路中心線の凸包の50mバッファで切り抜きました. データ処理の流れ データの処理は以下のように行います

    道路中心線と道路縁から道幅をもった道路中心線データをつくる
    sh19910711
    sh19910711 2025/09/06
    2022 / "道路縁と道路中心線から,レイトレースに似た手法で道幅つき道路中心線のデータを作る / 改善策として,たとえばレイトレース部分に PyEmbree を使うだけでもかなりの高速化ができそう"
  • Pytorchによるテーブルデータのmixup

    こんにちは、tonic(@tonic3561)です。この記事はマケデコ Advent Calendar 2023の22日目への寄稿です。今年こそは何かアウトプットしたいと思っていたので、参加することができてとてもうれしいです。 はじめに いもすさん(@imos)がマケデコのAMAで金融データのmixupはいいぞ、とおっしゃっていたので、ディープラーニングのPythonライブラリであるPytorchを使って実装してみました。いもすさんがおっしゃる通り、結構いい感じかもしれないです。 記事では、PytorchのDatasetを用いて実装を行います。Pytorchの基礎的な知識(MNISTを解く簡単なCNNを組める程度)があれば読みやすいと思いますが、多くの方に読んでいただけるよう、できる限り詳細に解説しています。 なお、記事では実装方法のみを取り扱っており、実データでの検証は行っていません

    Pytorchによるテーブルデータのmixup
    sh19910711
    sh19910711 2025/09/01
    2023 / "mixup: データ拡張手法の一つ + 学習データからランダムに2つのサンプルを取り出し、特徴量(画像)とラベルを一定の割合で混ぜ合わせることで、新たなサンプルを生成 + 汎化性の向上が期待"
  • 【状態空間モデル】PyStanとpykalmanでダウ平均株価予測 - ころがる狸

    こんにちは。ゴールデンウィーク3日目です。緊急事態宣言が5月末まで延長しそうです。家に籠って勉強なりゲームなりをしています。 今日は、状態空間モデルを取り上げます。状態空間モデルでは、実際の観測値とその背後にある真の状態を分けて考えます。真の状態は時間とともに変化しますが、私たち観測者にはその状態が見えません。観測者が手にすることができるのは観測値のみで、これに基づいて真の状態を推定します。もっとも素朴なモデルでは、真の状態における1つの時間ステップでの変化は微小であると想定したり、観測されるのは真の状態にノイズがのったものであるとする仮定を置いたりします。このような状態空間モデルのイメージ図として以下のような図が用いられることが多いです。真の状態が時々刻々と推移しており、私たちが観測する値はそこから派生したものであると見なします。 状態空間モデルのイメージ状態空間モデルを用いた予測の方法

    【状態空間モデル】PyStanとpykalmanでダウ平均株価予測 - ころがる狸
    sh19910711
    sh19910711 2025/08/11
    2020 / "積分計算の中に含まれているp(θ|Y)をMCMCサンプルとして計算し、既知の関数であるp(y|θ)と掛け合わせ積分を和で置き換え"
  • AWS Glue for Ray の普及にささやかで微力な貢献を

    sh19910711
    sh19910711 2025/07/28
    2024 / "Ray: Pythonアプリケーションをスケーリングするための統合フレームワーク / Ray Data: Rayアプリケーションにおける分散データ処理のためのAPIを提供"
  • DuckDBでR2 Data Catalog & DuckLakeを試す(with Neon)

    [project] name = "duckdb-cf-iceberg" version = "0.1.0" description = "Iceberg data creation for DuckDB CloudFlare project" requires-python = ">=3.13" dependencies = [ "pyarrow", "pyiceberg", ] [build-system] requires = ["setuptools", "wheel"] build-backend = "setuptools.build_meta" import pyarrow as pa from pyiceberg.catalog.rest import RestCatalog from pyiceberg.exceptions import NamespaceAlready

    DuckDBでR2 Data Catalog & DuckLakeを試す(with Neon)
    sh19910711
    sh19910711 2025/07/26
    "Icebergを扱えるR2 Data Catalogを使う / R2はストレージとして扱いメタデータはPostgres側で管理 / ローカルのDuckDB拡張を利用して接続"
  • PySparkによる機械学習の実装

    はじめに Pyspark(Spark MLlib)を用いた機械学習の一連の流れに関する実装を整理する。(scikit-learnはよく見かけるけどPysparkはあんまり見かけない。。。。) そのため、機械学習自体の中身については触れないし、自身の能力としても触れられない。 概要 SparkのMLlibにおいて機械学習の一連のワークフローを構成する要素は次の3個になる。これらの構成要素を用いて、前処理や学習を実装する。 Transformers Dataframeを入力とし、1個以上のカラムを追加したDataframeを出力する。(メソッドはtransform()) 入出力の処理は変換処理として定義されたもの(つまりはルールベース)が行わる。 例えば 複数カラムの特徴量を1カラムのベクトル化する(VectorAssemler) 学習済みモデルのTransformerでテスト用データを入力と

    PySparkによる機械学習の実装
    sh19910711
    sh19910711 2025/07/12
    2022 / "Pipeline: TransformersとEstimatorsを組み合わせた一連の処理 / 生成されたものはEstimatorなのでfitメソッドにより、TransfomerであるPipelineModelを生成 / pyspark.ml.evaluation"
  • AWS Glueジョブ(PySpark)でデータ移行した話 - JMDC TECH BLOG

    データウェアハウス開発部の高野です。現在はオンプレミスの電子カルテデータ基盤のAWS移行のプロジェクトに参画しています。 今年、JMDCではアドベントカレンダーに参加しています。 qiita.com 記事は、JMDC Advent Calendar 2024 7日目の記事です。 はじめに 電子カルテデータ基盤のAWS移行を進めている中、オンプレミスの旧データ基盤のデータ移行が要件の1つとしてありました。AWSでは主なデータベースとしてAmazon Redshift Serverlessを採用しており、そちらに移行データを連携したい、データ移行に必要なデータ形式が様々だったことからデータ移行はAWS Glueジョブ(PySpark)を使って対応しました。データウェアハウス開発部ではSQLでのデータ変換が主流ですが、今回AWS Glueジョブ(PySpark)を使って良かった点について書いて

    AWS Glueジョブ(PySpark)でデータ移行した話 - JMDC TECH BLOG
    sh19910711
    sh19910711 2025/07/09
    2024 / "Redshift Serverlessを採用しており、そちらに移行データを連携 / Redshift でAWS Glueデータカタログの自動マウントができるようになった / S3にデータ出力後のロード等の作業は不要"
  • JAX入門~高速なNumPyとして使いこなすためのチュートリアル~

    TensorFlow Advent Calendar 2020 10日目の記事です。空いてたので当日飛び入りで参加しました。 この記事では、TensorFlowの関連ライブラリである「JAX」について初歩的な使い方、ハマりどころ、GPU・TPUでの使い方や、画像処理への応用について解説します。 JAXとは https://github.com/google/jax Google製のライブラリで、AutogradとXLAからなる、機械学習のための数値計算ライブラリ。簡単に言うと「自動微分に特化した、GPUやTPUに対応した高速なNumPy」。NumPyとほとんど同じ感覚で書くことができます。自動微分については解説が多いので、この記事では単なる高速なNumPyの部分を中心に書いていきます。 関連記事 JAX Quickstart JAXで始めるディープラーニング JAX : Tutorials

    JAX入門~高速なNumPyとして使いこなすためのチュートリアル~
    sh19910711
    sh19910711 2025/06/14
    2020 / "非同期処理で計算されるため、計算の最後に.block_until_ready()を追加 / このまま使ってもJAX本来の性能を引き出せないので、jitでXLAコンパイル / メソッドを@jitとデコレーターで囲むか、jitでメソッド全体をラップ"
  • PyOsmiumを用いたOpenStreetMapデータ処理 - Qiita

    はじめに 記事はOpenStreetMapより取得したデータを処理するライブラリの1つであるPyOsmiumについて、その基的な使用法及び概念についてまとめたものです。 ご意見等ありましたらどうぞよろしくお願いいたします。 OpenStreetMapとは OpenStreetMap(OSM)は、世界中の人々による共同作業で作られた、自由に利用・編集可能な世界地図プロジェクトです。オープンソースの地図データが公開されており地図のスタイルは柔軟に変更可能です(様々なスタイルの例)。現在、多くのサイト(例:Yahooマップ)で活用されています。 ライセンス・クレジット表記 OSMはライセンスとしてOpen Database License (ODbL)を使用しています(参考1, 参考2)。そして、OSMを公に使用する場合にはガイドラインに従って以下の2条件を守る必要があります(引用元)。 ・

    sh19910711
    sh19910711 2025/06/11
    2024 / "PyOsmium: C++ ライブラリであるOsmiumのラッパー + OSMデータを処理 / PyrosmはPyOsmiumに比べ、ライブラリ単体でできることが多い(データのダウンロード、図示)一方で、メモリ効率はPyOsmiumのほうが良い"
  • 同期現象の数理モデルをPythonで実装してみた - ENGINEERING BLOG ドコモ開発者ブログ

    はじめに 記事をご覧いただきありがとうございます。ドコモアドベントカレンダー8日目の記事になります。初めまして。NTTドコモR&D戦略部新入社員の武田です。業務では主に弊社の先進技術を活用したメタコミュニケーションサービス「MetaMe®」(メタミー)の技術実装を担当しています。 私は学生時代、人々の動きや行動パターンを実データから分析し、災害時の安心・安全な避難を実現するためのシミュレーションや最適化に関する研究に従事しておりました。現在仮想空間内においても「ユーザの流れ」や「ユーザの行動」に注目し、技術実装を行っています。群衆の動きに関するサーベイを進める中で、「同期現象」に関する論文を目にし、その仕組みに強く興味を持ちました。 そこで記事では、「同期現象」を数理モデルで表現した2種類のモデルをとりあげ、Pythonを用いた実装を通して、その仕組みをより深く理解することに挑戦します

    同期現象の数理モデルをPythonで実装してみた - ENGINEERING BLOG ドコモ開発者ブログ
    sh19910711
    sh19910711 2025/06/11
    2024 / "同期現象: 周囲の影響を受けながら、徐々に足並みが揃う + バラバラだった拍手が、気がつくと会場全体で揃っている / 蔵本モデル: 振動する個体(振動子)が互いに影響を与え合いながらリズムを揃えていく過程"
  • Apache Arrow の紹介 - GO Tech Blog

    タクシーアプリ『GO』のデータエンジニアをしている牧瀬です。 Apache Arrow という OSS を知り、弊社でも活用できる機会があるのではないかと興味を持ちました。記事では Apache Arrow の概要を紹介します。 概要 Apache Arrow とは、インメモリのカラムナーフォーマット仕様および、それを操作するための各種プログラミング言語用のライブラリ実装です。 Apache Arrow が作られた目的は、大きなデータセットを高速に処理したり、データセットを異なるシステムやプログラミング言語の間で効率的にやりとりするためです。 なぜインメモリ? 一般的なカラムナーフォーマットの多くはストレージに保存する際のフォーマットですが、Apache Arrow はインメモリの仕様も定められています。 これは 1台のマシン上で異なる言語やプロセスの間でデータをやり取りする際、シリアラ

    Apache Arrow の紹介 - GO Tech Blog
    sh19910711
    sh19910711 2025/06/11
    2023 / "PyArrow: pandas で言えば Series にあたるものが Array/ChunkedArray、DataFrame にあたるものが RecordBatch/Table + immutable なデータ型"
  • hypothesis+panderaで始める、データフレームに対するProperty Based Testing - Sansan Tech Blog

    技術部 R&D研究員の前嶋です。梅雨の季節ですが、少しでも快適に過ごせるようにOnのCloud 5 wpを購入しました。水に強くて軽快な履き心地で最高ですね。(追記:この記事の公開作業をしている間に梅雨が終わってしまいました) 今回は、データフレームのテストについての記事です。 データフレームのテストをどう書くか データが中心となるサービスのネックになるのが テストをどう書くか です。というのも、データフレームは行×列の構造になっているため、入力あるいは出力値がデータフレームになるような関数が多いプログラムでは、テストケースを書くのが非常に面倒です。仕様の変更があった場合、それぞれのテスト用の疑似データに修正を加えることを考えると、より簡潔にデータフレームのバリデーションをする方法が欲しいところです。実は、データフレームのテストはProperty Based Testingという考え方と

    hypothesis+panderaで始める、データフレームに対するProperty Based Testing - Sansan Tech Blog
    sh19910711
    sh19910711 2025/06/11
    2022 / "データフレームのテスト / Property Based Testing(PBT) は、Haskellの QuickCheck で導入された概念だと言われ / 契約による設計(Design by Contract, DbC)を実現するテスト手法として、名著『達人プログラマー』でも推奨"