[B! python][*data] sh19910711のブックマーク

Hugging Face + LanceDB で加速する、製造業のためのマルチモーダルベクトル DB 入門

OpenDAL があれば、Lance / LanceDB のデータアクセスコードを一度書けば、どのストレージでもそのまま動作する。エッジデバイスのローカル SSD に保存した Lance テーブルを、設定変更だけでクラウドの S3 に同期する、といった運用がコード変更なしに実現できるのである。これは前述の「エッジとクラウドを統合的に扱えるレイクハウス」というビジョンを、ストレージレイヤーで実現する鍵となる技術である。Lance がデータフォーマットの統一を担い、OpenDAL がストレージアクセスの統一を担う——この二つが組み合わさることで、エッジからクラウドまでシームレスなデータパイプラインが構築できる。 Hugging Face × Lance 統合がもたらすインパクトここまで紹介した技術要素を踏まえて、今回の Hugging Face × Lance 統合が何を変えるのかを整理す

sh19910711 2026/03/20

"LanceDB はディスクベース（disk-first）で設計 / 検索時に必要なインデックスやデータの断片だけをディスクからオンデマンドで読み込み、Apache Arrow を活用したゼロコピーアクセスでメモリコピーのオーバーヘッドも最小化"

リンク

Snowflake Notebooksが速すぎる

クエリ最適化、使いこなせてますか？データ分析業務でSnowflake Notebooksを使っている私が、良さを最大に引き出すテクニックをご紹介します。大容量データを爆速で集計して、コーナーで差をつけましょう！はじめに NTTデータの齊藤青葉です。クラウドDWHであるSnowflakeのデータを使って分析する毎日を過ごしています。もともと、Jupyter Notebookで集計分析を行っていましたが、Snowflake Notebooksを使ってみたところ集計スピードが上がり、クラウドBIツールとの相性も良いこと、自動化もできることから良さに気づき、乗り換えて使っています。データ基盤としてSnowflakeを使う企業も増えつつあり、そんな皆様がSnowflake環境を使いこなす一助になれたらと思います。 3行で結論！まずは3行で結論です。 Snowflake Notebooksは

sh19910711 2026/01/11

"両データフレームの中間にあたるSnowpark pandasデータフレームというものがあり / pandasの記法で書けば裏でsnowparkデータフレームとして扱いますよ、という機能"

リンク

実務で使った重回帰分析による効果検証のメモ（Python） - Qiita

概要目的：教育関連データを題材に、補習・研修の参加が学習成果に与える影響を重回帰分析で検証手法：t検定＋重回帰モデル（処置変数＋制御変数）を用い、観測データの交絡因子を調整主な結果：処置変数「準備コース受講」が平均＋5.50点上昇（p < 0.001）を示し、効果の可能性を示唆はじめに業務で施策や介入の効果を定量的に検証する機会があります。教育データなので、観測できない因子があるという前提で検証しています。特に「A/Bテストのような実験設計ができないケース」で、重回帰分析を使った効果検証（因果推論の第一歩）を試しているので、備忘録としてまとめます。 ※業務での知見を整理した学習メモです。背景現場では「完全なランダム実験（A/Bテスト）」を行うのが難しいです。たとえば教育現場（実社会でも同様！？）：希望者のみが補習や研修に参加する特定のクラスや部署だけ施策を実施す

sh19910711 2025/11/24

"教育関連データを題材に、補習・研修の参加が学習成果に与える影響 / 希望者のみが補習や研修に参加 + 特定のクラスや部署だけ施策を実施 / 参加する人自体にバイアス（＝交絡因子）がある"

リンク

SQLModel入門〜クエリと型〜

sh19910711 2025/10/06

2024 / "SQLModel: Pydanticと同じ簡潔なモデル定義とSQLAlchemyの豊富なクエリメソッド / 取得・更新やユーザータイプでモデルを分割する"

リンク

Qdrantで日本語のキーワード検索（BM25）を実装する - Qiita

この記事は NTTコムウェア Advent Calendar 2024 19日目の記事です。こんにちは、NTTコムウェアの佐々木哲平です。普段は LLM に関するプロダクト開発に携わっており、最近は RAG の精度向上や機能改善に取り組んでいます。本記事では、これまでは実現が難しかった「Qdrant に BM25 を用いた日本語のキーワード検索」を導入する方法をご紹介します。本記事の要旨本記事で扱うのは「Qdrant で日本語文章の BM25 検索を実装する方法」です。 Qdrant は Qdrant/bm25 + qdrant/fastembed による BM25 検索機能を提供していたが、これまでは日本語に対応していなかったただ、少し前に対応が入り、開発者側でトークン化すれば日本語にも対応できるようになった（feat: Added a toggle to disab

sh19910711 2025/10/03

2024 / "qdrant/fastembed を使って Sparse Vector を生成することで、BM25 を使ったキーワード検索を実現 / SPLADE モデルとは対象的に、計算コストが低く、コンテキスト長のような入力テキストの長さに制限がないのも特徴"

リンク

DagsterとオニオンアーキテクチャでETLパイプラインを構築する実践ガイド - Qiita

はじめに本記事では、Dagsterとオニオンアーキテクチャを組み合わせたETLパイプラインの実装について解説します。 Wikipedia APIからデータを取得してCSVに保存する具体例を通じて、保守性と拡張性を兼ね備えたデータパイプラインの構築方法を紹介します。完全なコード例は以下のリポジトリで公開しています： https://github.com/nokoxxx1212/dagster-onion-example オニオンアーキテクチャとは概要オニオンアーキテクチャは、ソフトウェアの関心事を層で分離し、内側の層が外側の層に依存しないよう設計するアーキテクチャパターンです。主要な4つの層から構成されます Domain層: ビジネスロジック・データモデル・抽象インターフェース Infrastructure層: 外部システム（API、データベース、ファイルシステム）の具体実装 Us

sh19910711 2025/09/28

"依存関係はDomain層を中心とした同心円状 / 「UIだけ見れば8割わかる」アプローチにより、データパイプラインの理解・保守・運用が大幅に改善"

リンク

prefect の work-pool / worker について理解する

はじめに prefect の構成要素のうち、work-pool / worker について理解します。 work-pool work-pool は、prefect の work flow を適切なインフラにデプロイするための架け橋となるコンポーネントです。work-pool には様々なタイプを指定できますが、例えば docker のタイプを持つ work-pool を作成した場合、その work-pool から実行された work flow は後述する worker を通して docker コンテナのインフラで起動することになります。他にも、単一のプロセスとして work flow を起動するタイプの work-pool であったり、kubernetes 上で work flow を起動するタイプの work-pool であったり、色々な種類の work-pool が用意されています。

sh19910711 2025/09/07

2024 / "work-pool は、prefect の work flow を適切なインフラにデプロイするための架け橋 / workerは、指定の work-pool を polling し、その work-pool から実行された work flow を対応するインフラ上にデプロイする"

リンク

pytorchで Canonical Correlation Analysis (正準相関分析)の実装 - やったことの説明

はじめに pytorchの練習も兼ねて，Canonical Correlation Analysis (正準相関分析)をpytorchを使って実装する．本当は分散共分散行列からなる行列の一般化固有値問題を解くが，今回は勾配法で解を求める． pytorchのプログラムが間違っていないことを確認するためにscikit-learnでもやる． Canonical Correlation Analysis (正準相関分析) こちらの資料を参考にプログラムを書く．主成分分析が多次元の値に対して，分散が大きい方向に射影するアルゴリズムなのに対して，正準相関分析では2つの多次元変数を射影先で相関が大きくなるように射影するアルゴリズムである．多次元のデータと間の正準相関を考える．ここではデータ数(系列データのときはデータ長)，はの次元を表す．の射影ベクトルをそれぞれ , とする．の平均がそれ

sh19910711 2025/09/07

2017 / "主成分分析: 分散が大きい方向 / 正準相関分析: 2つの多次元変数を射影先で相関が大きくなるように射影"

リンク

道路中心線と道路縁から道幅をもった道路中心線データをつくる

概要この記事では，道路中心線と道路縁の線データを用い，道路中心線ごとに道幅を計算する方法について述べます．以下3つの図で，太らせた領域の端と道路縁がおおむね一致していることから，方法は単純ですがそれっぽいデータが得られていることがわかります．入力：シアン色の一点鎖線は道路中心線．黒い細線は道路縁．出力：道幅つきの道路中心線入力と出力を重ねたもの使用するデータ本稿では以下のデータを用います．道路中心線：国土地理院ベクトルタイル提供実験のデータを用います．タイル番号は {z, x, y} = {16, 58211, 25803} です．道路縁：国土地理院の基盤地図情報のデータのうち，道路縁（RdEdg）を用います．2次メッシュの番号は 533946 です．データが大きいので，道路中心線の凸包の50mバッファで切り抜きました．データ処理の流れデータの処理は以下のように行います

sh19910711 2025/09/06

2022 / "道路縁と道路中心線から，レイトレースに似た手法で道幅つき道路中心線のデータを作る / 改善策として，たとえばレイトレース部分に PyEmbree を使うだけでもかなりの高速化ができそう"

リンク

Pytorchによるテーブルデータのmixup

こんにちは、tonic（@tonic3561）です。この記事はマケデコ Advent Calendar 2023の22日目への寄稿です。今年こそは何かアウトプットしたいと思っていたので、参加することができてとてもうれしいです。はじめにいもすさん（@imos）がマケデコのAMAで金融データのmixupはいいぞ、とおっしゃっていたので、ディープラーニングのPythonライブラリであるPytorchを使って実装してみました。いもすさんがおっしゃる通り、結構いい感じかもしれないです。本記事では、PytorchのDatasetを用いて実装を行います。Pytorchの基礎的な知識（MNISTを解く簡単なCNNを組める程度）があれば読みやすいと思いますが、多くの方に読んでいただけるよう、できる限り詳細に解説しています。なお、本記事では実装方法のみを取り扱っており、実データでの検証は行っていません

sh19910711 2025/09/01

2023 / "mixup: データ拡張手法の一つ + 学習データからランダムに2つのサンプルを取り出し、特徴量（画像）とラベルを一定の割合で混ぜ合わせることで、新たなサンプルを生成 + 汎化性の向上が期待"

リンク

【状態空間モデル】PyStanとpykalmanでダウ平均株価予測 - ころがる狸

こんにちは。ゴールデンウィーク３日目です。緊急事態宣言が５月末まで延長しそうです。家に籠って勉強なりゲームなりをしています。今日は、状態空間モデルを取り上げます。状態空間モデルでは、実際の観測値とその背後にある真の状態を分けて考えます。真の状態は時間とともに変化しますが、私たち観測者にはその状態が見えません。観測者が手にすることができるのは観測値のみで、これに基づいて真の状態を推定します。もっとも素朴なモデルでは、真の状態における１つの時間ステップでの変化は微小であると想定したり、観測されるのは真の状態にノイズがのったものであるとする仮定を置いたりします。このような状態空間モデルのイメージ図として以下のような図が用いられることが多いです。真の状態が時々刻々と推移しており、私たちが観測する値はそこから派生したものであると見なします。状態空間モデルのイメージ状態空間モデルを用いた予測の方法

sh19910711 2025/08/11

2020 / "積分計算の中に含まれているp(θ|Y)をMCMCサンプルとして計算し、既知の関数であるp(y|θ)と掛け合わせ積分を和で置き換え"

リンク

AWS Glue for Ray の普及にささやかで微力な貢献を

sh19910711 2025/07/28

2024 / "Ray: Pythonアプリケーションをスケーリングするための統合フレームワーク / Ray Data: Rayアプリケーションにおける分散データ処理のためのAPIを提供"

リンク

DuckDBでR2 Data Catalog & DuckLakeを試す(with Neon)

[project] name = "duckdb-cf-iceberg" version = "0.1.0" description = "Iceberg data creation for DuckDB CloudFlare project" requires-python = ">=3.13" dependencies = [ "pyarrow", "pyiceberg", ] [build-system] requires = ["setuptools", "wheel"] build-backend = "setuptools.build_meta" import pyarrow as pa from pyiceberg.catalog.rest import RestCatalog from pyiceberg.exceptions import NamespaceAlready

sh19910711 2025/07/26

"Icebergを扱えるR2 Data Catalogを使う / R2はストレージとして扱いメタデータはPostgres側で管理 / ローカルのDuckDB拡張を利用して接続"

リンク

PySparkによる機械学習の実装

はじめに Pyspark(Spark MLlib)を用いた機械学習の一連の流れに関する実装を整理する。(scikit-learnはよく見かけるけどPysparkはあんまり見かけない。。。。）そのため、機械学習自体の中身については触れないし、自身の能力としても触れられない。概要 SparkのMLlibにおいて機械学習の一連のワークフローを構成する要素は次の３個になる。これらの構成要素を用いて、前処理や学習を実装する。 Transf ormers Dataframeを入力とし、1個以上のカラムを追加したDataframeを出力する。（メソッドはtransf orm()) 入出力の処理は変換処理として定義されたもの（つまりはルールベース）が行わる。例えば複数カラムの特徴量を1カラムのベクトル化する(VectorAssemler) 学習済みモデルのTransf ormerでテスト用データを入力と

sh19910711 2025/07/12

2022 / "Pipeline: TransformersとEstimatorsを組み合わせた一連の処理 / 生成されたものはEstimatorなのでfitメソッドにより、TransfomerであるPipelineModelを生成 / pyspark.ml.evaluation"

リンク

AWS Glueジョブ（PySpark）でデータ移行した話 - JMDC TECH BLOG

データウェアハウス開発部の高野です。現在はオンプレミスの電子カルテデータ基盤のAWS移行のプロジェクトに参画しています。今年、JMDCではアドベントカレンダーに参加しています。 qiita.com 本記事は、JMDC Advent Calendar 2024 7日目の記事です。はじめに電子カルテデータ基盤のAWS移行を進めている中、オンプレミスの旧データ基盤のデータ移行が要件の1つとしてありました。AWSでは主なデータベースとしてAmazon Redshift Serverlessを採用しており、そちらに移行データを連携したい、データ移行に必要なデータ形式が様々だったことからデータ移行はAWS Glueジョブ（PySpark）を使って対応しました。データウェアハウス開発部ではSQLでのデータ変換が主流ですが、今回AWS Glueジョブ（PySpark）を使って良かった点について書いて

sh19910711 2025/07/09

2024 / "Redshift Serverlessを採用しており、そちらに移行データを連携 / Redshift でAWS Glueデータカタログの自動マウントができるようになった / S3にデータ出力後のロード等の作業は不要"

リンク

JAX入門～高速なNumPyとして使いこなすためのチュートリアル～

TensorFlow Advent Calendar 2020　10日目の記事です。空いてたので当日飛び入りで参加しました。この記事では、TensorFlowの関連ライブラリである「JAX」について初歩的な使い方、ハマりどころ、GPU・TPUでの使い方や、画像処理への応用について解説します。 JAXとは https://github.com/google/jax Google製のライブラリで、AutogradとXLAからなる、機械学習のための数値計算ライブラリ。簡単に言うと「自動微分に特化した、GPUやTPUに対応した高速なNumPy」。NumPyとほとんど同じ感覚で書くことができます。自動微分については解説が多いので、この記事では単なる高速なNumPyの部分を中心に書いていきます。関連記事 JAX Quickstart JAXで始めるディープラーニング JAX : Tutorials

sh19910711 2025/06/14

2020 / "非同期処理で計算されるため、計算の最後に.block_until_ready()を追加 / このまま使ってもJAX本来の性能を引き出せないので、jitでXLAコンパイル / メソッドを@jitとデコレーターで囲むか、jitでメソッド全体をラップ"

リンク

PyOsmiumを用いたOpenStreetMapデータ処理 - Qiita

はじめに本記事はOpenStreetMapより取得したデータを処理するライブラリの1つであるPyOsmiumについて、その基本的な使用法及び概念についてまとめたものです。ご意見等ありましたらどうぞよろしくお願いいたします。 OpenStreetMapとは OpenStreetMap(OSM)は、世界中の人々による共同作業で作られた、自由に利用・編集可能な世界地図プロジェクトです。オープンソースの地図データが公開されており地図のスタイルは柔軟に変更可能です（様々なスタイルの例）。現在、多くのサイト（例：Yahooマップ）で活用されています。ライセンス・クレジット表記 OSMはライセンスとしてOpen Database License (ODbL)を使用しています（参考1, 参考2）。そして、OSMを公に使用する場合にはガイドラインに従って以下の2条件を守る必要があります(引用元)。・

sh19910711 2025/06/11

2024 / "PyOsmium: C++ ライブラリであるOsmiumのラッパー + OSMデータを処理 / PyrosmはPyOsmiumに比べ、ライブラリ単体でできることが多い（データのダウンロード、図示）一方で、メモリ効率はPyOsmiumのほうが良い"

リンク

同期現象の数理モデルをPythonで実装してみた - ENGINEERING BLOG ドコモ開発者ブログ

はじめに本記事をご覧いただきありがとうございます。ドコモアドベントカレンダー8日目の記事になります。初めまして。NTTドコモR&D戦略部新入社員の武田です。業務では主に弊社の先進技術を活用したメタコミュニケーションサービス「MetaMe®」（メタミー）の技術実装を担当しています。私は学生時代、人々の動きや行動パターンを実データから分析し、災害時の安心・安全な避難を実現するためのシミュレーションや最適化に関する研究に従事しておりました。現在仮想空間内においても「ユーザの流れ」や「ユーザの行動」に注目し、技術実装を行っています。群衆の動きに関するサーベイを進める中で、「同期現象」に関する論文を目にし、その仕組みに強く興味を持ちました。そこで本記事では、「同期現象」を数理モデルで表現した2種類のモデルをとりあげ、Pythonを用いた実装を通して、その仕組みをより深く理解することに挑戦します

sh19910711 2025/06/11

2024 / "同期現象: 周囲の影響を受けながら、徐々に足並みが揃う + バラバラだった拍手が、気がつくと会場全体で揃っている / 蔵本モデル: 振動する個体（振動子）が互いに影響を与え合いながらリズムを揃えていく過程"

リンク

Apache Arrow の紹介 - GO Tech Blog

タクシーアプリ『GO』のデータエンジニアをしている牧瀬です。 Apache Arrow という OSS を知り、弊社でも活用できる機会があるのではないかと興味を持ちました。本記事では Apache Arrow の概要を紹介します。概要 Apache Arrow とは、インメモリのカラムナーフォーマット仕様および、それを操作するための各種プログラミング言語用のライブラリ実装です。 Apache Arrow が作られた目的は、大きなデータセットを高速に処理したり、データセットを異なるシステムやプログラミング言語の間で効率的にやりとりするためです。なぜインメモリ？一般的なカラムナーフォーマットの多くはストレージに保存する際のフォーマットですが、Apache Arrow はインメモリの仕様も定められています。これは 1台のマシン上で異なる言語やプロセスの間でデータをやり取りする際、シリアラ

sh19910711 2025/06/11

2023 / "PyArrow: pandas で言えば Series にあたるものが Array/ChunkedArray、DataFrame にあたるものが RecordBatch/Table + immutable なデータ型"

リンク

hypothesis+panderaで始める、データフレームに対するProperty Based Testing - Sansan Tech Blog

技術本部 R&D研究員の前嶋です。梅雨の季節ですが、少しでも快適に過ごせるようにOnのCloud 5 wpを購入しました。水に強くて軽快な履き心地で最高ですね。(追記：この記事の公開作業をしている間に梅雨が終わってしまいました) 今回は、データフレームのテストについての記事です。データフレームのテストをどう書くかデータが中心となるサービスのネックになるのがテストをどう書くかです。というのも、データフレームは行×列の構造になっているため、入力あるいは出力値がデータフレームになるような関数が多いプログラムでは、テストケースを書くのが非常に面倒です。仕様の変更があった場合、それぞれのテスト用の疑似データに修正を加えることを考えると、より簡潔にデータフレームのバリデーションをする方法が欲しいところです。実は、データフレームのテストはProperty Based Testingという考え方と

sh19910711 2025/06/11

2022 / "データフレームのテスト / Property Based Testing(PBT) は、Haskellの QuickCheck で導入された概念だと言われ / 契約による設計(Design by Contract, DbC)を実現するテスト手法として、名著『達人プログラマー』でも推奨"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (85)

pythonと*dataに関するsh19910711のブックマーク (392)

お知らせ

月間はてなブックマーク数ランキング（2026年4月）

今週のはてなブックマーク数ランキング（2026年4月第4週）

今週のはてなブックマーク数ランキング（2026年4月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス