[B! pandas] manboubirdのブックマーク

manboubird id:manboubird

pandasに関するmanboubirdのブックマーク (101)

GitHub - sfu-db/connector-x: Fastest library to load data from DB to DataFrames in Rust and Python
manboubird 2025/07/08
connectorx

apacheArrow

dataframe

pandas

polars

bigQuery
リンク
PyDataTT #33 - Introducing Zero-Code Change Acceleration of Pandas and NetworkX
manboubird 2025/06/15
pandas

cugraph

gpu

video

pydata

networkx
リンク
Python dataframe API standard — Python dataframe API standard 2023.04-DRAFT documentation
manboubird 2025/06/15
python

dataframe

standard

pandas

polars
リンク
Narwhals
Home Home Why Installation and quick start Intro tutorial Narwhals and SQL Concepts Overhead Perfect backwards compatibility policy Supported libraries and extending Narwhals How it works Ecosystem Security Resources Narwhals - Extremely lightweight and extensible compatibility layer between dataframe libraries! Full API support: cuDF, Modin, pandas, Polars, PyArrow. Lazy-only support: Dask, DuckD
manboubird 2025/06/15
polars

duckdb

apacheArrow

pandas

narwhals

dataframe

sql
リンク
GitHub - narwhals-dev/narwhals: Lightweight and extensible compatibility layer between dataframe libraries!
manboubird 2025/06/15
polars

duckdb

apacheArrow

pandas

narwhals

dataframe

sql
リンク
Polars, DuckDB, PySpark, PyArrow, pandas, cuDF: how Narwhals has brought them all together! PyData London 2025
manboubird 2025/06/15
polars

duckdb

apacheArrow

pandas

narwhals

dataframe

sql
リンク
DataFrame を Validation する pandera 入門
はじめに Python を用いてデータ分析を行うにあたりよく使われるライブラリとして pandas があります。 pandas は大変使い勝手の良いライブラリですが、多くの場合データを丸ごと pd.DataFrame 型で保持するため「どのような列を持っているのか」、「各列がどのような型か」、「各列の値にどのような値が入りうるのか」等がソースコードを一見しただけでは分からないことが多いです。結果として処理がブラックボックス化してしまい、デバッグコストの増加やコードの可読性低下といった問題を生じさせることがあります。この問題への解決策の一つとして、本記事ではデータフレームのバリデーション機能を提供するライブラリである pandera を紹介します。 pandera とはデータ処理パイプラインの可読性とロバストさを高めるために dataframe に対してデータ検証を行う機能を提供するラ
manboubird 2025/06/08
pandera

dataframe

pandas

validation
リンク
BigQuery DataFrames を使用する | Google Cloud
BigQuery DataFrames を使用する BigQuery DataFrames は、BigQuery エンジンによる Pythonic DataFrame と ML API を提供します。BigQuery DataFrames は、オープンソースのパッケージです。 pip install --upgrade bigframes を実行すると、最新バージョンをインストールできます。 BigQuery DataFrames には、次の 3 つのライブラリが用意されています。 bigframes.pandas は、BigQuery でデータの分析と操作に使用できる pandas API を提供します。多くのワークロードは、インポートをいくつか変更するだけで pandas から bigframes に移行できます。bigframes.pandas API は、テラバイト単位の BigQ
manboubird 2025/06/08
bigframes

bigQuery

dataframe

pandas
リンク
Generate synthetic data with BigQuery DataFrames and LLMs | Google Cloud Blog
manboubird 2025/06/08
syntheticDataGeneration

bigQuery

dataframe

googleCloudPlatform

pandas

humanInTheLoop

bigframe

llm

dataGenerator
リンク
Pandas → Polars 早見表
データサイエンスやデータエンジニアリングの分野において、効率的かつ柔軟なデータ処理を実現するためには、適切なツールの選択が不可欠です。最近では、高速かつ省メモリなデータ操作ライブラリであるPolarsが注目を浴びています。本記事では、この新たなライブラリと既存のデータ処理ツールであるPandasとの対応関係を簡潔にまとめます。特に、Polarsへの移行やトライアルをスムーズに進めるために、両ライブラリの使い方に焦点を当てて解説します。逆引きクックブックのようなイメージです。本ブログの見方以下のフォーマットでまとめています。 <処理概要>
manboubird 2025/06/07
polars

pandas
リンク
Pandas 2.0はPolarsよりも速いのか？ - Qiita
PandasはPythonのデータ解析ライブラリです。データの加工や集計、分析に皆様活用されていると思います。最近ではPolarsというRustベースの高速データ解析ライブラリが登場し、こちらを利用する人も増えているのではないかと思います。 PolarsではApache Arrowという列指向のデータフォーマットをベースにしており、データの高速処理を実現しています。そんな中、最近Pandasの2.0がプレリリースされたようです。 2.0では、Apache ArrowをPython操作できるようにしたライブラリPyArrowがPandasで使えるようになったようなので、どれだけ高速に処理できるのか早速試してみました。参考：Pandas2.0の新機能前提 Pandas2.0はプレリリース版を使用します。（この記事を書いている2023/3/21時点では、まだ正式リリースされていないよ
manboubird 2025/06/07
pandas

polars

comparison

apacheArrow
リンク
Apache Arrow の紹介 - GO Tech Blog
タクシーアプリ『GO』のデータエンジニアをしている牧瀬です。 Apache Arrow という OSS を知り、弊社でも活用できる機会があるのではないかと興味を持ちました。本記事では Apache Arrow の概要を紹介します。概要 Apache Arrow とは、インメモリのカラムナーフォーマット仕様および、それを操作するための各種プログラミング言語用のライブラリ実装です。 Apache Arrow が作られた目的は、大きなデータセットを高速に処理したり、データセットを異なるシステムやプログラミング言語の間で効率的にやりとりするためです。なぜインメモリ？一般的なカラムナーフォーマットの多くはストレージに保存する際のフォーマットですが、Apache Arrow はインメモリの仕様も定められています。これは 1台のマシン上で異なる言語やプロセスの間でデータをやり取りする際、シリアラ
manboubird 2025/06/07
pandas

apacheArrow

polars

goInc

geo
リンク
Pandas[GPU] vs Polars[CPU] vs Polars[GPU]
※結合(merge, join)は小野寺さん、冨山さんの発表の中で十分GPUの恩恵を受ける処理であることが自明だったので今回は省略しました。処理速度を計測するためのデータセットは以下のコードで作成しました。 import pandas as pd import polars as pl import numpy as np import random from datetime import datetime, timedelta import time # データの行数 num_rows = 100_000_000 # データ生成関数 def generate_data(seed): # 乱数のシードを固定 np.random.seed(seed) random.seed(seed) # USER_ID列の生成 user_ids = np.random.randint(1, 1001,
manboubird 2025/06/04
pandas

Polars

gpu

nvidia

benchmark

comparison
リンク
pandasはPolarsに性能面で追いつき追い越せるのか
以下イベントでの発表内容です『Polarsとpandasで学ぶデータ処理アイデアレシピ55』出版記念Polars勉強会 https://connpass.com/event/333059/
manboubird 2025/06/04
polars

pandas

slide
リンク
Updated PDS-H benchmark results (May 2025)
manboubird 2025/06/03
polars

pandas

comparison

benchmark
リンク
pandasから移行する人向け polars使用ガイド - Qiita
pandasではデフォルトでは文字列をオブジェクトデータ型で扱うようになっています。それに対してpolarsには最初から文字列専用のデータ型が用意されています。 pandasで日付を扱う場合は一般的には時刻を0:00:00にした日時np.datetime64で代用しますが、polarsには日付のみを扱うpl.Dateが存在し、また時刻のみを扱うpl.Time、日付＋時刻を扱うpl.Datetimeもそれぞれ存在します。型変換メソッド、つまりpandasの.astype()は、polarsでは.cast()です。エクスプレッション（pl.Expr()） polarsには、データフレーム・シリーズとは別にエクスプレッションというクラスが存在します。エクスプレッションは「一連の操作の命令」だと思うとよいでしょう。例えば、「"A"列を選択→3で割る→10より小さい値は2倍して大きい値は2で割
manboubird 2025/06/03
polars

pandas
リンク
Apache Arrow and the “10 Things I Hate About pandas” – Wes McKinney
This post is the first of many to come on Apache Arrow, pandas, pandas2, and the general trajectory of my work in recent times and into the foreseeable future. This is a bit of a read and overall fairly technical, but if interested I encourage you to take the time to work through it. In this post I hope to explain as concisely as I can some of the key probl ems with pandas’s internals and how I’ve
manboubird 2025/05/30
apacheArrow

pandas
リンク
ArcticDB
ArcticDB is precisely designed to solve for a single pain point: getting quants productive with their data as quickly as possible. ArcticDB seamlessy integrates with common Python data science libraries, transf orming your ability to operate complex data at petabyte scale with remarkable speed. Billions of rows of data, hundreds of thousands of columns processed in seconds.
manboubird 2025/01/20
arcticDb

dataframe

pandas

database

quants
リンク
Huggingface Datasets 入門 (2) - データセットの読み込み｜npaka
以下の記事を参考に書いてます。・Huggingface Datasets - Loading a Dataset ・Huggingface Transf ormers 4.1.1 ・Huggingface Datasets 1.2 1. データセットの読み込み「Huggingface Datasets」は、様々なデータソースからデータセットを読み込むことができます。 (1) Huggingface Hub (2) ローカルファイル (CSV/JSON/テキスト/pandas pickled データフレーム) (3) インメモリデータ (Python辞書/pandasデータフレームなど) 2. Huggingface Hub からのデータセットの読み込みNLPタスク用の135を超えるデータセットが、「HuggingFace Hub」で提供されています。「Huggingface Dataset
manboubird 2025/01/14
datasets

lib

python

huggingface

pandas

training
リンク
Polarsの入門者向け逆引きリファレンス（よく使いそうな機能まとめ） - Qiita
この記事は朝日新聞社Advent Calendar2024の11日目の記事です。昨日の記事は村瀬さんのAWS Lambda SnapStartを試してみたでした。 Polars 入門向けよく使いそうな機能の逆引きリファレンスこんにちは、朝日新聞社の新妻です。皆さん、Polars使ってますか？自分はこの半年間くらいPandasからPolarsに乗り換えて、しばらく使ってみていました。個人的な感想として、メモリの効率さや処理の高速さが非常に良くて、特にSNSの投稿のような大規模なデータを扱うときには非常に助かっています。ということで、非常にオススメできるのですが、慣れてるツールを乗り換えたりするのって結構ハードルが高いですよね。ということで、個人的な備忘録も兼ねてPolarsの機能の簡易的な逆引きリファレンスを作ってみました。ここ半年間の自身の利用履歴から候補を絞っているので
manboubird 2024/12/13
polars

pandas

dataframe

tips
リンク
1 2 3 4 5 6 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx