Home Home Why Installation and quick start Intro tutorial Narwhals and SQL Concepts Overhead Perfect backwards compatibility policy Supported libraries and extending Narwhals How it works Ecosystem Security Resources Narwhals - Extremely lightweight and extensible compatibility layer between dataframe libraries! Full API support: cuDF, Modin, pandas, Polars, PyArrow. Lazy-only support: Dask, DuckD
はじめに Python を用いてデータ分析を行うにあたりよく使われるライブラリとして pandas があります。 pandas は大変使い勝手の良いライブラリですが、多くの場合データを丸ごと pd.DataFrame 型で保持するため「どのような列を持っているのか」、「各列がどのような型か」、「各列の値にどのような値が入りうるのか」等がソースコードを一見しただけでは分からないことが多いです。 結果として処理がブラックボックス化してしまい、デバッグコストの増加やコードの可読性低下といった問題を生じさせることがあります。 この問題への解決策の一つとして、本記事ではデータフレームのバリデーション機能を提供するライブラリである pandera を紹介します。 pandera とは データ処理パイプラインの可読性とロバストさを高めるために dataframe に対してデータ検証を行う機能を提供するラ
      
  BigQuery DataFrames を使用する BigQuery DataFrames は、BigQuery エンジンによる Pythonic DataFrame と ML API を提供します。BigQuery DataFrames は、オープンソースのパッケージです。 pip install --upgrade bigframes を実行すると、最新バージョンをインストールできます。 BigQuery DataFrames には、次の 3 つのライブラリが用意されています。 bigframes.pandas は、BigQuery でデータの分析と操作に使用できる pandas API を提供します。多くのワークロードは、インポートをいくつか変更するだけで pandas から bigframes に移行できます。bigframes.pandas API は、テラバイト単位の BigQ
ArcticDB is precisely designed to solve for a single pain point: getting quants productive with their data as quickly as possible. ArcticDB seamlessy integrates with common Python data science libraries, transforming your ability to operate complex data at petabyte scale with remarkable speed. Billions of rows of data, hundreds of thousands of columns processed in seconds.
      
  この記事は朝日新聞社Advent Calendar2024の11日目の記事です。 昨日の記事は村瀬さんのAWS Lambda SnapStartを試してみたでした。 Polars 入門向けよく使いそうな機能の逆引きリファレンス こんにちは、朝日新聞社の新妻です。 皆さん、Polars使ってますか? 自分はこの半年間くらいPandasからPolarsに乗り換えて、しばらく使ってみていました。 個人的な感想として、メモリの効率さや処理の高速さが非常に良くて、特にSNSの投稿のような大規模なデータを扱うときには非常に助かっています。 ということで、非常にオススメできるのですが、 慣れてるツールを乗り換えたりするのって結構ハードルが高いですよね。 ということで、個人的な備忘録も兼ねてPolarsの機能の簡易的な逆引きリファレンスを作ってみました。 ここ半年間の自身の利用履歴から候補を絞っているので
10 Nov, 2024 IntroductionMy main background is a hedge fund professional, so I deal with finance data all the time and so far the Pandas library has been an indispensable tool in my workflow and my most used Python library. Then came along Polars (written in Rust, btw!) which shook the ground of Python ecosystem due to its speed and efficiency, you can check some of Polars benchmark here. I have a
      
  技術本部 R&D研究員の前嶋です。梅雨の季節ですが、少しでも快適に過ごせるようにOnのCloud 5 wpを購入しました。水に強くて軽快な履き心地で最高ですね。(追記:この記事の公開作業をしている間に梅雨が終わってしまいました) 今回は、データフレームのテストについての記事です。 データフレームのテストをどう書くか データが中心となるサービスのネックになるのが テストをどう書くか です。というのも、データフレームは行×列の構造になっているため、入力あるいは出力値がデータフレームになるような関数が多いプログラムでは、テストケースを書くのが非常に面倒です。仕様の変更があった場合、それぞれのテスト用の疑似データに修正を加えることを考えると、より簡潔にデータフレームのバリデーションをする方法が欲しいところです。実は、データフレームのテストはProperty Based Testingという考え方と
      
  Polars is an open-source library for data manipulation, known for being one of the fastest data processing solutions on a single machine. It features a well-structured, typed API that is both expressive and easy to use. Polars Cloud is currently available to a group of select organizations. This platform manages the compute infrastructure, allowing you to focus solely on writing queries while seam
      
  To use Modin, replace the pandas import: Scale your pandas workflow by changing a single line of code# Modin uses Ray, Dask or Unidist to provide an effortless way to speed up your pandas notebooks, scripts, and libraries. Unlike other distributed DataFrame libraries, Modin provides seamless integration and compatibility with existing pandas code. Even using the DataFrame constructor is identical.
Announcing the Consortium for Python Data API Standards An initiative to develop API standards for n-dimensional arrays and dataframes 11 minute read Published: 17 Aug, 2020 Over the past few years, Python has exploded in popularity for data science, machine learning, deep learning and numerical computing. New frameworks pushing forward the state of the art in these fields are appearing every year
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? PandasやNumPyの並列処理だったり、メモリに乗り切らないデータを扱う際などによく見かけるDaskライブラリ。 ただ、細かいところまで触れている日本語の資料があまり無かったので、公式ドキュメントなどをしっかり読んでみてまとめてみました。 ※Daskのドキュメント既に読まれている方はご存知かと思いますが、ドキュメントがかなりのボリュームなのと、細かい所まで把握するのを目的とするため、本記事も長めです。仕事などの都合でさくっと使われたい方には向いておりませんので、そういった場合は別の記事をご参照ください。 どんなライブラリなのか Py
      
  This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
      
  はじめに 先日のエントリで少し記載した Dask について、その使い方を書く。Dask を使うと、NumPy や pandas の API を利用して並列計算/分散処理を行うことができる。また、Dask は Out-Of-Core (データ量が多くメモリに乗らない場合) の処理も考慮した実装になっている。 sinhrks.hatenablog.com 上にも書いたが、Daskは NumPy や pandas を置き換えるものではない。数値計算のためのバックエンドとして NumPy や pandas を利用するため、むしろこれらのパッケージが必須である。 Dask は NumPy や pandas の API を完全にはサポートしていないため、並列 / Out-Of-Core 処理が必要な場面では Dask を、他では NumPy / pandas を使うのがよいと思う。pandasとDas
      
  リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く