タグ

pandasに関するhkjnのブックマーク (5)

  • お前らのpandasの使い方は間違っている - Qiita

    この記事は株式会社Nuco Advent Calendar 2022の9日目の記事です。 はじめに いきなりお馴染みの「キャッチーでウィットでセンセーショナルな」タイトルで失礼します。 私自身、業務の中でpandasに大変お世話になっており、自戒も込めてpandasの「アンチパターン」をまとめてみました。 この記事を読んで、より快適なpandasライフを送っていただけると嬉しいです。 対象読者 Pythonを使ったデータ分析機械学習に携わる方 この記事はpandasの基的な使い方を解説するものではないので注意してください。 表形式ファイルを加工する必要がある方 pandasの強みはリレーショナルなデータ全般です。必ずしもデータ分析機械学習だけが守備範囲ではありません。 pandasとは pandasの公式ドキュメントの概要には、以下のように記載してあります。 pandas is a

    お前らのpandasの使い方は間違っている - Qiita
  • 速いと噂のPythonのVaexについて詳しく調べてみた。 - Qiita

    結構前にPandasやDaskなどよりも大分高速と話題になっていたPythonのVaexライブラリについて、仕事で利用していきそうな気配がしているので事前にしっかり把握しておくため、色々調べてみました。 どんなライブラリなのか Pandasと同じように行列のデータフレームなどを扱うことのできるPythonライブラリです。 Pandasと比較して膨大なデータの読み込みや計算などを高速に行えます(数十倍~数百倍といったレベルで)。 計算上のメモリ効率がとても良く、無駄の少ない実装になっています。 Daskのように計算が遅延評価されたりと、通常はメモリに乗りきらないデータでも扱うことができます。 Daskのように並列処理で計算を行ってくれます。 Pandasと比較的似たインターフェイスで扱うことができます。 この記事で触れること 主に以下のVaexのトピックに関して記事で触れます。 インストー

    速いと噂のPythonのVaexについて詳しく調べてみた。 - Qiita
  • だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita

    データサイエンス100ノック(構造化データ加工編)のPythonの問題を解いていきます。この問題群は、模範解答ではpandasを使ってデータ加工を行っていますが、私達は勉強がてらにNumPyの構造化配列を用いて処理していきます。 次回記事(#2) はじめに Pythonでデータサイエンス的なことをする人の多くはpandas大好き人間かもしれませんが、実はpandasを使わなくても、NumPyで同じことができます。そしてNumPyの方がたいてい高速です。 pandas大好き人間だった僕もNumPyの操作には依然として慣れていないので、今回この『データサイエンス100ノック』をNumPyで操作することでpandasからの卒業を試みて行きたいと思います。 今回は8問目までをやっていきます。 今回使うのはreceipt.csvだけみたいです。初期データは以下のようにして読み込みました(データ型

    だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita
  • データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust) - Qiita

    データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust)Pythonpandasデータ分析データ可視化pandas-profiling Pythonのpandas-profilingと、pixiedustの2つのライブラリを使うと、データの集計・グラフの作成が、感動的なほど早く終わることを実感したので共有します。 Excelでデータ集計・グラフ作成した場合と比較すると、体感で100倍くらい早く終わります(誇張ではなく) Pythonで爆速でデータ集計する方法(体感所要時間:5分) 前提: 以下の環境が整備されていることは、前提とします。 Pythonのインストール(約30分) データ分析に必要な各種ライブラリのインストール(約30分) →numpy, matplotlib, pandas, jupyter など →Anac

    データの集計は、ExcelよりPython使ったほうが100倍早い(pandas-profiling, pixiedust) - Qiita
  • PythonでPandasのPlot機能を使えばデータ加工からグラフ作成までマジでシームレス - Qiita

    Pandasのグラフ描画機能 この記事ではPandasのPlot機能について扱います。 Pandasはデータの加工・集計のためのツールとしてその有用性が広く知られていますが、同時に優れた可視化機能を備えているということは、意外にあまり知られていません。 この機能は Pandas.DataFrame.plot() もしくは Pandas Plot と呼ばれるものです。 Pandas Plotを使いこなすことが出来るようになれば、 データの読み込み、保持 データの加工 データの集計 データの可視化 というデータ分析の一連のプロセスを全てPandasで完結させることが出来る、つまり分析の「揺りかごから墓場まで」を実現することが出来ます。 Pandasのプロット以外の機能について この記事ではPandasのデータハンドリングなどに関わる機能は説明しません。 そちらにも興味がある方は下記の記事などを

    PythonでPandasのPlot機能を使えばデータ加工からグラフ作成までマジでシームレス - Qiita
    hkjn
    hkjn 2016/03/03
  • 1