タグ

pandasに関するcheckpointのブックマーク (2)

  • 投票: pandasによるデータ加工:テストのコツ・注意点やライブラリの紹介 | PyCon JP 2015 in TOKYO

    pandasにはDataFrameという強力なデータ構造があり、データの加工に広く利用されています。 しかしDataFrameはその構造を明示的に定義することができないため、おかしな値が含まれていることに気づくのが困難な場合が多く、注意が必要です。また実行結果が数値として出てくる場合、手動テストではバグの存在に気が付きにくいという問題もあります。 そこでこの発表では、バグの存在に素早く気付き修正するためのテストのコツや具体的なテストの書き方、コードを書く手順・コツ、便利なライブラリの共有を目的としています。 具体的には以下の内容についてお話します。 * バグにすぐ気づけるようなコードを書く手順とその時に意識すること * pandasにおけるユニットテスト(assertion methodやfixtureの準備の話) * TDDにより素早いフィードバックを得る。コードの肥大化に対抗する。 *

    投票: pandasによるデータ加工:テストのコツ・注意点やライブラリの紹介 | PyCon JP 2015 in TOKYO
  • pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments

    概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

    pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
  • 1