ginga0118のブックマーク - はてなブックマーク

pandas でメモリに乗らない大容量ファイルを上手に扱う - StatsFragments

概要分析のためにデータ集めしていると、たまにマジか！? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、？このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。サンプルデータたまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

ginga0118 2021/07/01

あとで読む

リンク

Python Jupyter + Cesium.js で 3D 地図が描きたい - StatsFragments

Cesium.js とは Web GL を利用して 3D 地図を描画する JavaScript ライブラリ。かなり多機能で様々な見せ方ができるようだ。詳しく知りたい方は公式サイトの Demos を見ればいい。 cesiumjs.org これを Jupyter Notebook に埋め込んで使いたい。Cesium.js には Python の wrapper などはないため、直接 JavaScript を書いて使う。従って、利用できる機能に差異はない。このエントリでは Cesium.js の機能の詳細には触れず、Jupyter に関係する内容のみ記載する。具体的なやり方はこちらと同じ。 sinhrks.hatena blog.com データの準備先日のエントリで作成した、アメリカの国立公園のデータを使う。 sinhrks.hatena blog.com 以降、すべて Jupyter No

ginga0118 2015/12/28

あとで読む

リンク

岩波データサイエンス Vol.1 - StatsFragments

ご恵贈いただきました。ありがとうございます! あわせてタスクもいただきました (下部)。書籍のコンテンツ各章ごとの内容は id:sfchaos さんが詳しく紹介されています。 d.hatena.ne.jp まだすべて読めていないのですが、以下 3 点がよいポイントだと思います。理論とサンプルプログラム両方の記載がある BUGS, Stan, PyMC3 と主要なパッケージが網羅されているサンプルは単純な回帰だけでなく時系列 / 空間ベイズを含む補足書籍にはコラム "Pythonとは" というデータ分析視点での Python 紹介があるのですが、中身は結構な pandas 推しでした。著者の方、いったい何者なんだ...。 Stan 入門依頼により、著者の松浦さんが作成した RStan サンプルの PyStan 版を作成させていただきました。以下リポジトリの "

ginga0118 2015/10/18

リンク

Python Dask で並列 DataFrame 処理 - StatsFragments

はじめに先日のエントリで少し記載した Dask について、その使い方を書く。Dask を使うと、NumPy や pandas の API を利用して並列計算/分散処理を行うことができる。また、Dask は Out-Of-Core (データ量が多くメモリに乗らない場合) の処理も考慮した実装になっている。 sinhrks.hatena blog.com 上にも書いたが、Daskは NumPy や pandas を置き換えるものではない。数値計算のためのバックエンドとして NumPy や pandas を利用するため、むしろこれらのパッケージが必須である。 Dask は NumPy や pandas の API を完全にはサポートしていないため、並列 / Out-Of-Core 処理が必要な場面では Dask を、他では NumPy / pandas を使うのがよいと思う。pandasとDas

ginga0118 2015/09/25

あとで読む

リンク

NumPy でつくる俺々データ構造 - StatsFragments

はじめに Python での数値計算の基盤をなす NumPy 、直感的なスライスやブロードキャスト、関数のベクトル適用など大変便利だ。 import numpy as np np.__version__ # '1.9.2' np.array([1, 2, 3]) # array([1, 2, 3]) np.array([1, 2, 3])[:2] # array([1, 2]) np.array([1, 2, 3]) + 1 # array([2, 3, 4]) が、用途によっては NumPy 標準ではその機能を実現できない場合がある。例えば、配列とメタデータをひとつのクラスで扱いたい配列への入力や型を制約/検証したい自作クラスを NumPy の Universal Functions (ufunc) に対応させたい新しい型 ( dtype ) を作りたいこういったとき、NumP

ginga0118 2015/09/23

あとで読む

リンク

Python 次世代の多次元配列パッケージ群 - StatsFragments

このところ、たびたび NumPy 後継が...とか並列処理が...という話を聞くので、この秋注目の多次元配列パッケージをまとめたい。バックエンド系 NumPy のように数値計算処理を自前で実装しているパッケージ。 DyND Blaze プロジェクトのひとつ。C++ 実装 + Python バインディング。GitHub にいくつか Example があがっているが、複合型やカテゴリカル型、GroupBy 操作がサポートされていて熱い。ラベルデータも NumPy より簡単に実装できそうだ。 speakerdeck.com 並列分散系自身では直接数値計算処理を行わず、バックエンド ( 主に NumPy )を利用して並列/分散処理を行うパッケージ。1 物理PC/複数コアでの並列計算を主用途とし、NumPy, pandas では少し苦しいが PySpark などを使うほどじゃない...とい

ginga0118 2015/09/23

あとで読む

リンク

Chainer で Deep Learning: model zoo で R-CNN やりたい - StatsFragments

ニューラルネットワークを使ったオブジェクト検出の手法に R-CNN (Regions with CNN) というものがある。簡単にいうと、R-CNN は以下のような処理を行う。入力画像中からオブジェクトらしい領域を検出し切り出す。各領域を CNN (畳み込みニューラルネットワーク) にかける。 2での特徴量を用いてオブジェクトかどうかをSVMで判別する。 R-CNN については論文著者の方が Caffe (Matlab) での実装 (やその改良版) を公開している。 [1311.2524] Rich feature hierarchies for accurate object detection and semantic segmentation github.com が、自分は Matlab のライセンスを持っていないので Python でやりたい。Python でやるなら今

ginga0118 2015/07/06

あとで読む

リンク

Python pandas データのイテレーションと関数適用、pipe - StatsFragments

pandas ではデータを列や表形式のデータ構造として扱うが、これらのデータから順番に値を取得 (イテレーション) して何か操作をしたい / また何らかの関数を適用したい、ということがよくある。このエントリでは以下の 3 つについて整理したい。イテレーション関数適用 pipe (0.16.2 で追加) それぞれ、Series、DataFrame、GroupBy (DataFrame.groupbyしたデータ) で可能な操作が異なるため、順に記載する。まずは必要なパッケージを import する。 import numpy as np import pandas as pd イテレーション Series Series は以下 2つのイテレーション用メソッドを持つ。各メソッドの挙動は以下のようになる。 __iter__: Series の値 ( values ) のみをイテレーシ

ginga0118 2015/06/19

あとで読む

リンク

Python spyre によるデータ分析結果のWebアプリ化 - StatsFragments

R を使っている方はご存知だと思うが、R には {Shiny} というパッケージがあり、データ分析の結果をインタラクティブな Web アプリとして共有することができる。{Shiny} って何？という方にはこちらの説明がわかりやすい。 qiita.com Python でも {Shiny} のようなお手軽可視化フレームワークがあるといいよね、とたびたび言われていたのだが、spyre というなんかそれっぽいパッケージがあったので触ってみたい。 github.com インストール pip で。 pip install dataspyre 使い方現時点でドキュメンテーションはないので、README と examples ディレクトリを見る。サンプルとして株価を取得してプロットするWebアプリを作ってみたい。spyre で Webアプリを作る手順は以下の3つ。 spyre.server.

ginga0118 2015/06/13

あとで読む

リンク

Python pandas 関連エントリの目次 - StatsFragments

このブログ中の pandas 関連のエントリをまとめた目次です。最近 pandas 開発チームと PyData グループの末席に加えていただき、パッケージ自体の改善にもより力を入れたいと思います。使い方についてご質問などありましたら Twitter で @ ください。目次につけた絵文字は以下のような意味です。 🔰: 最初に知っておけば一通りの操作ができそうな感じのもの。 🚧: v0.16.0 時点で少し情報が古く、機能の改善を反映する必要があるもの。 🚫: 当該の機能が deprecate 扱いとなり、将来的に代替の方法が必要になるもの。基本簡単なデータ操作を Python pandas で行う 🔰 Python pandas でのグルーピング/集約/変換処理まとめ 🔰 また、上記に対応した比較エントリ: R {dplyr}, {tidyr} Rの data.tab

ginga0118 2015/04/29

あとで読む

リンク

Python pandas 図でみるデータ連結 / 結合処理 - StatsFragments

なんかぼやぼやしているうちにひさびさの pandas エントリになってしまった。基本的な使い方については網羅したい気持ちはあるので、、、。今回はデータの連結 / 結合まわり。この部分公式ドキュメントがちょっとわかりにくいので改訂したいなと思っていて、自分の整理もかねて書きたい。公式の方はもう少し細かい使い方も載っているのだが、特に重要だろうというところだけをまとめる。連結 / 結合という用語は以下の意味で使っている。まず憶えておいたほうがよい関数、メソッドは以下の 4 つだけ。連結: データの中身をある方向にそのままつなげる。pd.concat, DataFrame.append 結合: データの中身を何かのキーの値で紐付けてつなげる。pd.merge, DataFrame.join 連結 (concatenate) 柔軟な連結 pd.concat ふたつの DataFram

ginga0118 2015/01/28

あとで読む

リンク

Python pandas データ選択処理をちょっと詳しく <後編> - StatsFragments

概要こちらの続き。これで pandas でのデータ選択についてはひとまず終わり。 Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments Python pandas データ選択処理をちょっと詳しく <中編> - StatsFragments サンプルデータの準備データは前編と同じものを使う。ただし変数名は変えた。 import pandas as pd s1 = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df1 = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s1 # I1 1 # I2 2 # I3 3 # dtype:

ginga0118 2014/11/18

リンク

Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments

概要書いていて長くなったため、まず前編として pandas でデータを行 / 列から選択する方法を少し詳しく書く。特に、個人的にはけっこう重要だと思っている loc と iloc について日本語で整理したものがなさそうなので。サンプルデータの準備 import pandas as pd s = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s # I1 1 # I2 2 # I3 3 # dtype: int64 df # C1 C2 C3 # I1 11 12 13 # I2 21 22 23 # I3 31 32

ginga0118 2014/11/14

リンク

はてなブックマーク

タグ

ブックマーク / sinhrks.hatenablog.com (13)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス