[B! python][データ] dakiumaのブックマーク

Pythonで大量データ処理！�PySparkを用いたデータ処理と分析のきほん

PyConJP2017の資料　Python Spark PySpark PyConJP 2017 Apache Spark

dakiuma 2017/09/12

リンク

PythonでCSVを高速＆省メモリに読みたい - tkm2261's blog

今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、なんとかGILのあるPythonでも高速に読み込みたいと思います。ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。（オレオレライブラリ嫌い） Pickleは早いけど。。。結論はDask使おう！検証環境データ速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

dakiuma 2017/08/04

リンク

Pandasを使ったデータ操作の基本 - ぴよぴよ.py

データ分析の会社に転職してから3ヶ月。最初の1ヶ月はPandasの扱いに本当に困ったので、昔メモしてたことを簡単にブログに記録しておく(o ･ω･)ﾉ【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型テストデータについて余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロードデータのサイズデータのカラム行列から必要な列(カラム)を取り出す条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す追記(2017/12/14) 行列から必要な行番号を指定してを取り出すグループ分けと集計新たな列を追加する固有値を追加する他の列を加工して新たな列を作る他の複数列を加工して新

dakiuma 2017/08/03

リンク

R vs Python：データ解析を比較 | POSTD

主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルはここからダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま

dakiuma 2015/10/29

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

pythonとデータに関するdakiumaのブックマーク (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス