[B! python][Python][pandas] yu4uのブックマーク

yu4u id:yu4u

pythonとPythonとpandasに関するyu4uのブックマーク (2)

PythonでCSVを高速＆省メモリに読みたい - tkm2261's blog
今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、なんとかGILのあるPythonでも高速に読み込みたいと思います。ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。（オレオレライブラリ嫌い） Pickleは早いけど。。。結論はDask使おう！検証環境データ速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +
yu4u 2017/08/07
csv

pandas

python

performance

dask
リンク
関係データ学習の実装ツイッターデータのスペクトルクラスタリングとSBM - やったことの説明
概要関係データ学習の学習のために，自分で実装して理解する．ツイッターのフォローフォロワー関係を使って，グラフラプラシアンを求めスペクトルクラスタリングを行った．その結果，なんとなくクラスタリングできた．また，確率的ブロックモデルによる非対称データクラスタリングをStanによって実装しようとした．これはうまくいっていない．はじめに関係データ学習という本を買って読んでいる． www.kspub.co.jp 本の内容は前半と後半に分かれていて，前半は関係データをスペクトルクラスタリングしたり，確率的ブロックモデルでクラスタリングしたりする話．後半は行列分解やテンソル分解の話になっている．まだ前半の途中までしか読めていないが，予想していたよりも数式が簡単だったこともあり，実際のデータに適用してみたくなった．数年前に書いたツイッターのフォローフォロワー関係をダウンロードするスクリプ
yu4u 2017/03/07
pandas

stan

python

SBM
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx