[B! Python][memory] clavierのブックマーク

clavier id:clavier

Pythonとmemoryに関するclavierのブックマーク (8)

1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita
はじめにこの記事は，Kaggle Advent Calendar 2022第6日目の記事になります。本記事では、 32GB超のCSVデータの基本統計量を、小規模マシンでも省メモリかつ高速に計算するテクニックについて解説します。 Kaggleコンペに限らず、マシンスペックが低いため、大きなデータセットを満足に処理できず困っている毎回行うファイル読み込みが遅いので、もっと高速化したい ⚡ といった悩みや課題を抱えている方の参考になれば幸いです。モチベーションデータ分析業務やKaggle等のコンペティションで初めてのデータセットを扱う場合、いきなり機械学習アルゴリズムを行うことはまず無く、最初にデータ観察を行うのが一般的です。テーブルデータであれば、各カラムの基本統計量（最小値、最大値、平均、分散、四分位数）などを計算・可視化し、データクレンジングの要否や特徴量設計の方針などを検
clavier 2023/06/18
python

data

memory

performance
リンク
Pythonで省メモリに大量の文字列を扱う工夫 - MNTSQ Techブログ
たくさんの文字列（や離散的な符号列）をメモリに載せないといけないんだけど、いろんな制約があって通常のList[str]では載らない…ということありませんか？（まぁあんまりなさそうですね）たまたまそういうことがあったので、その際に検討した内容をまとめておきます TL;DR メモリをもっと増やしましょう富豪的に解決できるならいつでもそれが最高ですしかし、世の中それでなんとかならんこともたくさんあります用途があうのであれば専用のデータ構造を採用する例えばもし共通のprefixやsuffixが存在し、順序に興味がなければtrie treeなどが使えます例えば、弊社であれば、法人名をメモリに持ちたいなんてときもあります。そういうときに法人名の辞書をtrieで持ったりすることがあります「株式会社」「一般財団法人」や「銀行」といった共通語がたくさんでてくるのでtrie treeでごりごり削
clavier 2021/06/20
python

data

performance

tuning

memory

programming
リンク
データ分析に役立つメモリ管理・削減方法 - のんびりしているエンジニアの日記
皆さんこんにちはお元気ですか。最近自炊が少しずつ捗ってきました。本日はデータ分析でよく起こる「Memory Error」の対策を書いていこうと思います。今回のはGPUではなく、CPUです。そもそもなぜ「Memory Error」と遭遇するのか大量のデータを解析する、もしくは、大量の特徴量を扱うからです。または、途中の巨大途中処理が原因で載らなくなったとかですね。その結果、マシンが落ちることもデータ分析している人が陥るよくあることです。その場合の処方箋を書いていこうと思います。メモリ対策不要な変数のメモリを開放する。一番シンプルで、もういらないから消してしまえという方式です。方法は単純です。変数をdelして、ガーベジコレクション（不要なメモリを回収し、空ける方式）を実行することです。例えば、次の通りです。 import gc import numpy as np m
clavier 2020/03/17
memory

pandas

python
リンク
Pythonのメモリ使用量を減らすポイント - Qiita
今回は、iXce’s blog » Blog Archive » Optimizing memory usage in Python: a case study という記事を見つけて興味深かったので紹介したいと思います。何も説明書いてないところがあるので、詳しく知りたい人は元記事を読んでほしいです。動機プレーンテキストをGコードに変換するプログラムを書いている 3.8MB (14万Gコード) のファイルを読み込むと、244MBもメモリを使ってしまうだからメモリ使用量を減らしたいやったことプロファイルどこがメモリをたくさん使ってるのか調べるためにHeapyを使う $ pip install guppy で入れられる。するとこんな感じの結果が出力される。 Partition of a set of 225737 objects. Total size = 115386656 by
clavier 2016/05/02
python

debug

Programming

memory

performance
リンク
Pythonコードのプロファイリング - shkh's blog
普段、Pythonのコードは何となく速かろうという、言ってみれば勘で書いているのだけど、その勘とやらは往々にしてウンコードを生むものである。そこで、プロファイラを使っていきたいと思う。使えそうなツールそういうわけで、いくつか使えそうなツールをリストアップした。経過時間のプロファイラツール名メモ profile ビルトイン, ピュアPythonの決定論的プロファイラ cProfile ビルトイン, C拡張の決定論的プロファイラ line_profiler 行単位の決定論的プロファイラ Plop 統計的プロファイラ, Dropboxの人が作ってる statprof 統計的プロファイラ, 開発停止？ yep 拡張モジュール用の統計的プロファイラ, バックエンドにgoogle-perftools メモリのプロファイラツール名メモ memory_profiler 行単位でメモリ消費量の
clavier 2013/08/21
memory

python

Dropbox

Profiling
リンク
メモリリークとは何か - kuenishi's blog
メモリリークに悩まされている技術者は多いだろう。メモリリークが嫌でGCという技術が開発されたといっても過言ではないし、歴史的にはC++からJavaへシフトが起きた大きな理由のひとつといっていい。Unix系の簡単な定義でいえば、ヒープ領域を指すポインタ（アドレス）をロストしてしまえばそのメモリはもう漏れたといってよい。たとえばこういったコードだ。 struct { int i; char c; } spam; int main(){ void* p; int i; for(i=0; i<1024; ++i){ p = malloc(sizeof(struct spam)); } pause(); } このコードではpause(3)の時点で約5KBのメモリが漏れている。free(3)を使えばメモリをOSに返却できるが、アドレスが分からないので返却できない。ところが、ここでいいたいのは、メモリ
clavier 2013/04/23
programming

malloc

Python

GC

memory
リンク
Pythonで__slots__を使ってメモリを節約 - 西尾泰和のはてなダイアリー
先日こんな実験をして、大量のオブジェクトを作った時にはそのオブジェクトが持っている__dict__の1048バイトが無視できなくなってくることを確認した: Pythonでメモリ消費量のプロファイルを取る今日はその解決編。先日のコードに1行書き足してみよう。__slots__で始まる行がそれだ。 from guppy import hpy h = hpy() N = 100000 class Hoge(object): __slots__ = ['x', 'y', 'z', 'a', 'b', 'c'] def __init__(self): self.x = 1 self.y = 1 self.z = 1 self.a = 1 self.b = 1 self.c = 1 x = [Hoge() for x in range(N)] print h.heap() これによって、変更前ではH
clavier 2012/10/29
memory

performance

python
リンク
Pythonでメモリ消費量のプロファイルを取る - 西尾泰和のはてなダイアリー
昨日Pythonでメモリを食い過ぎた時に見直すポイントを書いたが、使ったツールの説明を忘れていた。 Guppy-PE: A Python Programming Environmentを使うとこんな感じの出力が得られる。 Partition of a set of 2330379 objects. Total size = 355901024 bytes. Index Count % Size % Cumulative % Kind (class / dict of class) 0 447287 19 125240360 35 125240360 35 dict of __main__.Node 1 53016 2 85891008 24 211131368 59 dict (no owner) 2 467204 20 66360776 19 277492144 78 str 3 457
clavier 2012/10/29
programming

python

memory
リンク
1