[B! python][performance][tuning] ishideoのブックマーク

ishideo id:ishideo

pythonとperformanceとtuningに関するishideoのブックマーク (2)

Pythonで省メモリに大量の文字列を扱う工夫 - MNTSQ Techブログ
たくさんの文字列（や離散的な符号列）をメモリに載せないといけないんだけど、いろんな制約があって通常のList[str]では載らない…ということありませんか？（まぁあんまりなさそうですね）たまたまそういうことがあったので、その際に検討した内容をまとめておきます TL;DR メモリをもっと増やしましょう富豪的に解決できるならいつでもそれが最高ですしかし、世の中それでなんとかならんこともたくさんあります用途があうのであれば専用のデータ構造を採用する例えばもし共通のprefixやsuffixが存在し、順序に興味がなければtrie treeなどが使えます例えば、弊社であれば、法人名をメモリに持ちたいなんてときもあります。そういうときに法人名の辞書をtrieで持ったりすることがあります「株式会社」「一般財団法人」や「銀行」といった共通語がたくさんでてくるのでtrie treeでごりごり削
ishideo 2021/05/25
object

numpy

performance

tuning

memory

python

bitarray

bytes

str
リンク
pandasで1000万件のデータの前処理を高速にするTips集 - Qiita
はじめに当社にアルバイトに来ていた人（来春に新卒入社の予定）に「pandasを高速化するための情報は無いですか？」と尋ねられました。このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチューニングするしかないです」としか答えられませんでした。そこで、この方を始め、来春（2019年4月）にデータアナリストまたはデータサイエンティストになる新卒へ向けて、pandasの高速化に関する私の経験をTips集にしてお伝えしたいと思います。この記事は今後も内容を充実させるために、Tipsを追加していきます。この記事を読んだ後にできるようになること pandasでレコード数1000万件のデータでも1分以内で完了する前処理が書けるようになります。その結果、1日中実行し続けなければな
ishideo 2018/12/25
pandas

python

qiita

tuning

performance
リンク
1