[B! python][Python][str] ishideoのブックマーク

ishideo id:ishideo

pythonとPythonとstrに関するishideoのブックマーク (2)

Pythonで省メモリに大量の文字列を扱う工夫 - MNTSQ Techブログ
たくさんの文字列（や離散的な符号列）をメモリに載せないといけないんだけど、いろんな制約があって通常のList[str]では載らない…ということありませんか？（まぁあんまりなさそうですね）たまたまそういうことがあったので、その際に検討した内容をまとめておきます TL;DR メモリをもっと増やしましょう富豪的に解決できるならいつでもそれが最高ですしかし、世の中それでなんとかならんこともたくさんあります用途があうのであれば専用のデータ構造を採用する例えばもし共通のprefixやsuffixが存在し、順序に興味がなければtrie treeなどが使えます例えば、弊社であれば、法人名をメモリに持ちたいなんてときもあります。そういうときに法人名の辞書をtrieで持ったりすることがあります「株式会社」「一般財団法人」や「銀行」といった共通語がたくさんでてくるのでtrie treeでごりごり削
ishideo 2021/05/25
object

numpy

performance

tuning

memory

python

bitarray

bytes

str
リンク
Python pandas strアクセサによる文字列処理 - StatsFragments
概要今週の週刊 pandas は文字列処理について。やたらと文字数が多くなったのだが、これはデータを都度表示しているせいであって自分の話がムダに長いわけではない、、、と思いたい。今回はこちらの記事に書いた内容も使うので、適宜ご参照ください。サンプルデータなんか適当な実データないかな？と探していたら週間少年ジャンプの過去作品の連載作品 / ジャンルなどがまとめられているサイトをみつけた。これを pandas で集計できる形まで整形することをゴールにしたい。 KTR's Comic Room: Weekly Jump Database データの読み込み上記リンクの "ジャンプ連載データ表" を、ファイル名 "jump_db.html" としてローカルに保存した。補足 pd.read_html では引数に URL を渡して直接ネットワークからファイルを読むこともできる。が、今回
ishideo 2017/05/23
python

pandas

str

text
リンク
1