[B! Programming][python][data] clavierのブックマーク

clavier id:clavier

Programmingとpythonとdataに関するclavierのブックマーク (2)

Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments
概要書いていて長くなったため、まず前編として pandas でデータを行 / 列から選択する方法を少し詳しく書く。特に、個人的にはけっこう重要だと思っている loc と iloc について日本語で整理したものがなさそうなので。サンプルデータの準備 import pandas as pd s = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s # I1 1 # I2 2 # I3 3 # dtype: int64 df # C1 C2 C3 # I1 11 12 13 # I2 21 22 23 # I3 31 32
clavier 2021/11/07
python

pandas

statistics

development

data

programming

machinelearning
リンク
Pythonで省メモリに大量の文字列を扱う工夫 - MNTSQ Techブログ
たくさんの文字列（や離散的な符号列）をメモリに載せないといけないんだけど、いろんな制約があって通常のList[str]では載らない…ということありませんか？（まぁあんまりなさそうですね）たまたまそういうことがあったので、その際に検討した内容をまとめておきます TL;DR メモリをもっと増やしましょう富豪的に解決できるならいつでもそれが最高ですしかし、世の中それでなんとかならんこともたくさんあります用途があうのであれば専用のデータ構造を採用する例えばもし共通のprefixやsuffixが存在し、順序に興味がなければtrie treeなどが使えます例えば、弊社であれば、法人名をメモリに持ちたいなんてときもあります。そういうときに法人名の辞書をtrieで持ったりすることがあります「株式会社」「一般財団法人」や「銀行」といった共通語がたくさんでてくるのでtrie treeでごりごり削
clavier 2021/06/20
python

data

performance

tuning

memory

programming
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx