はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 本記事では、 32GB超のCSVデータの基本統計量を、小規模マシンでも省メモリかつ高速に計算するテクニック について解説します。 Kaggleコンペに限らず、 マシンスペックが低いため、大きなデータセットを満足に処理できず困っている 毎回行うファイル読み込みが遅いので、もっと高速化したい ⚡ といった悩みや課題を抱えている方の参考になれば幸いです。 モチベーション データ分析業務やKaggle等のコンペティションで初めてのデータセットを扱う場合、いきなり機械学習アルゴリズムを行うことはまず無く、最初にデータ観察を行うのが一般的です。 テーブルデータであれば、各カラムの基本統計量(最小値、最大値、平均、分散、四分位数)などを計算・可視化し、データクレンジングの要否や特徴量設計の方針などを検
![1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/bf9561ec54d3c61e1d99ed0e5dd8a6a05ed1c085/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-f625e957b80c4bd8dd47b724be996090.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9MTEwMCVFNCVCOCU4NyVFOCVBMSU4QyVFMyU4MyVCQjMyR0IlRTglQjYlODUlRTMlODElQUUlRTUlQjclQTglRTUlQTQlQTdDU1YlRTMlODMlOTUlRTMlODIlQTElRTMlODIlQTQlRTMlODMlQUIlRTMlODElQUUlRTUlOUYlQkElRTYlOUMlQUMlRTclQjUlQjElRTglQTglODglRTklODclOEYlRTMlODIlOTI0R0IlRTMlODMlQTElRTMlODMlQTIlRTMlODMlQUElRTMlODMlOUUlRTMlODIlQjclRTMlODMlQjMlRTMlODElQTclRTclQUUlOTclRTUlODclQkElRTMlODElOTklRTMlODIlOEImdHh0LWNvbG9yPSUyMzNBM0MzQyZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZ0eHQtY2xpcD1lbGxpcHNpcyZ0eHQtYWxpZ249bGVmdCUyQ21pZGRsZSZzPTQwYzU0YWZiMzMwZWJkOTkyY2RmYTYyMDU3MjM3NTE3%26mark-x%3D142%26mark-y%3D151%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTcxNiZ0eHQ9JTQwZnVqaW5lJTIwaW4lMjAlRTMlODElQkYlRTMlODElOUElRTMlODElQkIlRTMlODMlQUElRTMlODIlQjUlRTMlODMlQkMlRTMlODMlODElRUYlQkMlODYlRTMlODMlODYlRTMlODIlQUYlRTMlODMlOEUlRTMlODMlQUQlRTMlODIlQjglRTMlODMlQkMlRTMlODIlQkElRTYlQTAlQUElRTUlQkMlOEYlRTQlQkMlOUElRTclQTQlQkUlRTMlODAlODAlRTUlODUlODglRTclQUIlQUYlRTYlOEElODAlRTglQTElOTMlRTclQTAlOTQlRTclQTklQjYlRTklODMlQTgmdHh0LWNvbG9yPSUyMzNBM0MzQyZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zMiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTM4YzMxOTdlMTFkMDY5YWZkMmIwMTFmMmYzNDkxZmJl%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3Dc0823714210dfb790ff2aeca6970dcf0)