CSV・Parquet・HDF5のフォーマットにおけるVaex・Dask・Pandasのパフォーマンスの比較をやってみた(単体ファイル対象)。PythonpandasPython3Daskvaex 本記事はCSV、Parquet、HDF5などのデータフォーマットにおける、Vaex、Dask、Pandasなどのパフォーマンス比較用の記事となります。 お仕事に役立ったらいいなぁくらいの軽い気持ちでの緩く荒めの対応なので、細かいところのツッコミはご容赦いただけますと幸いです。 弊社の前提条件と検証の目的 前提条件として弊社はプロジェクト側もAWSで統一・データ基盤もAWSで統一・・・といったようにマルチクラウドにはせずにAWSを中心とする形で組まれています(ログ関係だけGCPでBigQuery・・・みたいなことはしていません)。 そうするとAWSでKinesis FirehoseなりAthena
![CSV・Parquet・HDF5のフォーマットにおけるVaex・Dask・Pandasのパフォーマンスの比較をやってみた(単体ファイル対象)。 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/3f7b6f8bdcd29a2694e8cabb406e4a85200a632e/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9Q1NWJUUzJTgzJUJCUGFycXVldCVFMyU4MyVCQkhERjUlRTMlODElQUUlRTMlODMlOTUlRTMlODIlQTklRTMlODMlQkMlRTMlODMlOUUlRTMlODMlODMlRTMlODMlODglRTMlODElQUIlRTMlODElOEElRTMlODElOTElRTMlODIlOEJWYWV4JUUzJTgzJUJCRGFzayVFMyU4MyVCQlBhbmRhcyVFMyU4MSVBRSVFMyU4MyU5MSVFMyU4MyU5NSVFMyU4MiVBOSVFMyU4MyVCQyVFMyU4MyU5RSVFMyU4MyVCMyVFMyU4MiVCOSVFMyU4MSVBRSVFNiVBRiU5NCVFOCVCQyU4MyVFMyU4MiU5MiVFMyU4MiU4NCVFMyU4MSVBMyVFMyU4MSVBNiVFMyU4MSVCRiVFMyU4MSU5RiVFRiVCQyU4OCVFNSU4RCU5OCVFNCVCRCU5MyVFMyU4MyU5NSVFMiU4MCVBNiZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9ODhiMWZkMWE1ZTBlNTIzODliODdkYjI3OTljMTJkNjU%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBzaW1vbnJpdGNoaWUmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTAzNTFhOWFiMzVlNjQwNDIxNzY0MDEzZTMzZTZhNmZk%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3Dd17169d6adb675faab9809825bdf2c35)