OpenStreamアドベントカレンダーの一日目です。 結構前からやっている趣味DeepLearningですが、最近(実際は結構前から)次のような問題に当たり始めました。 データセットが大きくなってきてHDDが厳しい データセットが大きくなってきて前処理がやばい 小さいデータセット+Augmentationでなんとかなるものはいいんですが、現在最大のデータセットは 画像33万枚、220GB弱 あります。 んで、これを前処理したり何だりしていると、最終的に学習で利用するデータを作成するだけで、HDDが500GBくらい利用されてしまう状態です。 容量も当然厳しいんですが、一番厳しいのは処理時間です。現状の前処理を行うと、大体 12時間くらい かかります。趣味でやるので基本的に自分のPCでやっていると、HDDが悲鳴を上げる上に、実行している間はレイテンシが悪すぎて他の作業もできないって状態になっ
![AWS Batchで速く/安くやるデータセットの前処理 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/ef74b6f589e2681090470e621abbf58c5a2d0c03/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-7940cd1c8db80a7ec40711d90f43539e.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9QVdTJTIwQmF0Y2glRTMlODElQTclRTklODAlOUYlRTMlODElOEYlMkYlRTUlQUUlODklRTMlODElOEYlRTMlODIlODQlRTMlODIlOEIlRTMlODMlODclRTMlODMlQkMlRTMlODIlQkYlRTMlODIlQkIlRTMlODMlODMlRTMlODMlODglRTMlODElQUUlRTUlODklOEQlRTUlODclQTYlRTclOTAlODYmdHh0LWFsaWduPWxlZnQlMkN0b3AmdHh0LWNvbG9yPSUyMzNBM0MzQyZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZzPTIyNzU5OTRmZDIyYjBlMzY0OGU5MDZlMDc0Zjc4Y2Zi%26mark-x%3D120%26mark-y%3D96%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9OTcyJnR4dD0lNDBkZXJ1aSZ0eHQtY29sb3I9JTIzM0EzQzNDJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9NThkMGY4MTM1NGUxMzljNmMyZTI0OWFhN2Q1YmZiZDc%26blend-x%3D120%26blend-y%3D500%26blend-mode%3Dnormal%26s%3Dbb6b4906af4a7e6442dfaad853504547)