AI Labの大田(@ciela)です。近頃はリサーチエンジニアとして研究成果を最大化するためのエンジニアリングに責任を持って日々活動しています。昨年もPyTorchに関する記事を書かせていただきましたが、今回もPyTorch、特にPyTorchでの学習データセットの取り扱いについてのお話になります。これまで部署内のプロダクトと関わる上でTensorFlowに浮気することも何度かありましたが、PyTorchに対する感覚を鈍らせたくはなく、今後もPyTorch関連の話題には頑張ってキャッチアップしていく所存です。 深層学習データセット取扱の課題 昨今の深層学習に用いられるデータセット内のデータ数は一般的に大規模です。実際に学習する上ではデータセットをシャッフルしつつ繰り返しロードし、場合によっては適切な前処理やData Augmentationだってしなくてはなりません。それらの処理を並列化