STL-10のunlabeledの画像10万枚(96x96)をImageDataGeneratorで回してたらメモリ12GB近く使ってパンクしそうになったので対処法を考えました。 環境:Keras=v2.2.4、TensorFlow=v1.8.0、CPU環境 結論だけ見たい方は「解決法」のとこまで飛んでください。 ImageDataGenerator.flow()は入力データを全部float32にキャストしてる? STL-10はtrain(5000枚), test(8000枚), unlabeled(10万枚)の3種類のデータからなり、それぞれ1つずつの大きなバイナリファイルに固められています。Pythonの実装は詳しくはこちらにあります。 STL-10の実装は本質的なことではないのですが、このバイナリの画像データがuint8のNumpy配列で定義されているのがポイントなのです。uint8
