前半の章では、これらの各ステージの意義とTFXを用いた実装を主として取り扱っています。 第3章ではExampleGenを用いた構造化・非構造化データの取り込み方法とベストプラクティスが紹介されています。 それに加えて、取り込んだデータをトレーニング、評価、テスト用に分割する方法や、データセットのバージョン管理についても解説があります。 第4章ではTensorFlow Data Validation (TFDV)を用いてデータセットの検証を行っています。 TFDVを用いてデータから要約統計量を計算し、データセットを表現するスキーマを生成しています。また、スキーマを元に同じ種類の2つのデータセット間(学習データセットと検証データセットや別日に収集された学習データセット)の差が許容されるものであるかをチェックしたり、TFDVを用いてデータセットを選択した特徴量でスライスし、データセットのバイアス