前半の章では、これらの各ステージの意義とTFXを用いた実装を主として取り扱っています。 第3章ではExampleGenを用いた構造化・非構造化データの取り込み方法とベストプラクティスが紹介されています。 それに加えて、取り込んだデータをトレーニング、評価、テスト用に分割する方法や、データセットのバージョン管理についても解説があります。 第4章ではTensorFlow Data Validation (TFDV)を用いてデータセットの検証を行っています。 TFDVを用いてデータから要約統計量を計算し、データセットを表現するスキーマを生成しています。また、スキーマを元に同じ種類の2つのデータセット間(学習データセットと検証データセットや別日に収集された学習データセット)の差が許容されるものであるかをチェックしたり、TFDVを用いてデータセットを選択した特徴量でスライスし、データセットのバイアス
![「入門機械学習パイプライン」にSagemaker Studio Labで入門する | Amazon Web Services](https://cdn-ak-scissors.b.st-hatena.com/image/square/0fc257e8ac5c0a4234f0ec8727a86934bb55480e/height=288;version=1;width=512/https%3A%2F%2Fd2908q01vomqb2.cloudfront.net%2F827bfc458708f0b442009c9c9836f7e4b65557fb%2F2020%2F06%2F03%2FBlog-Post_thumbnail.png)