こんにちは!nakamura(@naka957)です。本記事では、TensorFlowの拡張機能であるTensorFlow Data Validationを用いたデータセット検証を行う方法をご紹介します。 データセット検証とは、機械学習モデルの構築時に使う訓練データと運用データの間の違いを調べることです。訓練データと運用データの性質に違いが存在すると、モデル精度の悪化に繋がります。そのため、構築したモデルの精度監視だけでなく、より前工程となるデータセット時点での検証も非常に重要になります。特に、データセットサイズが大きくなるほど、手作業での検証が困難となるため、効率的で自動化された検証方法が求められてきます。 データセット検証を行うライブラリは様々ありますが、今回は機械学習の実装フレームワークとして特に有名なTensorFlow系のライブラリを用いて行います。 では、早速始めていきます。
![Tensorflow Data Validationを用いた機械学習用データセットの検証方法 - DATAFLUCT Tech Blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/75910a7664ae8a3604cb54da3ff94e0fc732f5d3/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fd%2Fdatafluct%2F20220929%2F20220929022256.png)