こんにちは、Emotion TechでSREチームに属している菅原です。 Pythonで実装されたデータ処理のテストを書く際に、まとまったテストデータが必要ということはあるかと思います。 今まではテスト用のCSVファイルを用意する or 適当な値を入れたPandasのデータフレームを用意する、で対応していました。 今回は、簡単にテストデータを用意する手段として、panderaの機能が使えないか試してみました。 panderaとは panderaは、データフレームでデータバリデーションを実行して、データ処理パイプラインをより読みやすくロバストにするためのライブラリです。 公式ドキュメントの例をみてみましょう。 import pandas as pd import pandera as pa # data to validate df = pd.DataFrame({ "column1": [