チームで機械学習のタスクに取り組む際、過去の自分や他人が利用したデータの再現をするのに苦労する事があります。 本トークでは、データの再現性が低下する原因について体系的に解説し、akagi というオープンソースのPython ライブラリを利用してデータの再現性を高める方法について紹介します。 機械学習のタスクに取り組む場合において、データの再現性が損なわれる場面があり、その 原因は多岐にわたります。 - データの再現性は時間とともに低下します。過去に誰かが用意したデータを利用しようとする際に、データの入手方法がドキュメント化されておらず、入力データを再現できない場合があります。最悪の場合、丁寧に加工されたデータは本人のローカル環境にしか存在しないかもしれません。 - またデータの入手先が多岐にわたり(MySQL, Google Cloud Storage/Amazon S3, ローカルのファ