チームで機械学習のタスクに取り組む際、過去の自分や他人が利用したデータの再現をするのに苦労する事があります。 本トークでは、データの再現性が低下する原因について体系的に解説し、akagi というオープンソースのPython ライブラリを利用してデータの再現性を高める方法について紹介します。 機械学習のタスクに取り組む場合において、データの再現性が損なわれる場面があり、その 原因は多岐にわたります。 - データの再現性は時間とともに低下します。過去に誰かが用意したデータを利用しようとする際に、データの入手方法がドキュメント化されておらず、入力データを再現できない場合があります。最悪の場合、丁寧に加工されたデータは本人のローカル環境にしか存在しないかもしれません。 - またデータの入手先が多岐にわたり(MySQL, Google Cloud Storage/Amazon S3, ローカルのファ
![プレゼンテーション:機械学習におけるデータの再現性について | PyCon JP 2017 in TOKYO](https://cdn-ak-scissors.b.st-hatena.com/image/square/1e477a6a4439d07b2cc1b4a39394a6711169007f/height=288;version=1;width=512/https%3A%2F%2Fpycon.jp%2F2017%2Fsite_media%2Fstatic%2Fimg%2Fogp_logo_2017.png)