はじめに データサイエンティストの業務の中では、集計や可視化、簡易的なモデリングなど中心としたアドホックな分析を行うことがありますが、アドホック分析で品質を保つことは難しいと感じます。 第一に、アドホック分析は探索的な要素を多分に含むので、分析のスコープが変動することが多いです。例えば、集計の切り口やモデルのパラメータの設定を変更した上で、分析を再度実行し直すような場面に遭遇したりします。加えて、多くの場合データが綺麗ではありません。当然利用するデータソースに依存しますが、状況によっては整備されていないExcelファイルをベースに分析することもあったりします。 このような点でアドホック分析で品質を保つことは難しく、ともすると書き捨てのnotebookの山になってしまいがちです。本記事では、このような状況において少しでも品質を保ちつつ分析を行う方法について整理します。 方法 プロジェクトのデ