はじめに Kedro + MLflow + Github Actions でデータ分析環境を構築したので、感想を書いてみました。 背景 =「ローカル環境で、1ファイルに全て突っ込んだノートブックを実験ごとに作っていた(lightgbm_02_YYYYMMDD.ipynbなど)ときの課題」 巨大で複雑なノートブックが出来上がってしまう 前処理、モデル学習、モデル評価... 担当分けが難しい(全部一人でやる場合も多いだろうが) メンテが辛い → 処理ごとに分けると、今度は依存関係が良く分からなくなる コードのレビューが辛い ノートブックはdiffが取りにくい ノートブックだとコードフォーマッタやチェッカーをかけられなかったり 実験管理が辛い 一覧化したくなる(一々ノートブックを開いて思い出すのは辛い) → 一覧を手動でメンテするのはめんどくさい(試行が多くなればなるほど) 他人の環境で(まっさ