とある会社のカフェフロアで販売されているお弁当の販売数を予測するSIGNATEのコンペ「お弁当の需要予測」で作成したモデルを解説したいと思います。 こちら練習問題になっていますが、元ネタは2015年に実際に行われていたこちらのコンペのようです。 このモデルのRMSEは6.69380で、本投稿時6位相当でした。 データ分析の基本的な流れは網羅できていると思いますので、参考になれば幸いです。 目次 以下の順に沿って解説していきます。 データの可視化 トレンド抽出 特徴量エンジニアリング 特徴選択 モデル作成 テストデータの前処理と予測 1. データの可視化 まず目的変数である販売数の変動を可視化します。 train = pd.read_csv('../train.csv') test = pd.read_csv('../test.csv') train['y'].plot 販売数をみて気になっ