タグ

データサイエンスに関するy_nishimura_728のブックマーク (2)

  • なぜn_estimatorsやepochsをパラメータサーチしてはいけないのか - 天色グラフィティ

    ハイパーパラメータを探索するため、グリッドサーチやOptunaなどを利用することがあると思います。 しかし、「ハイパーパラメータ探索してみた」のようなQiita記事などでは間違って書かれていることも多いのですが、XGBoostやLightGBMの n_estimators ( num_boosting_rounds )やKerasの epochs をパラメータサーチの対象にしてはいけません。 いけません、というか、すごく無駄なことをしています。 なぜ、n_estimatorsやepochsを探索すると無駄なのか 理由はシンプルで、これらのパラメータは「大きい値で精度確認する過程で小さい値の結果も分かる」からです。 LightGBMのn_estimatorsは構築する決定木の数を表しています。 例として、n_estimators=5 (こんな小さい値で学習することはないですが、簡単のため)で

    なぜn_estimatorsやepochsをパラメータサーチしてはいけないのか - 天色グラフィティ
  • データ分析者の最重要使命とは?「Kaggle」元世界チャンプの意外な答え

    「問題を解決するために、統計やソフトウエア開発・プログラミング、ビジネス問題解決、ソフトウエアツールの活用などの知識やスキルを統合活用する。これがデータサイエンティストに関する古典的な定義だ。だが、非常に大切なのに無視されがちな役割がある」。 こう指摘するのは、データサイエンティストのセルゲイ・ユルゲンソン(Sergey Yurgenson)氏である。機械学習自動化ツールを提供する米データロボット(DataRobot)のアドバンスドデータサイエンスサービス ディレクターとして、顧客の問題解決を手掛ける傍ら、後進の指導を務めている。 データサイエンティストは世界中に数えきれないほど存在する。データサイエンス/機械学習関連のコンペティションとして知られる「Kaggle」には11万2607人が登録されている(2019年6月14日時点)。どのような人材までをデータサイエンティストと呼ぶかにもよるが

    データ分析者の最重要使命とは?「Kaggle」元世界チャンプの意外な答え
  • 1