タグ

ブックマーク / datachemeng.com (4)

  • データ解析・機械学習を始める際のサンプル数の目安(あくまで目安!)

    分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 データ解析・機械学習でモデルを構築し始める際のサンプル数の目安について、もちろんモデルを構築する時には、可能な限り多くのサンプルを用いることが望ましいです。多くのサンプルを用いることで、サンプルの変化に強い (例えばサンプルが一つ追加されたり一つ削除されたりしても結果の変わりにくい) 頑健なモデルを構築できる可能性が高まります。頑健なモデルにより、より妥当な x の設計やモデルの解釈が可能になります。 ただし、サンプルを集め

    データ解析・機械学習を始める際のサンプル数の目安(あくまで目安!)
  • スモールデータを用いたデータ解析・機械学習のアプローチのまとめ

    分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 スモールデータ、すなわちサンプル数が小さいデータセットにおいては、データ解析・機械学習を慎重に行う必要があります。スモールデータにおける問題の詳細は、こちらに書いた通りです。 小さなデータセットが抱える大きな問題サンプル数が小さいデータセットには、データ解析で回帰分析やクラス分類をするとき、とてつもなく大きな問題があります。回帰分析やクラス分類における問題というと、精度の高いモデルが構築できないことを想像するかもしれません。

    misshiki
    misshiki 2024/04/01
    “状況の評価としては、y-randomizationがある。現状のスモールデータが偶然の相関の影響をどれくらい受けているかを評価。モデルを評価したときに、評価結果がどれだけ信頼できないかを評価できる。”
  • 理論が先か、データ解析・機械学習が先か、特徴量エンジニアリングの方針と注意点

    分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・実験条件・合成条件・製造条件・評価条件・プロセス条件・プロセス変数などの特徴量 x と分子・材料の物性・活性・特性や製品の品質などの目的変数 y との間で数理モデル y = f(x) を構築し、構築したモデルに x の値を入力して y の値を予測したり、y が目標値となる x の値を設計したりします。 モデルに関して、予測精度の高いモデルを構築することも重要ですし、構築したモデルを解釈することでデータセットが取得された実験系やシミュレーション系に新たな知見をフィードバックすることも大事です。モデルの予測精度の向上や解釈性の向上のため、x を検討することが行われます。特徴量エンジニアリングと呼ばれることもあります。 特徴量・記述子を検討・設計するときの心構え分子設計・材料設計・プロセス設計・プロセス管理において、分子記述子・

    理論が先か、データ解析・機械学習が先か、特徴量エンジニアリングの方針と注意点
    misshiki
    misshiki 2024/03/07
    “どちらの方法が良いのか聞かれたときは、基本的に前者の、理論的に x を作成して機械学習で評価する方法をオススメしています。なぜなら、後者の方法では偶然の相関 (chance correlation) に注意が必要だからです。”
  • 特徴量が多いデータセットに対して、特徴量重要度を用いた機械学習モデルの解釈がしやすくなる方法を開発しました![金子研論文]

    特徴量が多いデータセットに対して、特徴量重要度を用いた機械学習モデルの解釈がしやすくなる方法を開発しました![金子研論文]
    misshiki
    misshiki 2023/06/20
    “LOMP は、モデルを用いたシミュレーションに基づいて局所的に y に対する x の寄与を計算します。”
  • 1