はじめに Azure Machine Learningで自動的にモデルが作れるらしい。 そこで化合物の予測モデルの精度で勝負を挑んでみた。 対象データ この分野では実験から得られる教師データは少な目で、化学構造から得られる説明変数(記述子)は数千から場合によっては数万となるのが1つの特徴である。 精度が出やすいデータの場合、予測方法が優れているかどうか分かりにくいため、データ数が少なく、精度がやや低目のデータとして「化学のためのPythonによるデータ解析・機械学習入門」の6章の、データ数 114 件、 R^2 が 0.7 程度の以下データを選定した。 https://github.com/hkaneko1985/python_data_analysis_ohmsha/blob/master/sample_data/molecules_with_pIC50.csv 比較方法 比較方法は以下
