この記事は日経Robotics 有料購読者向けの記事ですが 『日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。 機械学習の大きな目標は、訓練データと異なるテストデータでもうまく動くような汎化するモデルを獲得することである。訓練データだけうまくいくのでよければ訓練データを丸暗記すればよく、コンピュータは容易に実現できる。しかし、見たことがないテストデータでもうまくいくためにはデータの背後に隠された法則を見つける必要がある。 一般に機械学習の問題設定では訓練データとテストデータは同じ分布から互いに独立にサンプルされているという、いわゆるiid(独立同分布)を仮定している。このiidの下では訓練データを十分な数集め、訓練データでうまくいくようなモデルさえ作ることができれば、テストデータでうまくいくことも期待できる。これに基づいて訓練デ