概要 データセット(data set)とは、何らかの目的や対象について収集され、一定の形式に整えられたデータの集合。機械学習などコンピュータによる自動処理を行うために用意された大量の標本データのことを指すことが多い。 ある特定の主題について、名簿のように複数の要素や属性の組み合わせとして表されたデータを列挙したもの。集合を構成する一件ごとのデータの組み合わせを「データポイント」、あるいはデータベースのように「レコード」という。 一件のレコードは複数の要素が対応付けられており、データの表す内容に応じて数値や文字列、画像、動画、音声などを組み合わせて構成される。統計情報や観測記録などのようにある対象の情報を網羅することを意図したものと、人工知能の学習データのように膨大な標本空間の中から条件を満たすデータのサンプル(標本)を抽出することを目的とするものがある。 機械学習では用意したデータセットか