#なぜダミーデータにこだわるのか# 機械学習などのライブラリやツールを使う際に扱うデータはとても重要になります。データがなければ、デモを行うこともできません。実データを使うことが一番ですが、なかなか身近に求めているタイプの実データがないケースも多いと思います。最近は分析に使いやすい実データが一部の企業から公開されていますが、研究目的の使用に限られているなど、使用条件を満たせられないこともあります。 データがなければ自分で作ればいいということで、ダミーデータを自由に作れると便利です。 ダミーデータを作るにあたっては、その目的によって作り方に工夫が必要です。大きく分けると次の二つになると思います。 パフォーマンス測定としてのダミーデータ データ分析としてのダミーデータ パフォーマンス測定においては、全データ読み込み速度測定などシンプルなものであれば、データ量さえ合わせれば用件を満たすケースも多