こんにちは、LayerXのPrivcyTech事業部でリードエンジニアをしている恩田(@cipepser)です。本ブログではプライバシー保護技術としても注目を集めている合成データを紹介します。 合成データの概要 合成データは現実世界のデータをもとに生成される人工的なデータです。アルゴリズムに従って生成されるため、ある種のシミュレーションといえ、広義には物理シミュレーションや音楽のシンセサイザーなども含まれます。足元では機械学習や分析プロジェクトにおいて、少ないデータを合成データで補う点で注目を集めており、2021年7月にGartnerは「2024年までに、機械学習や分析プロジェクトの開発に利用されるデータの60%が合成データになる」と予測しています。 また合成データで生成されるデータは人工的なものであり、統計的な特性を保持しつつも、実在する個人のデータではないことからプライバシーの観点でも
![合成データとは - 統計的な有用性を維持する架空のパーソナルデータ](https://cdn-ak-scissors.b.st-hatena.com/image/square/a97173fb7b4e27b73e6e7c3d9fd247b309173b19/height=288;version=1;width=512/https%3A%2F%2Fstatic.wixstatic.com%2Fmedia%2F2a05fd_225c474519db442e85a7f3243043bf97~mv2.png%2Fv1%2Ffill%2Fw_1000%2Ch_518%2Cal_c%2Cq_90%2Cusm_0.66_1.00_0.01%2F2a05fd_225c474519db442e85a7f3243043bf97~mv2.png)