『ヤバい統計学』の著者でマーケティング分析のプロ、カイザー・ファングの記事をお届けする。グーグルのインフルエンザ予測モデルが失敗した事例を基に、ビッグデータの現状と課題を考える。本誌2014年5月号(4月10日発売)特集、「アナリティクス競争元年」の関連記事第6回。 2013年に出版されベストセラーとなった『ビッグデータの正体』(邦訳は講談社)の第1章の冒頭で、共著者のビクター・マイヤー=ショーンベルガーとケネス・クキエはGoogleインフルトレンド(GFT:Google Flu Trends)を取り上げている。そこでは、グーグルがいかにして数千億回の検索を含む5年分のウェブ上のログをマイニングしてアルゴリズムを組み立てたか、そして「どうしても報告に遅れが生じる政府の統計データよりも、有効でタイムリーなインフルエンザ指標であると実証済みの」45個の検索ワードを用いたインフルエンザ予測モデル