従来、CPUコアは製造時のテストをパスすれば信頼できると考えられてきた。しかし、半導体の微細化が進み、CPUの構造が複雑化するにつれ、製造時には検出できない潜在的な欠陥が増えていることが明らかになってきた。これらの欠陥は使用中に顕在化し、静かにデータ破壊を引き起こす可能性がある。 正常なCPUがまれに計算エラーを起こす。厄介なことに、このエラーは多くの場合“サイレント”であり、誤った計算結果が唯一の症状となる。そのためエラーが発生したことに気付くのが非常に難しい。エラーが検出されずに後続の計算に影響を与え、被害が拡大するケースもある。 研究者らはこの問題を「計算実行エラー」(Computational Execution Errors、CEE)と呼んでいる。調査によると、大規模サーバ群では数千台に数個の割合でCEEが発生しているとのこと。これは単なるランダムなハードウェアエラーの増加ではな