かたちあるものいつかは壊れます。メモリモジュールも例外じゃありません。 DSAS はサーバが200台近くあり、複数枚メモリを積んでいるサーバもあるのでメモリの数はそれ以上です。これだけメモリがあると、どれかが壊れる確率はそれなりに・・・・ 前回のパクリはこのくらいにしてですね(^^;、ディスクは壊れると非常にわかりやすいログを吐いてくれたり、 SMART で簡単に状態をチェックできたりしますが、メモリが壊れた場合はちとやっかいです。いきなり固まったり電源が落ちたり挙動不審になったりと、全く予測不能な症状を引き起こしてしまいます。このような場合、メモリ不良を疑って BIOS でログを確認するとか、長時間かけて診断ツールかけたりしないとなかなか原因の特定に至らないので、原因不明なまま眠れない日々が続いてしまいます。 Linux でメモリエラーを検出するには、「 NMI 関連のログがでたらメモリ
![そのメモリ、捨てる前に 〜EDACでECCエラーをキャッチ〜 : DSAS開発者の部屋](https://cdn-ak-scissors.b.st-hatena.com/image/square/da78a05937633f7a2b4b2219826151c370cd607b/height=288;version=1;width=512/https%3A%2F%2Fparts.blog.livedoor.jp%2Fimg%2Fusr%2Fcmn%2Fogp_image%2Flivedoor.png)