タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

eccに関するkuni92のブックマーク (1)

  • そのメモリ、捨てる前に 〜EDACでECCエラーをキャッチ〜 : DSAS開発者の部屋

    かたちあるものいつかは壊れます。メモリモジュールも例外じゃありません。 DSAS はサーバが200台近くあり、複数枚メモリを積んでいるサーバもあるのでメモリの数はそれ以上です。これだけメモリがあると、どれかが壊れる確率はそれなりに・・・・ 前回のパクリはこのくらいにしてですね(^^;、ディスクは壊れると非常にわかりやすいログを吐いてくれたり、 SMART で簡単に状態をチェックできたりしますが、メモリが壊れた場合はちとやっかいです。いきなり固まったり電源が落ちたり挙動不審になったりと、全く予測不能な症状を引き起こしてしまいます。このような場合、メモリ不良を疑って BIOS でログを確認するとか、長時間かけて診断ツールかけたりしないとなかなか原因の特定に至らないので、原因不明なまま眠れない日々が続いてしまいます。 Linux でメモリエラーを検出するには、「 NMI 関連のログがでたらメモリ

    そのメモリ、捨てる前に 〜EDACでECCエラーをキャッチ〜 : DSAS開発者の部屋
  • 1