RHEL6では、メインフレームをリプレースできるほどの信頼性とスケーラビリティを狙っている。RHEL5からの大きな変更点としては、信頼性を向上させるメモリーエラー検出機構「EDAC」の対応強化や、バグレポートを自動化させる仕組み「ABRT」の採用、などが要注目だ。 メモリーエラーの「EDAC」対応強化 信頼性を向上させるための仕組みには、各種ホットプラグ、ファイルシステムの信頼性向上、メモリーのエラー検出の仕組みであるEDAC(Error Detection And Correction)の新チップセットへの対応、が挙げられる。 EDACとは、ECCやRegistered ECCといったパリティー付きメモリーでメモリーエラーが発生した場合に、故障しているメモリーのスロット番号が通知される技術だ。パリティー付きメモリーを搭載している場合には、不可欠といえる。 RHEL6では、新チップセットに
メモリのエラー訂正はサーバでは必須だよという話もあるけど、じゃあ実際どのくらい訂正が発生しているのか。確認するには、/sys/devices/system/edac/mc/mc*/csrow*/edac_mode が S.?ECD.?ED になっていることを確認した上で /sys/devices/system/edac/mc/mc*/csrow*/ce_count を見ればいいっぽい。 $ cat /sys/devices/system/edac/mc/mc*/csrow*/edac_mode S4ECD4ED S4ECD4ED S4ECD4ED S4ECD4ED S4ECD4ED S4ECD4ED S4ECD4ED S4ECD4ED $ cat /sys/devices/system/edac/mc/mc*/csrow*/ce_count 0 0 0 0 0 0 0 0 普段作業している
kernel 2.6.16からEDAC (旧Bluesmoke)がマージされ(て)ました。 EDACとは、 EDAC (Error Detection and Correction) is a set of Linux kernel modules for handling hardware-related errors. Currently its major focus is ECC memory error handling. However it also detects and reports PCI bus parity errors. Eventually support will be added for handling other types of errors (cache, thermal throttling, hypertransport, etc.). Alt
メモリに記録されるデータというのは意外と誤ってしまうものです。 誤ったデータが記録されるにはいくつかの要因があり、メモリモジュールの物理的な経年劣化や、宇宙線によるビットの反転など、通常の手段では防ぐことが難しい、あるいは事実上不可能なものが多いです。 そこでそういった誤りを防ぐために、ECCという仕組みが開発されました。メモリアクセスに冗長性を持たせることにより、エラーを検出、可能ならば訂正まで行ってくれる心強い仕組みです(参照:http://e-words.jp/w/ECCE383A1E383A2E383AA.html)。 LinuxでECCを利用し、メモリエラーを検出するにはEDACというモジュールを用います。 EDACはかつてはbluesmokeという名前のLinuxカーネルそのものからは独立したカーネルモジュールでしたが、2.6.16以降のカーネルソースツリーにはデフォルトで組み
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く