タグ

hardwareとsysadminに関するpoppenのブックマーク (9)

  • Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you? - めもおきば

    GIGAZINEのハードディスクに関する4つの都市伝説とかで気になったので、7章のConclusionだけ、超おおざっぱにまとめてみたよ! あくまで自分のためにやったものなんなので、非常に乱暴なものですが、意味とかがずれている部分があったらご指摘ください。 ところで、RAIDに関する項目は 5.3 Distribution of time between failure に書かれていて、リビルド中に全アクセスするから次のディスクが壊れる率が4倍というのは感覚的にも正しいんですが、結果的にメーカーが儲かっているに過ぎないというのはどこなんだろう。少なくとも、交換率4倍程度で「それほど高まってはおらず」は言い過ぎという感覚なんだけど、あとで原文ちゃんと読まないと。 まぁ、そもそもRAID5を使うケースって、信頼性はRAID1より低い(でも許容範囲内)けど容量が欲しい場合だと思います。 * La

    Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you? - めもおきば
  • ハードディスクに関する4つの都市伝説

    Googleが10万台のハードディスクを使用した結果、ハードディスクは温度や使用頻度に関係なく故障するという結論を出した恐るべきレポートに続き、CMU’s Parallel Data LabのBianca Schroeder氏が、「現実世界でのハードディスクの故障:平均故障時間100万時間とは一体どういう意味なのか?」というレポートを出しました。ハードディスクに関する以下の常識はいずれも根拠のないものだという内容です。 1.高価なSCSI/FCドライブの方が安価なSATAドライブよりも信頼できる 2.RAID5が安全なのは2台のドライブが同時に故障する確率がとても低いため 3.初期の故障しやすい時期を超えれば耐用年数に達するまで壊れないという信頼が高まる 4.ハードディスクメーカーのいうMTBF(平均故障間隔)はハードディスクドライブを比較するのに有益な尺度である もはや一体何を信じればい

    ハードディスクに関する4つの都市伝説
  • Googleが大量に使用しているHDDの故障率の分析 | スラド

    その信頼性がいつもそのままだとは限りませんからね。 Googleとは比較になりませんが、2002年の4月頃から2006年の4月頃までその時点での最大容量のHDDを少なくとも2台毎月私は買っていたのですが、IBM(日立)、Seagate、Maxtor、Western Digitalをくまなく買っていたと(意識していたわけではないのである程度偏りはあるけど)思いますが、メーカー毎というよりシリーズ毎に壊れやすさに変動があるという印象です。 あとランダムアクセス性能は1つ前のモデルより最新モデルのほうが悪いこともあったりして選択が難しいですよね。 50度という温度はわかっていませんでしたが、自分の感覚で「多少熱い」を超えると壊れやすいというのはあったので、今ではCPU冷却用のヒートパイプ&大型ファン付きクーラーをHDDに直接密着させて冷却しています。 これであとは風量を温度に応じて自動調整しよう

  • Googleによると、ハードディスクは温度や使用頻度に関係なく故障する

    今まで一般的に信じられてきたハードディスクにまつわる常識として、 ・温度が高いと故障しやすくなる ・アクセス頻度が高いと多く動くため、故障しやすくなる というのがありましたが、Googleが10万台以上の民生用ハードディスクドライブを使用した調査を行った結果、温度やアクセス頻度に関係なく故障することが判明したとのこと。 そればかりか、ハードディスク障害の早期発見、あるいは故障の予測を目的として搭載されている「S.M.A.R.T.(スマート)」の値から得られるいつ故障するかどうかの予測もほとんど関係なかったそうです。 Googleはこれらの実際のデータによる結果に基づき、既存のSMART値から新しい故障予測方法を見つけ出すことが必要である、と結論づけています。 かなり衝撃的なGoogleによる調査結果は以下の通り。 Failure Trends in a Large Disk Drive P

    Googleによると、ハードディスクは温度や使用頻度に関係なく故障する
  • データセンターにおける熱対策を考える

    データセンター利用者にとって、ラック内に設置するサーバなどの機器が発生する熱の問題を避けて通ることはできない。今回はデータセンターレベルでの熱対策、そしてラックにおける熱対策について解説する。 第5回、第6回と、これまで2回にわたって電源に関するお話をしてきました。第6回の冒頭では、電源と熱に直接関連があることについてお話ししました。 電気を供給することで、機器は計算を行う、ファンを回すなどの仕事をしてくれます。また、仕事をすることで各機器は熱を発します。この熱の量は、供給している電力量と比例します。つまり、電源の利用実態とラック内にこもっている熱の量は一定の法則のうえに成り立っており、熱の問題を無視してデータセンターは利用できないといっても過言ではありません。 そこで今回は、熱量の考え方とデータセンターが行っている熱対策、そして何より重要な各ラックでの熱対策の方法について解説します。 熱

    データセンターにおける熱対策を考える
  • void GraphicWizardsLair( void ); // Dell PowerEdge 440SCとかはmbmonじゃなくてGNU FreeIPMIで温度が計測できる

  • IPMIで遠隔からサーバの電源をオン/オフ : DSAS開発者の部屋

    みなさん、IPMI (Intelligent Platform Management Interface) ってご存じでしょうか? Wikipedia - IPMI IntelのIPMIのページ 簡単に説明すると、IPMIとは、OSに依存することなく、遠隔からハードウエアをモニタしたり管理したりするためのものです。 DSASでは、Supermicroのサーバを使っているので、AOC-IPMI20-EというIPMIカードを使っています。 具体的にこのカードで何ができるようになるか、というのを列挙します。 コンソールリダイレクション 温度、電圧、ファン回転数の確認 リセット 電源のオン/オフ これらのことが、LinuxだろうがWindowsだろうがOSに依存することなくできるようになります。 しかも! これらの操作がネットワーク経由 (UDPのポート623) でできるんです。 IPMIを導入す

    IPMIで遠隔からサーバの電源をオン/オフ : DSAS開発者の部屋
  • GIGAZINE - ハードディスク診断ソフト「Data Advisor」の使い方

    ハードディスクがぶっ壊れているかどうかを診断できるフリーソフトです。パソコンが起動しなくなったが、何が原因か分からないという場合などにお役立ちです。独自のOSを起動して動作するという仕組み。 というわけで、事の経緯とソフトの使い方。 まず昨晩のこと。いつもリモートで使っているノートパソコンを使おうとリモートデスクトップを試みたものの、突如として通信不能状態に。どうしたのだろう?とノートパソコンの前まで移動して画面を見るとこんな事になってました。 いやな予感がして検索してみるとこんなページが。 C0000218エラー(UNKNOWN HARD ERROR)を考える記事 http://park12.wakwak.com/~iktryc/diary/2004/c0000218.html Windows最凶クラスのエラーだそうで。これは絶望的です。そういえば先月頃からSMARTの値がものすごいこと

    GIGAZINE - ハードディスク診断ソフト「Data Advisor」の使い方
  • 専門家は個人の責任で情報発信するな - void GraphicWizardsLair( void ); //

    poppen
    poppen 2005/03/14
  • 1