タグ

障害に関するratdrumのブックマーク (2)

  • memcachedを愚弄する1つの方法 - グニャラくんのグニャグニャ備忘録@はてな

    某サービスでセッション情報を保持するために利用している memcached(repcached)に障害が起こった。 ちゃんと追えていないけど、おそらく以下のような原因。他の人がハマらないように。 障害発生まで memcached(repcached)の中には揮発したらそれなりにマズい情報が入っている。 repcachedサーバ2台のOS入れ替えをしていて、1台は再起動が成功した。 1台目のサーバへ2台目のサーバからのレプリケーションが完了したのをstatsのcurr_itemsにて確認した。 よって2台目を再起動するものの、起動しなくなった。 この時点では、1台は生きているから後でデータセンターいこうっと、という気軽な気持ちだった… 現象 生きている1台目のサーバで、以下のような現象が起こった… 値をsetする際に、ある閾値以上のexptimeを指定すると即expireされる。 その閾値は

    memcachedを愚弄する1つの方法 - グニャラくんのグニャグニャ備忘録@はてな
    ratdrum
    ratdrum 2008/12/11
    『memcachedは起動後にサーバの時間が戻ると、ものっそ怪しい挙動になる。』
  • ネットワーク側から見たヨドバシカメラ問題 - なぷさく

    ヨドバシカメラのサイトがリニューアルに失敗してレスポンスが著しく低下している。ただでさえ重いところに、「ほらほらみてみて、重くなってるよ!見に行ってみてよ」なんてGIGAZINEが煽ったり、yahooニュースに飛び火したりしてさらにリクエストが増えて、瀕死の重病人いよいよまさに往生せんとす、といった雰囲気である。構築した会社は今頃針のむしろだろうし、ヨドバシ側の担当者もきっと現場からは「使い物にならんぞ!」と突き上げをらい、上からは「なんでこんなところに依頼したんだ!」と怒られて社内キャリアはぶっ吹っ飛んだだろうし、まあ他人事ながら同情申し上げる。すでにあちこちで、CMSが腐ってるとか構築会社の社長がすごいとかいろいろ言われているが、基に立ち返って外側から見える現象をひとつずつチェックしてみよう。1. DNSは問題なし大阪吹田にあるどっかの会社のサーバでDNS引いてみた。 $ dig

    ratdrum
    ratdrum 2008/10/30
    手順・知識・視点が障害解析に役立つ
  • 1