タグ

2009年8月7日のブックマーク (2件)

  • Geekなぺーじ : Twitterのネットワーク構成を調べてみた

    8月6日、日時間23:30頃から1時間ほどTwitterが落ちていました。 どうもDoS攻撃が原因のようです。 Ongoing denial-of-service attack Site is down で、「Twitterってどういうネットワーク構成なんだろう?」と不思議に思ったので調べてみました。 まあ、「ネットワーク構成」と言えるほどの情報ではありませんが、情報として公開されているものを色々漁ってみました。 AS番号は? まず最初に、Twitterほど大規模だったらきっと自前でASを運用しているに違いない、と思ってAS番号リストからTwitterを探しました。 でも、発見できませんでした。 「Multicast Technologies : asn_expand.txt」 私は何を見てるの? 次に、「いつも自分が見ている物の実態は何だろう?」と思いました。 CDNを使っていると、国

  • 転置インデックスの圧縮 - tsubosakaの日記

    Managing Gigabytes勉強会で転置インデックスの圧縮の話が出たので実際に圧縮を行った場合にどれくらいのサイズになるかを計測してみた。 利用したデータは英語版Wikidiaの全記事で 文書数 2,872,589 単語数 2,735,620 転置インデックスのポインタの数 397,603,176 ぐらいのサイズのデータです。 無圧縮の転置インデックスのフォーマットは 単語ID,文書数,文書1,....文書N, 単語ID,...で各項目4byteとなっており、1.5Gぐらいのサイズになっています。 これに対して各圧縮アルゴリズムを適用した結果は アルゴリズム 無圧縮 Variable Byte Code unary符号 γ符号 δ符号 Rice Coding pforDelta(仮) サイズ 1537MB 497MB 239475MB 474MB 407MB 367MB 455MB

    転置インデックスの圧縮 - tsubosakaの日記