タグ

ブックマーク / blog.ishinao.net (2)

  • blog.ishinao.net

    url_compressを見て、ふと気になって今まで1470.netのデータベースに保存されたURLの情報を調べてみた。1470.netのデータベース上では、 http://example.com/foo/bar?baz=hoge#fuga みたいなURLを、 という形式に分解して保存している。これもURLに関する情報量を圧縮するのが目的ね。 で、今まで収集したURLごとに、上記に分解した要素がどの程度重複するのか見てみた。 URL総数: 12,922,530 protocol: 2 (httpとhttpsのみ収集対象としているので) hostname: 580,683 path: 8,572,046 querystring: 2,352,518 fragment: 545,343 1470.netで収集対象としているURLがある程度偏っているというのはあるだろうけど、実際に使われているU

    rin51
    rin51 2010/10/28
  • blog.ishinao.net

    rin51
    rin51 2010/05/10
  • 1