bayashi_netのブックマーク - はてなブックマーク

The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料 - シリコンの谷のゾンビ
巷 (もしかしたら非常に一部?) を騒がせているWWW2010に採択されたソーシャル検索エンジンAardvark論文 "The Anatomy of Large-Scale Social Search Engine" を読んで，ここ3日間ほど夜なべをして作成した輪講用資料を公開します．普段読まない類の論文だったので色々大変でしたが，非常に勉強になりました．ちょうど論文を読んだ頃にGoogleによる買収が正式発表になったので非常にタイムリーなネタとなりました． The Anatomy of Large-Scale Social Search EngineView more presentations from sleepy_yoshi. 論文や資料を見ればわかるとおり，個々の技術はオーソドックスな技術の組み合わせになっています．それを組み合わせてひとつのサービスという形で提供し，更に実際の
bayashi_net 2010/03/13
google

search

algorithm

aardvark
リンク
多Byte文字コードの圧縮 - シリコンの谷のゾンビ
ひょんなことから気になって調べてみたので結果を記録． Shift-JISやEUC-JPは日本語を2Byteで表現する．同じテキストをShift-JISで表現しようが，EUC-JPで表現しようがサイズは同じになる．けれど，多バイト文字コードのことなんて考えないASCIIな世界の人たちがLZ法のような辞書式アルゴリズムを実装した場合，1バイト単位で処理するから文字コードの差が出るのではないかとふと思った．そういうときは論よりRun．同じテキストを異なる文字コードで表現した際の圧縮サイズを比較してみた．対象テキストは，みんな大好き夏目漱石「こころ」圧縮アルゴリズムはgzip (LZ77+Huffman) --bestオプション付き元サイズ kokoro.txt.sjis 368051 byte kokoro.txt.euc 368051 byte 当然同じ．圧縮後 kokoro.t
bayashi_net 2009/04/09
algorithm

charcode
リンク
1

はてなブックマーク

タグ

ブックマーク / sleepy-yoshi.hatenablog.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / sleepy-yoshi.hatenablog.com (2)

The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料 - シリコンの谷のゾンビ

多Byte文字コードの圧縮 - シリコンの谷のゾンビ

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス