[B! algorithm][charcode] bayashi_netのブックマーク

bayashi_net id:bayashi_net

algorithmとcharcodeに関するbayashi_netのブックマーク (1)

多Byte文字コードの圧縮 - シリコンの谷のゾンビ
ひょんなことから気になって調べてみたので結果を記録． Shift-JISやEUC-JPは日本語を2Byteで表現する．同じテキストをShift-JISで表現しようが，EUC-JPで表現しようがサイズは同じになる．けれど，多バイト文字コードのことなんて考えないASCIIな世界の人たちがLZ法のような辞書式アルゴリズムを実装した場合，1バイト単位で処理するから文字コードの差が出るのではないかとふと思った．そういうときは論よりRun．同じテキストを異なる文字コードで表現した際の圧縮サイズを比較してみた．対象テキストは，みんな大好き夏目漱石「こころ」圧縮アルゴリズムはgzip (LZ77+Huffman) --bestオプション付き元サイズ kokoro.txt.sjis 368051 byte kokoro.txt.euc 368051 byte 当然同じ．圧縮後 kokoro.t
bayashi_net 2009/04/09
algorithm

charcode
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx