Pnnc205jのブックマーク / 2009年10月29日

Pnnc205j id:Pnnc205j

2009年10月29日のブックマーク (3件)

Prediction by Partial Matching - Wikipedia
Prediction by Partial Matching(PPM)は1984年にJ.G.ClearyとI.H.Wittenによって考案されたデータ圧縮アルゴリズムの1つ。この改良版が7-zip等に用いられている。非常に高い圧縮率の反面、圧縮速度はかなり遅くメモリも多く消費するアルゴリズムである。この亜種としてPPMC、PPMd、PPMZ等がある。符号化の原理[編集] aabacaabbaとデータを符号化したとして、次にどの記号が出現するかを統計的に予測する。この場合、統計的にaの次にはaが出現する可能性が高い。逆にcが出現する可能性は低いであろう。このように出現確率に偏りがあるとハフマン符号や算術符号で圧縮することが出来る。しかし、上記の場合に次に出現する符号をaを50%、bを40%、cを10%と予測したとすると、他の記号は絶対に現れないということになり、新たな記号(dとする
Pnnc205j 2009/10/29
リンク
BlockSorting
BlockSortingは、今までのデータ圧縮で有名な方法であるLZ法とは全く違う、ユニークな操作を用いてデータを圧縮する方法であり、M.BurrowsさんとD.J.Wheelerさんが作者なので「BWTransf orm」ともいいます。このアルゴリズムは簡単に言ってしまえば、「データをぐるぐる回してソートして出力」というものです。簡単すぎるかもしまいませんが、本当にそうなんです。ちなみに、このBlockSorting、単体では全く圧縮しません。ただ可逆な形にデータを変換するというものです。しかし、BlockSorting後のデータは非常に圧縮されやすい状態になります。例えると、色々な形をしたスポンジ（データ）が箱にごちゃごちゃに入って山積みになっているとします。　これをそのまま上からギューっと押しつぶすのがLZ法やHuffman法なのに対し、一度、形が似たも
Pnnc205j 2009/10/29
リンク
mixi Engineers’ Blog » 圧縮データベースを使おう
チャリンコ通勤による滝のような汗で、朝からTシャツがシースルーになってしまうmikioです。さて今回は、Tokyo Cabinet（TC）のデータベースを各種のアルゴリズムで圧縮して利用する方法についてご紹介します。圧縮B+木 B+木とは、比較関数の値による順序が近いレコード群を単一のページにまとめ、各ページにB木（multiway balanced treeの略であり、二分木（binary tree）とは違います）の索引を張ったものです。理論的にはレコードの探索も更新も O(log n) の時間計算量で行え、内部ノード（B木）の操作をキャッシュすると実質的には O(1) の時間計算量で探索や更新が行えるという、かなり安定した性能を備えるデータ構造です。その上、レコードが一定の順序に基づいて並べられているので、数値の範囲検索や文字列の前方一致検索が高速に行えたり、カーソルによって順序に基
Pnnc205j 2009/10/29
リンク
- 2009年10月30日
- 2009年10月29日
- 2009年10月28日