概要 大規模なウェブコーパスを作成するときは,HTML 文書を URL 順に整列することで,圧縮率をかなり改善できます.理由は,類似した文書を固めることができるからです. という内容が,n-yo さんに紹介していただいた論文 ``On Compressing the Textual Web (2010)''(http://www.di.unipi.it/~ferragin/wsdm022.pdf)で紹介されていました. ※ 正確には,``Bigtable: A distributed storage system for structured data (2008)'' にて述べられているようです.元になっていると思われる論文 ``Bigtable: A distributed storage system for structured data (2006)''(http://www.c