タグ

ブックマーク / hillbig.cocolog-nifty.com (2)

  • LZ法再び - DO++

    可逆データ圧縮としてはgzipやlha, pngなどダントツで使われているLZ法(Lemple Ziv法)ですが、他のデータ圧縮法(BWT法、PPM法、CM法)に比べ圧縮率が低いということで研究の対象としてはあまり注目をあびていませんでした。ところが次の論文で真面目にやれば圧縮率は非常に高くなる可能性があり、BWT法とかそれを超える可能性があることが示されています。。 "On the bit-complexity of Lempel-Ziv compression", SODA 2009, P. Ferragina, et. al. [pdf] まず、LZ法についておさらいですが、基的にはデータを前から順番に見ていったときに、既に出現した文字列がもう一度出現(マッチング)したら、その文字列を前回出現した(相対)位置と長さのペア(pos, len)で置き換えることで圧縮する方法です。データ

    LZ法再び - DO++
  • DO++: 自然言語処理の話

    先日、自然言語処理はどのように役に立つのかというので酒の席で討論になりました。 自然言語処理とは、人が日常的に使っている自然言語(コンピュータ言語との対比でそうなってるらしく、日語とか英語とか)をコンピュータに処理させる技術で、様々な技術と問題が融合する境界領域です。純粋な言語理論だけではなく、人工知能やら統計やら何でもまじってます。広義だと情報検索(の基盤といったほうがいいかな)とかも含まれます。 絵とか動画がいくらリッチな情報だとは言え、「昨日私がクーラーかけっぱなしのまま、裸で寝てしまい風邪をひいた」ということを言語情報無しで正確に伝えるのは難しいです。世の中の殆どの情報は自然言語で表されています。 で、自然言語処理が抱える宿命として、人にやらせると、言語処理は、ほぼ100%できてしまうということがあります。難しくないのです。 これは他の学問ではあまり見られないことで、例えば300

    DO++: 自然言語処理の話
    youz
    youz 2008/10/01
  • 1