タグ

ブックマーク / hillbig.cocolog-nifty.com (2)

  • DO++ : 透過的データ圧縮

    可逆データ圧縮分野で、現在研究が盛んな分野の一つが、データを圧縮した状態のまま定数時間でランダムアクセスをサポートするデータ圧縮方式です(word RAMモデルでO(log n)サイズの復元が定数時間)。 これは、データをあたかも圧縮していないかのように扱えるため、透過的データ圧縮/構造と呼ばれています(英語だとまだ決まってない?)。 例えば1GBのデータを圧縮した状態で、途中300MB目から4Byteだけ復元しようというのが定数時間で実現できるわけです。これは理論的にもかなり強いことをいっていて,例えば今あるデータ構造やアルゴリズムが、O(T)時間である問題を解けるというのがあったら、それを全く同じO(T)時間のままデータ構造を圧縮し作業領域量を減らすことができます (一応データ構造に対し読み込み操作しか無い場合。書き込みもある場合はまたちょっと面倒になる) このデータを圧縮したまま扱う

    DO++ : 透過的データ圧縮
    mrmt
    mrmt 2008/09/02
  • DO++: 自然言語処理の話

    先日、自然言語処理はどのように役に立つのかというので酒の席で討論になりました。 自然言語処理とは、人が日常的に使っている自然言語(コンピュータ言語との対比でそうなってるらしく、日語とか英語とか)をコンピュータに処理させる技術で、様々な技術と問題が融合する境界領域です。純粋な言語理論だけではなく、人工知能やら統計やら何でもまじってます。広義だと情報検索(の基盤といったほうがいいかな)とかも含まれます。 絵とか動画がいくらリッチな情報だとは言え、「昨日私がクーラーかけっぱなしのまま、裸で寝てしまい風邪をひいた」ということを言語情報無しで正確に伝えるのは難しいです。世の中の殆どの情報は自然言語で表されています。 で、自然言語処理が抱える宿命として、人にやらせると、言語処理は、ほぼ100%できてしまうということがあります。難しくないのです。 これは他の学問ではあまり見られないことで、例えば300

    DO++: 自然言語処理の話
    mrmt
    mrmt 2008/07/17
  • 1