6.テーマ概要 ITの急速な進化の中,ますますデータの効率的な保存方法,転送方法が必要とされている.そうした中,実際のデータの内容により自然に即した「単語」という塊を抽出して圧縮するという方法を開発するがこのプロジェクトの目的である.ここでいう単語というのは自然言語における単語ではなく,データの中で塊として見られるあらゆる形での単語を意味する.最終的には,これを用いた圧縮ソフトを開発するのが目的だが,ここでは,そのメインとなる単語抽出アルゴリズム (Word eXtraction,WX法) についての研究開発を行なう. 例えば,abracadabraというデータに対して,ここで開発するプログラムはabraという単語を抽出する.abraという単語を抽出する際に,文の実際的な意味はまったく利用せず,確率情報や,エントロピーなどを計算し,どれだけその単語が周りから「浮き出ているか」,「抽出す