IT(情報技術)が欠かせない応用領域といえば,大量データを有効活用するデータベース,データ解析,データ処理が代表的だろう。その最先端にあるのが,大量データからの有用情報の発見を目的とする「データ・マイニング」 である。データ・マイニングは,人工知能の研究に,データベース技術と統計学が融合して形成された比較的新しい研究分野であり,日本が強い。新しい情報の発見という高度な機能を目指すソフトウエアは,IT技術者にとって注目だ。今回は最新データ・マイニングのアルゴリズムの世界を垣間見てみよう。 ストレージできないほど大量なデータへの対応 POS(販売時点情報管理)システムでは大量の顧客購買情報が収集されている。例えば米ウォルマート・ストアーズでは2003年時点で,米国全土の4400店舗から収集した購買情報は,総量にして104週分で約10万品目,70テラバイトにも上ると言われる。電話回線の通信記