富士通研究所は2月26日、データベースシステム上のタイムリーな大規模データ分析を可能にする、列形式のデータ格納と処理エンジンを開発したと発表した。 今回、オープンソース・データベースであるPostgreSQL上で、メモリの搭載量によらず、行形式データの更新を瞬時に列形式に反映できるデータ格納と列形式データを高速に処理する実行エンジンを開発した。 これにより、一般のデータベースが備えるインデックスという仕組みの中で高速に分析が可能になり、行形式や列形式といった格納方式の違いを開発者が意識することなく利用できる。 具体的には、メモリに入りきらない大容量の列形式データを効率的に管理するため、「エクステント」と呼ぶ大きな単位(約26万レコード単位)で、領域の確保や削除、さらに空き領域回収といったデータ領域管理を行う。大きな単位で管理すると同時に分析処理が長時間待たされるという問題が発生するが、これ
