ACM International Conference on Multimedia (ACMMM) 2017 PQk-means: 10億個規模の直積量子化コードに対するクラスタリング 松井勇佑* 国立情報学研究所 (*Joint first authors) 大垣慶介* ドワンゴ (*Joint first authors) 山崎俊彦 東京大学 相澤清晴 東京大学 Abstract データ分析において,データのクラスタリングは最も基礎的で重要な処理の一つです. 大規模データを扱う場合,標準的なクラスタリング手法であるk-meansは実行速度が遅いだけでなく,メモリ消費量が多いという弱点がありました. そこで,我々はデータ(入力ベクトル)が10億個程度あっても高速に動作する,PQk-meansというクラスタリング手法を提案します. 事前に入力ベクトルを直積量子化コードに圧縮し,圧縮された

