LLM 向けデータセットでは, 重複や繰り返し(repeatation)が少ないことが重要となります. Scaling Laws and Interpretability of Learning from Repeated Data Deduplicating Training Data Makes Language Models Better CCNet(LLaMa などで使われた), RefinedWeb(Falcon)でも dedup は重要な役割を果たしています. 情報 基本は Suffix Array で exact match と MinHash(LSH, Locally Sensitive Hash)で fuzzy match でテキストの重複除去を行うのが昨今(2023/07 時点)での主流のようです. (SimHash は遅いので大規模では使わないっぽ?) Shingle
