タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

promptと*algorithmとhashに関するsh19910711のブックマーク (1)

  • LLM 向け MinHash でテキストの重複除去のメモ

    LLM 向けデータセットでは, 重複や繰り返し(repeatation)が少ないことが重要となります. Scaling Laws and Interpretability of Learning from Repeated Data Deduplicating Training Data Makes Language Models Better CCNet(LLaMa などで使われた), RefinedWeb(Falcon)でも dedup は重要な役割を果たしています. 情報 基は Suffix Array で exact match と MinHash(LSH, Locally Sensitive Hash)で fuzzy match でテキストの重複除去を行うのが昨今(2023/07 時点)での主流のようです. (SimHash は遅いので大規模では使わないっぽ?) Shingle

    LLM 向け MinHash でテキストの重複除去のメモ
    sh19910711
    sh19910711 2024/05/22
    "dedup: LLM 向けデータセットでは重複や繰り返しが少ないことが重要 / Suffix Array で exact match と MinHash(LSH, Locally Sensitive Hash)で fuzzy match でテキストの重複除去を行うのが昨今(2023/07 時点)での主流" 2023
  • 1