エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
LLM 向け MinHash でテキストの重複除去のメモ
記事へのコメント1件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
LLM 向け MinHash でテキストの重複除去のメモ
LLM 向けデータセットでは, 重複や繰り返し(repeatation)が少ないことが重要となります. Scaling Laws a... LLM 向けデータセットでは, 重複や繰り返し(repeatation)が少ないことが重要となります. Scaling Laws and Interpretability of Learning from Repeated Data Deduplicating Training Data Makes Language Models Better CCNet(LLaMa などで使われた), RefinedWeb(Falcon)でも dedup は重要な役割を果たしています. 情報 基本は Suffix Array で exact match と MinHash(LSH, Locally Sensitive Hash)で fuzzy match でテキストの重複除去を行うのが昨今(2023/07 時点)での主流のようです. (SimHash は遅いので大規模では使わないっぽ?) Shingle