“重複したデータを検出して削除するための2つの手法を提案し、一般的な言語データセット(C4、Wiki-40B、LM1B)の重複コンテンツを調査”

misshikimisshiki のブックマーク 2021/08/18 15:02

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

言語データセットには多量の重複文が潜んでいる!

    3つの要点 ✔️ 現在のデータセットには、学習データとテストデータに重複がある ✔️ モデルが重複データをそのまま記憶してしまう ✔️ 重複データを削除する事でモデルも良くなる Deduplicating Training Data Makes La...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう