サクサク読めて、アプリ限定の機能も多数!
“重複したデータを検出して削除するための2つの手法を提案し、一般的な言語データセット(C4、Wiki-40B、LM1B)の重複コンテンツを調査”
misshiki のブックマーク 2021/08/18 15:02
言語データセットには多量の重複文が潜んでいる![自然言語処理][オープンデータ]“重複したデータを検出して削除するための2つの手法を提案し、一般的な言語データセット(C4、Wiki-40B、LM1B)の重複コンテンツを調査”2021/08/18 15:02
このブックマークにはスターがありません。 最初のスターをつけてみよう!
ai-scholar.tech2021/08/18
3つの要点 ✔️ 現在のデータセットには、学習データとテストデータに重複がある ✔️ モデルが重複データをそのまま記憶してしまう ✔️ 重複データを削除する事でモデルも良くなる Deduplicating Training Data Makes La...
4 人がブックマーク・1 件のコメント
\ コメントが サクサク読める アプリです /
“重複したデータを検出して削除するための2つの手法を提案し、一般的な言語データセット(C4、Wiki-40B、LM1B)の重複コンテンツを調査”
misshiki のブックマーク 2021/08/18 15:02
このブックマークにはスターがありません。
最初のスターをつけてみよう!
言語データセットには多量の重複文が潜んでいる!
ai-scholar.tech2021/08/18
3つの要点 ✔️ 現在のデータセットには、学習データとテストデータに重複がある ✔️ モデルが重複データをそのまま記憶してしまう ✔️ 重複データを削除する事でモデルも良くなる Deduplicating Training Data Makes La...
4 人がブックマーク・1 件のコメント
\ コメントが サクサク読める アプリです /