サクサク読めて、アプリ限定の機能も多数!
“5 つの主要な公開データセット (CCAligned、ParaCrawl、WikiMatrix、OSCAR、mC4) でリリースされた 205 の言語固有コーパスの品質を手動で監査し、6 番目 (JW300) の言語コードの正確性を監査します。”
Ryobot のブックマーク 2021/06/04 01:34
Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets[dataset]“5 つの主要な公開データセット (CCAligned、ParaCrawl、WikiMatrix、OSCAR、mC4) でリリースされた 205 の言語固有コーパスの品質を手動で監査し、6 番目 (JW300) の言語コードの正確性を監査します。”2021/06/04 01:34
このブックマークにはスターがありません。 最初のスターをつけてみよう!
arxiv.org2021/03/23
With the success of large-scale pre-training and multilingual modeling in Natural Language Processing (NLP), recent years have seen a proliferation of large, web-mined text datasets covering hundre...
2 人がブックマーク・2 件のコメント
\ コメントが サクサク読める アプリです /
“5 つの主要な公開データセット (CCAligned、ParaCrawl、WikiMatrix、OSCAR、mC4) でリリースされた 205 の言語固有コーパスの品質を手動で監査し、6 番目 (JW300) の言語コードの正確性を監査します。”
Ryobot のブックマーク 2021/06/04 01:34
このブックマークにはスターがありません。
最初のスターをつけてみよう!
Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets
arxiv.org2021/03/23
With the success of large-scale pre-training and multilingual modeling in Natural Language Processing (NLP), recent years have seen a proliferation of large, web-mined text datasets covering hundre...
2 人がブックマーク・2 件のコメント
\ コメントが サクサク読める アプリです /