“5 つの主要な公開データセット (CCAligned、ParaCrawl、WikiMatrix、OSCAR、mC4) でリリースされた 205 の言語固有コーパスの品質を手動で監査し、6 番目 (JW300) の言語コードの正確性を監査します。”

RyobotRyobot のブックマーク 2021/06/04 01:34

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets

    With the success of large-scale pre-training and multilingual modeling in Natural Language Processing (NLP), recent years have seen a proliferation of large, web-mined text datasets covering hundre...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう