“15Tトークンからなる高品質なデータセットであるFineWebの作成方法を解説した記事”

misshikimisshiki のブックマーク 2024/06/03 15:30

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Shion Honda on X: "15Tトークンからなる高品質なデータセットであるFineWebの作成方法を解説した記事。重複削除の方法や各種フィルタについて対照実験を行うことで、CommonCrawlから学習効率の良いサンプルを抽出した。 🍷 FineWeb: decanting the web for the finest text data at scale https://t.co/b0itUa30jk https://t.co/hfTixHrvHw"

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう