分量や利用しやすさから自然言語処理ではWikipediaが選ばれることが多いが前処理が面倒。そこで“本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介”とのこと。

misshikimisshiki のブックマーク 2020/09/28 14:01

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

    最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう