「ほかのオープンソースのモデルでは学習データは多くて20ギガバイトほどです。(rinnaによる学習データは)その3倍」英語圏と比較するとUTF8の日本語マルチバイト文字ってだけで概ね3倍になるのでは?

kachinekachine のブックマーク 2021/08/26 02:26

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

rinna、日本語に特化した「GPT-2」「BERT」事前学習モデルを無償公開 75ギガバイトのデータを最大45日間で学習 | Ledge.ai

    Top > 学術&研究 > rinna、日語に特化した「GPT-2」「BERT」事前学習モデルを無償公開 75ギガバイトのデータを最大45日間で学習

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう