「ほかのオープンソースのモデルでは学習データは多くて20ギガバイトほどです。（rinnaによる学習データは）その3倍」英語圏と比較するとUTF8の日本語マルチバイト文字ってだけで概ね3倍になるのでは？

kachine のブックマーク 2021/08/26 02:26

<blockquote class="hatena-bookmark-comment"><a class="comment-info" href="https://b.hatena.ne.jp/entry/4707403570496947394/comment/kachine" data-user-id="kachine" data-entry-url="https://b.hatena.ne.jp/entry/s/ledge.ai/articles/rinna-gpt-2-bert" data-original-href="https://ledge.ai/articles/rinna-gpt-2-bert" data-entry-favicon="https://cdn-ak2.favicon.st-hatena.com/64?url=https%3A%2F%2Fledge.ai%2Farticles%2Frinna-gpt-2-bert" data-user-icon="/users/kachine/profile.png">rinna、日本語に特化した「GPT-2」「BERT」事前学習モデルを無償公開 75ギガバイトのデータを最大45日間で学習 | Ledge.ai</a><br><p style="clear: left">「ほかのオープンソースのモデルでは学習データは多くて20ギガバイトほどです。（rinnaによる学習データは）その3倍」英語圏と比較するとUTF8の日本語マルチバイト文字ってだけで概ね3倍になるのでは？</p><a class="datetime" href="https://b.hatena.ne.jp/kachine/20210826#bookmark-4707403570496947394"><span class="datetime-body">2021/08/26 02:26</span></a></blockquote><script src="https://b.st-hatena.com/js/comment-widget.js" charset="utf-8" async></script>

このブックマークにはスターがありません。
最初のスターをつけてみよう！

rinna、日本語に特化した「GPT-2」「BERT」事前学習モデルを無償公開 75ギガバイトのデータを最大45日間で学習 | Ledge.ai

ledge.ai2021/08/25

Top > 学術＆研究 > rinna、日本語に特化した「GPT-2」「BERT」事前学習モデルを無償公開 75ギガバイトのデータを最大45日間で学習

98 人がブックマーク・7 件のコメント

他のコメントを読む

＼コメントがサクサク読めるアプリです／

はてなブックマーク

rinna、日本語に特化した「GPT-2」「BERT」事前学習モデルを無償公開 75ギガバイトのデータを最大45日間で学習 | Ledge.ai

はてなブックマーク

公式Twitter

はてなのサービス