“従来の日本語LLMの学習には「CC-100」「mC4」「OSCAR」などの既存のデータセットの日本語部分を使っていた。しかし、これにはWebページのHTMLをテキスト化する際のノイズが混入したり、最新の情報や知識を収録していなかっ

ookitasaburou のブックマーク 2023/12/21 20:10

<blockquote class="hatena-bookmark-comment"><a class="comment-info" href="https://b.hatena.ne.jp/entry/4746679875381405231/comment/ookitasaburou" data-user-id="ookitasaburou" data-entry-url="https://b.hatena.ne.jp/entry/s/www.itmedia.co.jp/news/articles/2312/20/news130.html" data-original-href="https://www.itmedia.co.jp/news/articles/2312/20/news130.html" data-entry-favicon="https://cdn-ak2.favicon.st-hatena.com/64?url=https%3A%2F%2Fwww.itmedia.co.jp%2Fnews%2Farticles%2F2312%2F20%2Fnews130.html" data-user-icon="/users/ookitasaburou/profile.png">日本語に強い大規模言語モデル「Swallow」　産総研と東工大が公開　事前学習用の日本語データに工夫</a><br><p style="clear: left">“従来の日本語LLMの学習には「CC-100」「mC4」「OSCAR」などの既存のデータセットの日本語部分を使っていた。しかし、これにはWebページのHTMLをテキスト化する際のノイズが混入したり、最新の情報や知識を収録していなかっ</p><a class="datetime" href="https://b.hatena.ne.jp/ookitasaburou/20231221#bookmark-4746679875381405231"><span class="datetime-body">2023/12/21 20:10</span></a></blockquote><script src="https://b.st-hatena.com/js/comment-widget.js" charset="utf-8" async></script>

このブックマークにはスターがありません。
最初のスターをつけてみよう！