[B! llm][日本語] timetrainのブックマーク

timetrain id:timetrain

llmと日本語に関するtimetrainのブックマーク (2)

LINE、日本語の大規模言語モデル公開　オープンソースで　商用利用もOK
LINEは8月14日、日本語に特化した大規模言語モデル（LLM）「japanese-large-lm」を発表した。オープンソース（OSS）として公開し、商用利用も可能（Apache License 2.0）としている。公開したLLMは、36億パラメーターと17億パラメーターの2つ。両モデルともHuggingFace Hubからアクセスできる。Web由来のテキストから大規模かつ高品質なデータ構築を行うため、OSSライブラリ「HojiChar」を使ったフィルタリング処理を実施。モデルの訓練には、LINE独自の大規模日本語Webコーパス（最終学習は約650GBのコーパスで実施）を利用したという。 LINEは独自LLM「HyperCLOVA」の開発を長年手掛けているが、今回のモデルは別の開発ライン（LINEのMassive LM開発ユニット）にて構築したもの。同チームでは、指示文に対して適切な出
timetrain 2023/08/19
LINE

llm

日本語
リンク
東大松尾研、日英対応の大規模言語モデル公開　100億パラメータ、精度は「国内オープンソース最高水準」
東京大学院工学系研究科・松尾研究室（主宰：松尾豊教授）は8月18日、日英の2カ国語に対応した100億パラメータサイズの大規模言語モデル（LLM）「Weblab-10B」を、事前学習と事後学習（ファインチューニング）により開発し、非商用ライセンスでモデルを無料公開した。【修正履歴：2023年8月18日午後9時　当初、モデルの公開形式をオープンソースと記載していましたが、ソースコードが公開されていないなどオープンソースの定義に沿わないと思われる部分があるため記述を改めました。なお、引用部分についてはそのままにしています】日本語だけでなく英語のデータセットも学習に用いることで学習データ量を拡張し、言語間の知識転移を行うことで日本語の精度を高めたのが特徴。事前学習には、代表的な英語のデータセット「The Pile」と日本語のデータセット「Japanese-mC4」を使用。事後学習には、Alp
timetrain 2023/08/18
LLM

日本語

AI
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx