2023年8月18日のブックマーク (1件)

  • 東大松尾研、日英対応の大規模言語モデル公開 100億パラメータ、精度は「国内オープンソース最高水準」

    東京大学院工学系研究科・松尾研究室(主宰:松尾豊教授)は8月18日、日英の2カ国語に対応した100億パラメータサイズの大規模言語モデル(LLM)「Weblab-10B」を、事前学習と事後学習(ファインチューニング)により開発し、非商用ライセンスでモデルを無料公開した。 【修正履歴:2023年8月18日午後9時 当初、モデルの公開形式をオープンソースと記載していましたが、ソースコードが公開されていないなどオープンソースの定義に沿わないと思われる部分があるため記述を改めました。なお、引用部分についてはそのままにしています】 日語だけでなく英語のデータセットも学習に用いることで学習データ量を拡張し、言語間の知識転移を行うことで日語の精度を高めたのが特徴。 事前学習には、代表的な英語のデータセット「The Pile」と日語のデータセット「Japanese-mC4」を使用。事後学習には、Alp

    東大松尾研、日英対応の大規模言語モデル公開 100億パラメータ、精度は「国内オープンソース最高水準」
    sagar
    sagar 2023/08/18