yuisekiのブックマーク - はてなブックマーク

Swallow-MX: Mixtral日本語継続事前学習MoEモデル
はじめに東京工業大学横田研究室の藤井です。本日(2024/03/11)Mixtral-8x7B-Instruct-v0.1から日本語継続事前学習を行ったSwallow-MX-8x7b-NVE-v0.1をリリースさせて頂きました。本モデルの開発は、産総研、東京工業大学岡崎研究室、横田研究室の合同プロジェクトにて行われました。公式プロジェクトページはこちらです。 Swallow-MX はMoE(Mixture of Expert)モデルの継続事前学習モデルであり、Denseモデルにおいて有効性が示されている継続事前学習手法がMoEモデルにおいても有効であることを示す結果が得られました。 Denseモデルに対する継続事前学習に関しては、以下のブログやNLP2024の我々の論文をご覧ください。リリースモデル日本語継続事前学習済みモデル Swallow-MX-8x7b-NVE-v0.1
yuiseki 2024/03/23
リンク
Swallow: LLaMA-2 日本語継続事前学習モデル
はじめに東京工業大学横田研究室の藤井です。本日(2023/12/19)Llama 2から日本語継続事前学習を行ったSwallow-7B, Swallow-13B, Swallow-70Bをリリースさせて頂きました。本モデルの開発は、産総研、東京工業大学岡崎研究室、横田研究室の合同プロジェクトにて行われました。公式プロジェクトページはこちらです。 Swallow-70Bはオープンな日本語モデルにおいて最高の日本語性能を記録しました。 (後述のモデル評価セクションを参照のこと) リリースモデル日本語継続事前学習済みモデル Swallow-7B Swallow-13B Swallow-70B 上記モデルに指示チューニングを施したモデル Swallow-7B-instruct Swallow-13B-instruct Swallow-70B-instruct 本記事では、Swallow
yuiseki 2023/12/20
あとで読む
リンク
1

はてなブックマーク

タグ

ブックマーク / zenn.dev/tokyotech_lm (2)

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / zenn.dev/tokyotech_lm (2)

Swallow-MX: Mixtral日本語継続事前学習MoEモデル

Swallow: LLaMA-2 日本語継続事前学習モデル

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス