タグ

ブックマーク / zenn.dev/tokyotech_lm (2)

  • Swallow-MX: Mixtral日本語継続事前学習MoEモデル

    はじめに 東京工業大学 横田研究室の藤井です。 日(2024/03/11)Mixtral-8x7B-Instruct-v0.1から日語継続事前学習を行ったSwallow-MX-8x7b-NVE-v0.1をリリースさせて頂きました。 モデルの開発は、産総研、東京工業大学 岡崎研究室、横田研究室の合同プロジェクトにて行われました。公式プロジェクトページはこちらです。 Swallow-MX はMoE(Mixture of Expert)モデルの継続事前学習モデルであり、Denseモデルにおいて有効性が示されている継続事前学習手法がMoEモデルにおいても有効であることを示す結果が得られました。 Denseモデルに対する継続事前学習に関しては、以下のブログやNLP2024の我々の論文をご覧ください。 リリースモデル 日語継続事前学習済みモデル Swallow-MX-8x7b-NVE-v0.1

    Swallow-MX: Mixtral日本語継続事前学習MoEモデル
    yuiseki
    yuiseki 2024/03/23
  • Swallow: LLaMA-2 日本語継続事前学習モデル

    はじめに 東京工業大学 横田研究室の藤井です。 日(2023/12/19)Llama 2から日語継続事前学習を行ったSwallow-7B, Swallow-13B, Swallow-70Bをリリースさせて頂きました。 モデルの開発は、産総研、東京工業大学 岡崎研究室、横田研究室の合同プロジェクトにて行われました。公式プロジェクトページはこちらです。 Swallow-70Bはオープンな日語モデルにおいて最高の日語性能を記録しました。 (後述のモデル評価セクションを参照のこと) リリースモデル 日語継続事前学習済みモデル Swallow-7B Swallow-13B Swallow-70B 上記モデルに指示チューニングを施したモデル Swallow-7B-instruct Swallow-13B-instruct Swallow-70B-instruct 記事では、Swallow

    Swallow: LLaMA-2 日本語継続事前学習モデル
  • 1