タグ

ブックマーク / swallow-llm.github.io (2)

  • Qwen3 Swallow

    更新履歴2026-02-20: 初期バージョン(v0.2)を公開(v0.1は欠番となります)。2026-02-23: GPTQの量子化モデルで繰り返し生成が多く発生する傾向が見られるため、GPTQ版のモデルの公開を停止しました。性能8BモデルQwen3 Swallow 8B RLの性能を以下のLLMと比較しました。評価には大規模言語モデル評価フレームワークであるswallow-evaluation-instructを用いました。なお、この評価結果はSwallow LLM Leaderboard v2でもご覧いただけます(その他のLLMを比較に追加できます)。 Llama 3.1 Swallow 8B Instruct(Swallowチームが構築した最新の非推論型モデル)DeepSeek-R1-Distill-Llama-8B(DeepSeek R1をLlama 3.1 8Bに蒸留した推論型

    Qwen3 Swallow
  • Swallow – Swallow LLM

    Swallow (on Llama 2) Llama 2の日語能力を強化した大規模言語モデル (7B, 13B, 70B) です。モデルのパラメータ(重み)が公開されていますので、LLAMA 2 Community Licenseに従う限り、研究や商業利用など自由に利用できます。 (2023年12月19日公開) View on HuggingFace 大規模言語モデルSwallowは東京工業大学情報理工学院の岡崎研究室と横田研究室、国立研究開発法人産業技術総合研究所の研究チームで開発された大規模言語モデルです。英語の言語理解や対話で高い能力を持つ大規模言語モデルLlama 2 7B, 13B, 70Bの日語能力を拡張するため、研究チームは言語モデルに日語の文字や単語などの語彙を追加したうえで、新たに開発した日語データを用いてモデルの構築を継続的に行う継続事前学習を行いました。研究チ

    Swallow – Swallow LLM
  • 1