タグ

ブックマーク / swallow-llm.github.io (2)

  • Qwen3 Swallow

    更新履歴2026-02-20: 初期バージョン(v0.2)を公開(v0.1は欠番となります)。2026-02-23: GPTQの量子化モデルで繰り返し生成が多く発生する傾向が見られるため、GPTQ版のモデルの公開を停止しました。性能8BモデルQwen3 Swallow 8B RLの性能を以下のLLMと比較しました。評価には大規模言語モデル評価フレームワークであるswallow-evaluation-instructを用いました。なお、この評価結果はSwallow LLM Leaderboard v2でもご覧いただけます(その他のLLMを比較に追加できます)。 Llama 3.1 Swallow 8B Instruct(Swallowチームが構築した最新の非推論型モデル)DeepSeek-R1-Distill-Llama-8B(DeepSeek R1をLlama 3.1 8Bに蒸留した推論型

    Qwen3 Swallow
    CLSmooth
    CLSmooth 2026/02/20
  • GPT-OSS Swallow

    更新履歴2026-02-20: 初期バージョン(v0.1)を公開。性能20BモデルGPT-OSS Swallow 20B RLの性能を以下のLLMと比較しました。評価には大規模言語モデル評価フレームワークであるswallow-evaluation-instructを用いました。なお、この評価結果はSwallow LLM Leaderboard v2でもご覧いただけます(その他のLLMを比較に追加できます)。 Gemma 3 27B IT(非推論型ではあるが規模がやや大きいモデル)Qwen3-14B(規模が近い推論型モデル、深い推論はon)gpt-oss-20b(継続学習元、深い推論のレベルはmedium)gpt-oss-120b(規模がワンランク大きいモデル、深い推論のレベルはmedium)GPT-OSS Swallow 20Bの日語タスクでの性能GPT-OSS Swallow 20Bの

    GPT-OSS Swallow
    CLSmooth
    CLSmooth 2026/02/20
  • 1