Llama 3.3 Swallow – Swallow LLM

テクノロジーカテゴリーの変更を依頼記事元:

swallow-llm.github.io

15users がブックマークコメント

コメント

3

記事へのコメント3件

注目コメント
新着コメント

enemyoffreedom 「Llama 3.3をベースに日本語の能力を強化した大規模言語モデル」

LLM

2025/03/26 リンク

takjoe "日本語理解・生成タスクの平均スコアは0.629となり、今回比較したモデルの中ではGPT-4oの0.646に次ぐ2位の成績を収めました。"

2025/03/11 リンク

misshiki “Llama 3.3 SwallowはLlama 3.3をベースに日本語の能力を強化した大規模言語モデル (70B) ”

2025/03/10 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Llama 3.3 Swallow – Swallow LLM

合成テキストに含まれる「繰り返し」の除去 8Bモデルを用いたアブレーション実験の際は、合成テキストを... 合成テキストに含まれる「繰り返し」の除去 8Bモデルを用いたアブレーション実験の際は、合成テキストを用いた継続事前学習は特に問題なく完了しました。しかし、70Bモデルの継続事前学習に用いたところ、ロス・スパイクが頻発して学習が不安定になりました。そこで合成テキストを再度精査したところ、 \\_\\_\\_... のような同一文字列の「繰り返し」を含む文書がごくわずかに（10万件につき数件程度）存在することが判明しました。これらの文書をn-gramに基づくルールで除去すると、ロス・スパイクは発生しなくなりました。この事実だけで繰り返しがロス・スパイクの原因と断定はできませんが、先行研究 (OLMo Team, 2025) では繰り返しが一因となり得ると指摘されています。したがって、合成テキストを構築する際は、繰り返しを含む文書の除去など、品質確認と修正を行うのがよいという教訓を得まし

ブックマークしたユーザー

enemyoffreedom2025/03/26
trick7star2025/03/24
yug12242025/03/13
takjoe2025/03/11
bwsshk2025/03/11
triceratoppo2025/03/11
snneko2025/03/11
Gln2025/03/11
akiyoko2025/03/11
misshiki2025/03/10

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx