タグ

2025年2月18日のブックマーク (1件)

  • rinnaのDeepSeek R1蒸留モデルがすごい - きしだのHatena

    DeepSeek R1が話題になってだいぶたちますが、日語対応モデルも出てきてますね。 そして2/15にrinnaからDeepSeek R1の蒸留モデルが出ていて、これがかなりいい感じなのでびっくりしてます。驚き屋してます。 DeepSeek R1では、こっそりと回答方針を決めるフェーズがあるのだけど、そこがなかなか筋がいい。 というか、作り方もなんだかすごいので最後に解説してます。 Qwen2.5とDeepSeek R1を利用した日語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開|rinna株式会社 ※ 2/18追記 こういう記事を書くときに「これがローカルで動いてすごい」のように書くんですが、ここではローカルで動いてすごいということは書いてなく、普通にちゃんと答えがでてその内容がすごいという風になってきてますね。追記ここまで。 CyberAgentからも

    rinnaのDeepSeek R1蒸留モデルがすごい - きしだのHatena
    pascal256
    pascal256 2025/02/18