速度ではSwiftLMが勝つ。でも……純粋な生成速度ではSwiftLMが平均27.3 tok/sで最速でした。Bonsai 8Bは21.1 tok/sで、SwiftLMの約0.77倍。1ビットのdequantizationオーバーヘッドがあるので、これは仕方ない部分です。 しかし、数字だけでは見えない差があります。 回答の品質が違う Bonsai 8Bの回答は、Qwen 2.5 3Bとは明らかにレベルが違います。8.2Bパラメータの恩恵で、文章の構造化、文脈の理解、日本語の自然さ、すべてが上。コード生成でも、ドキュメント文字列やエッジケース処理が3Bモデルより丁寧です。tok/sの数字は劣っていても、読む価値のある回答が返ってくる。 日本語の品質については、清水亮さんの独自ベンチマークでも非常に優秀な成績を残しています。NVIDIA GPUでの計測ですが。 Tool Callingの信頼性

