これらのモデルは、元のモデルに比べるとかなり小型化されています。 蒸留(ディスティレーション)を通じてモデルを“圧縮”することで、推論の速度を向上させ、一般的なPCやiPhone等のスマートフォンでも動作可能なレベルに調整されています。 驚異のパフォーマンス:小型でも特定タスクでGPT-4oを超える? DeepSeekのテクニカルペーパーによると、Distilled Modelsのベンチマークテストでは、 「8Bパラメータのモデルでさえ、特定のタスクにおいてGPT-4o(昨年5月時点のバージョン)を上回る」 という結果が出ています。 ただし、これは数学やコード生成といった特定のタスクに特化したトレーニングを行った場合の話です。 総合的な文章生成や知識カバー率では、依然としてGPT-4oやClaude、o1などのフロンティアモデルのほうが優れています。 つまり、 「タスクによってはローカルモ