Alibabaは公式Webサイトで、DeepSeek R1-6710やo1-miniなどとの性能比較表を公開。QwQ-32Bは、数学やコーディング、一般問題の解決能力で他社の主要AIモデルよりも同等かそれ以上の性能を発揮したとしている。 今回のAIモデルの開発においてAlibabaは、強化学習(最適な結果を得るためにAIを訓練させる手法)のスケーリングに注目した。初めに数学とコーディングタスクに特化した強化学習を実施した後さらに、一般問題の解決能力を上げるべく、もう1つ強化学習のフェーズを追加した。これにより、数学とコーディング能力を大幅に下げることなく、一般問題の解決能力を上げることができたという。 このことからAlibabaは「より強力な基礎モデルとスケーリングした計算リソースによる強化学習を組み合わせることで、汎用人工知能(AGI)の実現に近づけると確信している」と説明。今後は推論時