AI阿里开源QwQ-32B:轻量级推理模型,科学推理接近研究生水平
阿里开源了QwQ-32B,是拥有320亿参数的推理模型,性能可与6710亿参数的DeepSeek-R1相媲美。QwQ-32B展示了接近研究生水平的科学推理能力,尤其在数学推理和编程问题上表现突出。 强化学习的优势强化学习(RL)在基础模型中的应用前景广阔。相比传统的监督学习,RL允许模型通过试错和反馈不断优化推理策略,特别适合需要多步推理、答案明确的任务。例如,有研究通过大规模RL探索链式思维(CoT),模型自发涌现出自我验证、反思和长推理链等能力。 QwQ-32B的训练过程阿里在QwQ-32B的训练中