阿里开源了QwQ-32B,是拥有320亿参数的推理模型,性能可与6710亿参数的DeepSeek-R1相媲美。QwQ-32B展示了接近研究生水平的科学推理能力,尤其在数学推理和编程问题上表现突出。
强化学习的优势
强化学习(RL)在基础模型中的应用前景广阔。相比传统的监督学习,RL允许模型通过试错和反馈不断优化推理策略,特别适合需要多步推理、答案明确的任务。例如,有研究通过大规模RL探索链式思维(CoT),模型自发涌现出自我验证、反思和长推理链等能力。
QwQ-32B的训练过程
阿里在QwQ-32B的训练中,将强化学习用于后期优化模型的推理策略。研究团队在模型预训练和有监督微调(SFT)后,引入了基于奖励的策略优化。模型首先通过大量含链式思考过程的数据进行预训练和微调,掌握基本推理格式;随后应用强化学习,在交互式环境中自我提升。
优化策略
仅靠RL的模型可能出现重复循环、表述冗长等问题。QwQ-32B在RL优化时结合了适当的监督数据「冷启动」,确保模型探索复杂推理路径的同时,维持回答的可读性和连贯性。
轻量级设计
QwQ-32B的轻量级设计使其能在单一机器上高效运行,减少了大型模型在服务器上的复杂性和资源消耗。
访问方式
Qwen Chat的访问入口已开通,默认模型为Qwen 2.5,用户可通过下拉菜单选择QwQ-32B进行体验。访问链接:[Qwen Chat](https://chat.qwen.ai/?models=Qwen2.5-Plus)。