阿里Qwen3-Coder携1M上下文杀来！5分钟生成网站

7月24日发布在编程开发

阿里正式发布“迄今为止最具代理能力的代码模型”——Qwen3-Coder，其强大的性能和丰富的功能，正改变着AI编程领域的格局。

Qwen3-Coder包含多个版本，其中Qwen3-Coder-480B-A35B-Instruct是采用MoE架构的模型，拥有480B参数、35B激活参数，原生支持256K token的上下文，借助YaRN技术可扩展到1M token，能轻松应对仓库级和动态数据相关的编程任务。Qwen3-Coder模型支持358种编程语言，在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use方面，取得开源模型的SOTA效果，可与Claude Sonnet4相媲美。

从 benchmarks 数据来看，在多个评测维度中，Qwen3-Coder表现亮眼：

• Agentic Coding方面，Terminal-Bench SWE-bench Verified得分为37.5，超过Kimi-K2 Instruct的30.0、DeepSeek-V3 0324的2.5，也高于Claude Sonnet-4的35.5和OpenAI GPT-4.1的25.3；

• 搭配OpenHands在500 turns场景下，得分为69.6，接近Claude Sonnet-4的70.4；

• 在Aider-Polyglot评测中，61.8的得分超过Kimi-K2 Instruct的60.0、DeepSeek-V3 0324的56.9，也高于Claude Sonnet-4的56.4和OpenAI GPT-4.1的52.4。

在Agentic Browser Use和Agentic Tool Use评测中，Qwen3-Coder同样有出色表现。WebArena评测得分为49.9，超过Kimi-K2 Instruct的47.4和DeepSeek-V3 0324的40.0；BFCL-v3评测得分为68.7，高于Kimi-K2 Instruct的65.2和DeepSeek-V3 0324的56.9。

阿里同步推出并开源用于代理式编程的命令行工具Qwen Code，这款CLI工具基于Gemini CLI修改，针对Qwen3-Coder系列模型增强了解析器和工具支持。开发团队对prompt和工具调用协议进行适配，能最大程度激发Qwen3-Coder在Agentic Coding任务上的表现。同时，Qwen3-Coder能和Claude Code、Cline等社区优秀编程工具结合使用。

目前，Qwen3-Coder已在魔搭社区、HuggingFace等平台开源，全球开发者能免费下载使用。截至发布前，该模型在Github上获得5.1k stars。它很快会接入阿里的AI编程产品通义灵码，API也已上线阿里云百炼。

预训练

开发团队从多个角度进行Scaling，提升Qwen3-Coder的代码能力：

• 数据扩展：总数据量达7.5T，其中代码占比70%，在保持通用与数学能力的同时，让模型具备卓越编程能力；

• 上下文扩展：原生支持256K上下文，借助YaRN可拓展至1M，专门为仓库级和动态数据（如Pull Request）优化；

• 合成数据扩展：利用Qwen2.5-Coder对低质数据进行清洗与重写，显著提升整体数据质量。

后训练

团队在更丰富的真实代码任务上进行扩展Code RL训练。不同于当前社区普遍聚焦竞赛类代码生成，他们认为所有代码任务天然适合执行驱动的大规模强化学习。通过自动扩展测试样例，构造大量高质量训练实例，不仅显著提升代码执行成功率，还能对其他任务带来增益。

实际应用

Qwen3-Coder发布后，开发者们反应热烈。SnapEdit联合创始人兼首席执行官Oscar Le发推表示，Qwen从没让人失望，现在人们不用每月花200美元购买Claude Code了。苹果研究员Yufan Zhuang也称赞Qwen推动开源人工智能研究。

实际应用中，Qwen3-Coder能帮助程序员完成写代码、补全代码、修Bug等基础编程任务，让编程工作效率大幅提升。代码测试、查询生成等工作从人工编写的数小时缩短到数分钟。它还能降低普通人入门编程的门槛，比如用一句话就能生成精妙复杂的3D物理模拟过程。有开发者反馈，更改提示词要求模型逐步推理并考虑所有细微上下文时，更新后的Qwen3 235B表现明显更好。也有开发者称其速度快得离谱。