赛道Hyper | 追平全球顶级：千问3推理模型开源

今日快讯 2025年08月06日 23:45 0 admin

作者：周源/华尔街见闻

7月25日，阿里巴巴开源千问3推理模型。

这是千问系列中首个采用混合专家MoE（Mixture of Experts）架构的代码模型，总参数达480B（4800亿），原生支持256K token的上下文，可扩展至1M长度，能帮助程序员完美完成写代码、补全代码等基础编程任务，大幅提升编程工作效率。

混合专家模型（MoE）是一种高效的神经网络架构设计，核心思想是通过分工协作提升模型性能，同时控制计算成本，尤其在大模型参数规模突破千亿、万亿级后，成为平衡性能与效率的关键技术。

简单说，MoE架构就像一个智能团队：有很多专业分工的成员（专家），但每次任务只让最适合的几个人干活（门控调度），既保证了效率，又能应对更复杂的需求。

据公开消息称，该模型性能提升显著，在知识储备、编程能力、数学运算等关键维度，与Gemini-2.5 pro、o4-mini等全球顶级闭源模型水平相当。

在7月21日至7月25日期间，阿里连续开源3款重要模型，成就斐然，在基础模型、编程模型、推理模型领域均获全球开源冠军。

这一系列动作不仅让技术开发者投入研究，也让企业决策者关注这些技术成果在实际业务中的应用，其落地可能对AI领域技术应用格局产生积极影响。

通义千问3旗舰模型发布后，通义团队持续优化推理能力。

新开源的千问3推理模型支持256K上下文长度，这一特性使其能轻松处理长篇文档和多轮对话，避免关键信息丢失。

在知识测评（(SuperGPQA）、编程能力测评（LiveCodeBench v6）等测试中，表现接近顶尖闭源模型，在开源模型中处于前列。

相比前代模型，该模型的复杂问题拆解分析、流畅度和精准度均有明显提升：比如在处理多步骤逻辑推理题时，能更清晰地呈现推理过程。

在此期间开源的Qwen3-235B-A22B-Instruct-2507（非思考版）性能提升明显，在GPQA知识测评、AIME25数学测评等涵盖多能力维度的测试中，成绩超过Claude4（Non-thinking）等闭源模型。

这些测试从知识覆盖范围、数学逻辑运算、代码编写准确性等多个角度，全面衡量模型的综合能力。

AI研究机构Artificial Analysis经测试数据对比，评价新开源的千问3模型“在非思考基础模型中表现突出”，这一评价基于模型在各项指标上的具体表现得出。

AI编程领域的Qwen3-Coder，在多语言SWE-bench等测试中表现超过GPT4.1和Claude4，成功登顶HuggingFace模型总榜。

该榜单综合模型下载量、使用频率、用户评分等多方面数据排名，在行业内认可度较高。

从实际应用来看，程序员借助它生成基础品牌官网最快仅需5分钟，刚入行的程序员一天就能完成资深程序员一周的工作。

截至目前，阿里巴巴已开源300余款通义大模型，衍生模型数量超过14万个，超过Meta的Llama系列，成为规模巨大的开源模型家族，在开发者和企业中被广泛使用。

这些衍生模型经全球开发者根据不同场景微调，应用于教育、金融、医疗等多个行业，比如教育领域的衍生模型可辅助教师生成个性化习题，金融领域的模型能做简单的风险评估。

据海外知名模型API聚合平台OpenRouter数据显示，阿里千问API调用量暴涨，截至7月25日，在过去数天内调用API规模已突破1000亿Tokens，在OpenRouter趋势榜上包揽全球前三，是当下最热门的模型。

这一数据反映出模型的受欢迎程度，尤其受到中小型开发团队青睐，因为其开源属性降低了使用成本，同时性能能满足项目需求。

阿里开源模型允许中国企业免费商用，这一政策降低了中小企业应用AI技术的门槛，让更多企业能享受到技术红利；同时向美国、法国、德国等国家的企业开放，助力欠发达国家获得本土衍生模型，丰富了AI开源社区的多样性，推动技术在全球范围内普及。

华尔街见闻注意到，企业落地AI时，往往将模型与云产品打包采购。

比如电商企业使用通义千问模型做客户服务智能回复时，会配套采购阿里云的数据库存储客户信息，以及阿里云的安全服务保障数据安全，形成生态闭环。

这种模式提升了阿里云产品的使用深度与客户关联度，增强了客户粘性。

当前，部分组织将AI工作负载迁移至云端，已部署云架构的企业也在积极将AI能力融入自身系统，这带来了对GPU资源、IaaS服务（基础设施即服务：Infrastructure as a Service）的持续需求。

千问3系列模型的良好表现，将助力阿里云吸引更多客户，促进公有云业务发展，尤其是在需要强大AI算力支持的领域。

千问3推理模型在开源模型中表现突出，源于通义团队对技术架构和算法的持续优化。

256K上下文长度使其在处理长文本任务时优势明显：在法律行业，能辅助审查长篇合同，精准提炼条款、权责划分与风险点，减少人工审查的疏漏；在科研领域，可快速抓取学术论文的研究背景、实验方法和核心结论，帮助研究人员节省阅读时间；在知识问答、代码生成等场景，其表现接近顶尖闭源模型。

Qwen3-235B-A22B-Instruct-2507（非思考版）的性能提升，得益于训练技术的改进。

关于这个模型的名称：“Qwen”是阿里千问的英文标识，“3”代表该模型属于千问系列的第3代版本，用于区分早期的Qwen1和Qwen2版本；“235B”即参数规模为2350亿；“A22B”通常与模型架构、训练配置或硬件适配相关（不同厂商的命名规则可能有差异）。

“Instruct”表示模型类型是“指令微调模型”（Instruct-tuned Model）。这类模型在预训练后，会通过人类指令数据进一步微调，更擅长理解和执行用户的自然语言指令（如“写一段代码”或“总结文档”），而非单纯的文本续写，实用性更强。

“2507”应该是版本日期或迭代编号，这里可能指“2025年7月”（或类似的内部版本时间），用于区分同一基础模型的不同迭代版本（比如修复了某些问题、优化了特定任务性能的更新版）。

这个模型在预训练阶段使用的36T tokens数据集，涵盖书籍、代码库等多种类型，保障了知识的广度与深度，使模型能应对不同领域的知识查询；后训练通过多轮强化学习，整合非思考与思考模型，优化了综合性能，让模型在处理不同类型任务时更灵活。

Qwen3-Coder在代码能力上的突破，来自改进的Transformer架构和优化的Agent调用流程。

其中，改进的Transformer架构提升了编程需求理解精度，当开发者输入“编写一个用户注册的后端接口”指令时，能准确把握接口需要实现的功能和参数要求；优化的Agent调用流程提高了工具调用效率，在需要调用外部代码库时，能更快速地完成匹配与调用，使其在多语言测试中领先，登顶HuggingFace榜单。

从生态角度看，Qwen3-Coder吸引了大量二次开发：开发者为其添加特定行业代码库，使其在金融科技领域能生成更符合行业规范的代码；还有开发者优化其响应速度，让它更适用于实时性要求高的在线编程场景。

目前，300余款通义大模型及14万个衍生模型，在科研、教育等行业广泛应用，推动AI技术从实验室走向实际生产生活，为各行业更高的效率提升。

本文来自华尔街见闻，欢迎下载APP查看更多