根据奥维睿沃最新数据显示,今年上半年全球TV出货量同比下降1.5%,至9080万台,但出货面积却逆势增长2.1%,达7220万平方米,平均尺寸提升至5...
2025-08-06 0
作者:周源/华尔街见闻
7月25日,阿里巴巴开源千问3推理模型。
这是千问系列中首个采用混合专家MoE(Mixture of Experts)架构的代码模型,总参数达480B(4800亿),原生支持256K token的上下文,可扩展至1M长度,能帮助程序员完美完成写代码、补全代码等基础编程任务,大幅提升编程工作效率。
混合专家模型(MoE)是一种高效的神经网络架构设计,核心思想是通过分工协作提升模型性能,同时控制计算成本,尤其在大模型参数规模突破千亿、万亿级后,成为平衡性能与效率的关键技术。
简单说,MoE架构就像一个智能团队:有很多专业分工的成员(专家),但每次任务只让最适合的几个人干活(门控调度),既保证了效率,又能应对更复杂的需求。
据公开消息称,该模型性能提升显著,在知识储备、编程能力、数学运算等关键维度,与Gemini-2.5 pro、o4-mini等全球顶级闭源模型水平相当。
在7月21日至7月25日期间,阿里连续开源3款重要模型,成就斐然,在基础模型、编程模型、推理模型领域均获全球开源冠军。
这一系列动作不仅让技术开发者投入研究,也让企业决策者关注这些技术成果在实际业务中的应用,其落地可能对AI领域技术应用格局产生积极影响。
通义千问3旗舰模型发布后,通义团队持续优化推理能力。
新开源的千问3推理模型支持256K上下文长度,这一特性使其能轻松处理长篇文档和多轮对话,避免关键信息丢失。
在知识测评((SuperGPQA)、编程能力测评(LiveCodeBench v6)等测试中,表现接近顶尖闭源模型,在开源模型中处于前列。
相比前代模型,该模型的复杂问题拆解分析、流畅度和精准度均有明显提升:比如在处理多步骤逻辑推理题时,能更清晰地呈现推理过程。
在此期间开源的Qwen3-235B-A22B-Instruct-2507(非思考版)性能提升明显,在GPQA知识测评、AIME25数学测评等涵盖多能力维度的测试中,成绩超过Claude4(Non-thinking)等闭源模型。
这些测试从知识覆盖范围、数学逻辑运算、代码编写准确性等多个角度,全面衡量模型的综合能力。
AI研究机构Artificial Analysis经测试数据对比,评价新开源的千问3模型“在非思考基础模型中表现突出”,这一评价基于模型在各项指标上的具体表现得出。
AI编程领域的Qwen3-Coder,在多语言SWE-bench等测试中表现超过GPT4.1和Claude4,成功登顶HuggingFace模型总榜。
该榜单综合模型下载量、使用频率、用户评分等多方面数据排名,在行业内认可度较高。
从实际应用来看,程序员借助它生成基础品牌官网最快仅需5分钟,刚入行的程序员一天就能完成资深程序员一周的工作。
截至目前,阿里巴巴已开源300余款通义大模型,衍生模型数量超过14万个,超过Meta的Llama系列,成为规模巨大的开源模型家族,在开发者和企业中被广泛使用。
这些衍生模型经全球开发者根据不同场景微调,应用于教育、金融、医疗等多个行业,比如教育领域的衍生模型可辅助教师生成个性化习题,金融领域的模型能做简单的风险评估。
据海外知名模型API聚合平台OpenRouter数据显示,阿里千问API调用量暴涨,截至7月25日,在过去数天内调用API规模已突破1000亿Tokens,在OpenRouter趋势榜上包揽全球前三,是当下最热门的模型。
这一数据反映出模型的受欢迎程度,尤其受到中小型开发团队青睐,因为其开源属性降低了使用成本,同时性能能满足项目需求。
阿里开源模型允许中国企业免费商用,这一政策降低了中小企业应用AI技术的门槛,让更多企业能享受到技术红利;同时向美国、法国、德国等国家的企业开放,助力欠发达国家获得本土衍生模型,丰富了AI开源社区的多样性,推动技术在全球范围内普及。
华尔街见闻注意到,企业落地AI时,往往将模型与云产品打包采购。
比如电商企业使用通义千问模型做客户服务智能回复时,会配套采购阿里云的数据库存储客户信息,以及阿里云的安全服务保障数据安全,形成生态闭环。
这种模式提升了阿里云产品的使用深度与客户关联度,增强了客户粘性。
当前,部分组织将AI工作负载迁移至云端,已部署云架构的企业也在积极将AI能力融入自身系统,这带来了对GPU资源、IaaS服务(基础设施即服务:Infrastructure as a Service)的持续需求。
千问3系列模型的良好表现,将助力阿里云吸引更多客户,促进公有云业务发展,尤其是在需要强大AI算力支持的领域。
千问3推理模型在开源模型中表现突出,源于通义团队对技术架构和算法的持续优化。
256K上下文长度使其在处理长文本任务时优势明显:在法律行业,能辅助审查长篇合同,精准提炼条款、权责划分与风险点,减少人工审查的疏漏;在科研领域,可快速抓取学术论文的研究背景、实验方法和核心结论,帮助研究人员节省阅读时间;在知识问答、代码生成等场景,其表现接近顶尖闭源模型。
Qwen3-235B-A22B-Instruct-2507(非思考版)的性能提升,得益于训练技术的改进。
关于这个模型的名称:“Qwen”是阿里千问的英文标识,“3”代表该模型属于千问系列的第3代版本,用于区分早期的Qwen1和Qwen2版本;“235B”即参数规模为2350亿;“A22B”通常与模型架构、训练配置或硬件适配相关(不同厂商的命名规则可能有差异)。
“Instruct”表示模型类型是“指令微调模型”(Instruct-tuned Model)。这类模型在预训练后,会通过人类指令数据进一步微调,更擅长理解和执行用户的自然语言指令(如“写一段代码”或“总结文档”),而非单纯的文本续写,实用性更强。
“2507”应该是版本日期或迭代编号,这里可能指“2025年7月”(或类似的内部版本时间),用于区分同一基础模型的不同迭代版本(比如修复了某些问题、优化了特定任务性能的更新版)。
这个模型在预训练阶段使用的36T tokens数据集,涵盖书籍、代码库等多种类型,保障了知识的广度与深度,使模型能应对不同领域的知识查询;后训练通过多轮强化学习,整合非思考与思考模型,优化了综合性能,让模型在处理不同类型任务时更灵活。
Qwen3-Coder在代码能力上的突破,来自改进的Transformer架构和优化的Agent调用流程。
其中,改进的Transformer架构提升了编程需求理解精度,当开发者输入“编写一个用户注册的后端接口”指令时,能准确把握接口需要实现的功能和参数要求;优化的Agent调用流程提高了工具调用效率,在需要调用外部代码库时,能更快速地完成匹配与调用,使其在多语言测试中领先,登顶HuggingFace榜单。
从生态角度看,Qwen3-Coder吸引了大量二次开发:开发者为其添加特定行业代码库,使其在金融科技领域能生成更符合行业规范的代码;还有开发者优化其响应速度,让它更适用于实时性要求高的在线编程场景。
目前,300余款通义大模型及14万个衍生模型,在科研、教育等行业广泛应用,推动AI技术从实验室走向实际生产生活,为各行业更高的效率提升。
本文来自华尔街见闻,欢迎下载APP查看更多
相关文章
根据奥维睿沃最新数据显示,今年上半年全球TV出货量同比下降1.5%,至9080万台,但出货面积却逆势增长2.1%,达7220万平方米,平均尺寸提升至5...
2025-08-06 0
作者:周源/华尔街见闻7月25日,阿里巴巴开源千问3推理模型。这是千问系列中首个采用混合专家MoE(Mixture of Experts)架构的代码模...
2025-08-06 0
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-06 0
说到机械革命极光X,估计这是一款被不少小伙伴夸到功德圆满的机型。都知道游戏本对CPU要求不高,这款笔记本干脆就用过气CPU搭配主流GPU,带来了非常高...
2025-08-06 0
上海,2025 年 8 月 5 日 – 随着 AI 工作负载的复杂性和规模与日俱增,存储系统能否跟上加速计算基础设施的发展步伐,已成为影响整体性能的关...
2025-08-06 0
金融界2025年8月6日消息,国家知识产权局信息显示,京东方科技集团股份有限公司;成都京东方光电科技有限公司申请一项名为“显示装置及其显示面板、显示面...
2025-08-06 0
中新网香港8月6日电 (记者 戴小橦 8月6日,中国移动国际有限公司(中移国际 与香港数码港签署合作备忘录,承诺携手推动香港人工智能(AI 产业发展并...
2025-08-06 0
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-06 0
发表评论