金融界2025年7月21日消息,国家知识产权局信息显示,江苏永鼎光纤科技有限公司取得一项名为“一种光纤原始尾柄拉丝装置”的专利,授权公告号CN2231...
2025-07-27 0
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
开源大模型正在进入中国时间。
Kimi K2风头正盛,然而不到一周,Qwen3就迎来最新升级,235B总参数量仅占Kimi K2 1T规模的四分之一。
基准测试性能上却超越了Kimi K2。
Qwen官方还宣布不再使用混合思维模式,而是分别训练Instruct和Thinking模型。
所以,此次发布的新模型仅支持非思考模式,现在网页版已经可以上线使用了,但通义APP还未见更新。
Qwen官方还透露:这次只是一个小更新!大招很快就来了!
但总归就是,再见Qwen3-235B-A22B,你好Qwen3-235B-A22B-2507了。
By the way,这个名字怎么取得越来越复杂了。
先来看看这次的“小更新”都有哪些~
新模型是一款因果语言模型,采用MoE架构,总参数量达235B,其中非嵌入参数为234B,推理时激活参数为22B。
在官方介绍中显示,模型共包含94层,采用分组查询注意力(GQA)机制,配备64个查询头和4个键值头,并设置128个专家,每次推理时激活8个专家。
该模型原生支持262144的上下文长度。
这次改进主要有以下几个方面:
在官方发布的基准测试中可以看到,相较于上一版本,新模型在AIME25上准确率从24.7%上升到70.3%,表现出良好的数学推理能力。
而且对比Kimi K2、DeepSeek-V3,Qwen3新模型的能力也都略胜一筹。
为了提高使用体验,官方还推荐了最佳设置:
Qwen3新版本深夜发布就立刻收获了一众好评:Qwen在中等规模的语言模型中已经领先。
也有网友感慨Qwen在开启新的架构范式:
有趣的是,就在Qwen3新模型发布的前两天,NVIDIA也宣称发布了新的SOTA开源模型OpenReasoning-Nemotron。
该模型提供四个规模:1.5B、7B、14B和32B,并且可以实现100%本地运行。
但实际上,这只是基于Qwen-2.5在Deepseek R1数据上微调的模型。
而现在Qwen3已经更新,大招已经被预告。
随着Llama转向闭源的消息传出,OpenAI迟迟不见Open,开源基础大模型的竞争,现在正在进入中国时间。
DeepSeek丢了王座,Kimi K2补上,Kimi K2坐稳没几天,Qwen的挑战就来了。
体验链接:https://chat.qwen.ai/
参考链接:
[1]https://x.com/Alibaba_Qwen/status/1947344511988076547
[2]https://x.com/giffmana/status/1947362393983529005
— 完 —
量子位 QbitAI
关注我们,第一时间获知前沿科技动态
相关文章
金融界2025年7月21日消息,国家知识产权局信息显示,江苏永鼎光纤科技有限公司取得一项名为“一种光纤原始尾柄拉丝装置”的专利,授权公告号CN2231...
2025-07-27 0
深夜赶论文突然蓝屏?小组作业PPT卡成连环画?图书馆抢插座比抢课还难?更扎心的是——61%的大一新生后悔入学三个月内买的电脑 !不是性能过剩吃土半年,...
2025-07-27 0
从传统图像编辑软件到生成式大模型,AI让图像、视频等内容生成的手段愈发简单,也让信息篡改的形式更隐蔽,载体更多样,让人防不胜防。网络加速器供应商Sur...
2025-07-27 0
闻乐 发自 凹非寺量子位 | 公众号 QbitAI开源大模型正在进入中国时间。Kimi K2风头正盛,然而不到一周,Qwen3就迎来最新升级,235B...
2025-07-27 0
#你用的第一款手机是什么#小时候的暑假,我们和小伙伴喝着奶茶在步行街上闲逛,听着蔡依林的《看我72变》走进了阿呀呀小店。走出来的时候,正好有人在发手机...
2025-07-27 0
金融界2025年7月24日消息,国家知识产权局信息显示,山西立讯精密工业有限公司取得一项名为“线缆连接器”的专利,授权公告号CN223141037U,...
2025-07-27 0
【民航事儿】2025年5月25日,顺丰航空“鄂州-纽约-哈利法克斯-鄂州”国际货运航线正式开通运行,这是顺丰航空执行的首条通达加拿大的国际航线、首条第...
2025-07-27 0
在当今数字化浪潮席卷的商业世界,商用电脑市场正呈现出蓬勃的发展态势。无论是大型企业的日常运营,还是中小企业的数字化转型,商用电脑都扮演着至关重要的角色...
2025-07-27 0
发表评论