阿里最新系列模型测评

排行榜 2025年09月25日 14:07 1 admin

1、阿里云栖大会发布6款模型介绍

千问Max模型特点：千问Max模型是目前阿里最大的参数大模型，参数量超万亿，主要能力体现在Coding和工具调用方面，在相关榜单中宣称达到全球第三水平。尽管该榜单可信度存疑，但在Arena平台的盲测中，千问Max排名第三。Arena平台是进行模型盲测的平台，较为公正。在通义的所有模型中，千问3全尺寸最大、覆盖多场景，千问Max能力最强。

千问3 Omni模型特性：千问3 Omni模型于昨日发布，但尚未大范围官宣。目前在千问官方网站可使用o mini flash模型，o mini模型需通过调用API方式使用。该模型为原生全模态大模型，采用端到端全模态训练，具备视频理解、图片理解及图片生成等功能。

千问3 VL模型功能：千问3 VL是垂类视频/视觉理解模型，于今日发布。多项测评中，其表现宣称超Gemini 2.5 Pro。通义APP昨日更新后新增视频对话能力，类似豆包打开摄像头与视频实时对话，目前可预约体验，尚未上线。后续若上线，可能与该视觉理解模型连接。

千问Image模型升级：千问Image模型为图片生成模型，升级版本包含Image Plus和Image两个版本，参数量约200亿。图片编辑由Image Edit模型实现，该模型于昨日发布，在千问APP点击“图片编辑”选项即可使用。

千问Code模型迭代：7月23日，阿里开源旗舰编程模型千问3 quarter。本次更新的400 480B参数模型为其升级款，评测榜单分数大幅提升。

ONE 2.5 Preview视频生成模型：视频生成模型ONE 2.5 Preview已登录千问的通义万象平台，具备音画同步视频生成、图表升视频等功能，后续计划与可灵、vivo3进行对比。

2、各模型与同类产品对比测评

千问Max代码能力对比：代码能力对比通过两个案例测评。‘赛博新年，羊了个羊’案例中，千问3MAX能一次性生成效果，但对规则理解不足；千问3 Code在垂类编程领域优化，表现更好。‘流体动力学交互演示’案例里，千问3MAX可放置物体，但无流体效果；千问3 Code用粒子模拟流体，未实现流动效果，Code表现更优。当前AI模型实现此类案例普遍困难，Cloud 4曾能一次生成，降质后效果与千问3 Code相近。整体上，GPT3、Mace等模型代码能力进步大，可与海外优秀模型竞争，但在流体效果上与前端大模型有差距。

千问3 Omni与VL视觉理解对比：视觉理解能力通过三个案例对比千问3 A mini flash、VL、ChatGPT 5及O3 Mini等模型。图片人数识别案例中，测试图片有64人，A mini flash识别48人，VL识别50人，ChatGPT 5识别47人，各模型结果相近。北京烤鸭酱料识别案例，A mini flash误判，VL准确识别，O3 Mini精准回答，ChatGPT 5描述笼统。中山大厦识别案例，A mini flash误判，VL准确识别并定位，ChatGPT 5未定位。综合来看，VL视觉理解表现突出，准确度接近O3 Mini，优于A mini flash和ChatGPT 5，且有推理过程。

千问Image图片生成对比：图片生成能力对比涉及多个案例。‘哪吒和敖丙在莲花中打坐’案例，千问Image与字节集梦效果良好，差异在画风。‘小猫背对着玩手机’案例，千问Image手机偏大但字体清晰，文心一言修改后正确，各模型效果相近。‘爱因斯坦与瞧不起他的人握手’案例，ChatGPT 4O呈现人物表情好，各模型实现写实风格，细节有不足。当前图片生成领域各模型无明显逻辑错误，差距在小细节，图片编辑用于高要求场景。

ONE 2.5 Preview视频生成对比：视频生成能力对比含案例及价格分析。价格上，通义ONE 2.5 Preview约1.2元/5秒，可灵2.5 Turbo约2.12元/5秒。案例对比：‘宜家盒子炸开展示床’案例，通义需额外要求音效，可灵2.5 Turbo音画更优，vivo3完美，快手2.1大师版无声音，Sora仅画面且被超越。‘苹果logo变iPhone’案例，通义有声音，可灵转场完整，vivo3丝滑。‘塞尔达场景走向雪山’案例，vivo3还原好，通义流畅有声音，可灵理解不足但画面流畅，快手2.1大师版效果不错。‘可口可乐logo变可乐’案例，通义无瑕疵，可灵转场好，vivo3能力突出。综合看，vivo3音视频同步生成最强，可灵2.5 Turbo进步显著。

3、阿里千问模型整体测评总结

模型进步与对比结论：本次测评显示，阿里千问发布的模型在代码、视频、图像编辑等方面较旧版显著进步，部分能力追上该领域国内外强模型。具体模型对比上，通义模型性价比高，定价5秒1.2元，优于2.1大师版本；可灵2.5 Turbo模型定价5秒2.2元，其新模型进步明显，与通义效果相近，部分案例中表现良好。此外，阿里的Y 2.5模型进步大，能与可灵2.5 Turbo模型竞争。当前AI视频领域模型质量提升，不再像几个月前有明显bug，各模型效果不断增强。