大模型2025，字节豆包、DeepSeek、阿里千问渐行渐远

景点排名 2025年08月07日 16:44 0 aa

出品 | 何玺

排版 | 叶媛

豆包现在或许有点郁闷。

7月底，火山引擎在其主办的FORCE Link AI创新巡展·厦门站活动上，发布了豆包·图像编辑模型3.0。凭借“听得懂、改得对、足够美”的AI修图能力，豆包3.0一经发布即备受好评，为豆包拉了一波热度。

可惜好景不长，8月5日，阿里通义千问团队宣布开源Qwen-Image，给了豆包一记重拳。

说Qwen-Image的开源对豆包是一记重拳，一方面是因为他们拥有相似的能力，另一方面是因为Qwen-Image的开源确实会对豆包获客造成实质影响。

功能相似的豆包·图像编辑模型3.0和Qwen-Image

豆包·图像编辑模型3.0与Qwen-Image作为近期推出的两款图像生成与编辑模型，在功能设计和技术实现上存在显著相似性，尤其在自然语言指令驱动的图像编辑能力和复杂文本渲染优化方面，例如都支持文字编辑、物体增减、风格变换等。

以文字编辑功能为例，两者都能对图像中的文字进行处理。豆包3.0可以精准替换海报、广告图中的文字，还会自动匹配原字体风格。例如，将“店家推荐”文字替换后，能保留原字体材质与背景元素，看不出改动痕迹；Qwen-Image同样具有卓越的文本渲染能力，支持中英渲染、自动布局，文字是图像生成时直出的，而非后期添加，效果更真实。如“消除文字”可无痕去除图片中的水印或文字，且保留周围纹理。在案例中，用户输入“把‘MORE’变成‘MAGAZINE’”，模型能自动匹配字体风格并调整排版。

再看物体增减功能，两个模型都能根据指令进行物体的添加或删除操作。豆包3.0可以无痕移除合影中的路人、图片上的水印等多余元素，还能智能填补背景。例如，能精准锁定黄衣女生和水印并完成双重清除，同时不伤及主体人物和背景细节；Qwen-Image同样支持物体增减功能，可根据用户指令对图像中的物体进行添加或删除，以实现图像编辑的目的。与豆包3.0有相似的能力。

风格变换上，豆包3.0能将图像转换为水彩风格、吉卜力风格、插画风格、3D风格等。比如，可将写实人物摄影照片转成涂鸦插画风格，严格遵循双重约束指令，生成的画面审美在线；Qwen-Image也能支持多种艺术风格转换，从照片级写实场景到印象派绘画，从动漫风格到极简设计，能够灵活响应各种创意提示。例如，用户可以通过输入提示词，让其将图像转换为特定的艺术风格，以满足不同的创作需求。

除了以上功能，两者还具备一定的细节调整能力。豆包3.0在调整人物姿态时能让其自然落座，同时保持背景、人物面部特征等其他细节毫发无损。还能对图像的光影效果进行调整，如发出“逆光+暖色调+ 金色光晕” 的指令，可使图像秒变电影质感。Qwen-Image在人物情绪、细节刻画和多样的风格渲染上表现出色，对于提示词的理解相当准确，能够根据提示词对图像的细节进行调整，以达到更好的视觉效果。

功能上的高度相似，也使得两者在商业场景的落地上也类似。以电商广告设计为例，使用豆包3.0，用户可通过指令直接生成促销海报，如“智能生发梳”案例中，模型自动生成产品图、促销文案及二维码布局。而Qwen-Image则提供了标准化商业模板，例如生成带价格标签的电商产品图时，文字与商品透视关系自动匹配。教育出版方面，豆包3.0支持生成带公式注释的课件图像，如数学符号与示意图的精准对齐。Qwen-Image可输出企业级PPT页面，标题、图表、装饰元素分层布局，符合专业设计规范。

通过对比可知，两者在指令驱动编辑、文本渲染精度和商业适配性上高度相似。当然，两者还是有区别的，豆包3.0更侧重多模态交互（如语音同步生成）和低延迟响应，适合实时性要求高的场景。Qwen-Image则聚焦中文文本渲染的极致优化，尤其在复杂排版和书法效果上。

为什么说Qwen-Image开源对豆包的一记重拳？

有人会说，虽然Qwen-Image和豆包在功能上很相似，但两者无论是定位还是目标用户，乃至应用场景都完全不同，怎么说Qwen-Image开源对豆包是一记重拳？

确实，如果仅从以上维度看，两者之间貌似没有直接竞争，但如果从商业竞争的本质出发，会发现，Qwen-Image开源模式对开发者和企业客户的技术赋能与生态重构，将从根本上动摇豆包的客群资源。

首先，豆包的商业模式始终围绕“模型即服务”（MaaS）展开，其闭源特性决定了企业用户需为API调用、私有化部署支付高昂费用。以电商海报生成场景为例，豆包的按调用量计费模式对中小商家构成显著成本压力，而Qwen-Image的Apache 2.0开源协议允许企业免费商用，仅需承担本地算力成本。

技术对比显示，Qwen-Image在生成含复杂中文排版的商业海报时，单次生成耗时仅1分钟（48G显存），且支持离线部署。这种“零授权费+低算力消耗”的组合，直接冲击豆包3.0的定价体系。更关键的是，Qwen-Image的开源属性降低了技术使用门槛，使中小企业无需依赖云服务商即可构建定制化图像生成工具链，颠覆了闭源模型“用钱换效率”的传统逻辑。

其次，豆包3.0的闭源特性使其在技术迭代和场景适配上存在一定的局限。例如，其图像编辑功能虽支持深度思考模式，但底层架构封闭导致开发者无法针对特定需求优化模型。反观Qwen-Image，其MMDiT（多模态扩散Transformer）架构的模块化设计允许开发者灵活调整文本渲染模块，甚至融合其他开源模型（如Stable Diffusion）的能力。

有实测案例表明，开发者可通过Qwen-Image的代码库，快速实现“书法字体生成+3D模型渲染”的混合工作流，而豆包3.0因技术黑箱难以支持此类定制化开发。

另外，豆包3.0依托字节跳动的流量优势，构建了以抖音、飞书为核心的闭源生态，但其应用场景高度集中于C端娱乐与轻量化办公。Qwen-Image的开源策略则瞄准B端垂直领域，通过魔搭、Hugging Face等平台吸引开发者，已经在教育出版、文化遗产、工业设计等多领域形成了行业解决方案。以工业设计为例，千问就与昆仑万维Skywork UniPic模型协同，完成从概念草图到3D建模的全流程生成。

这种“开源模型+垂直场景”的生态裂变，正在蚕食豆包3.0的潜在市场。当企业用户发现无需依赖字节生态即可获得同等甚至更优的图像生成能力时，豆包的闭源壁垒将逐渐瓦解。

或许有人会说，不是所有客户都会选择Qwen-Image这样的开源模型，毕竟企业除了性价比、可控性之外，对模型效率、风险、具体场景的应用都有不同的要求。这样的说法没错，但不可否认的是，Qwen-Image的开源对豆包来说确实是一记重拳，因为它真的抢走了部分技术极客和客户。这是现实，也是事实。

大模型2025，字节豆包、DeepSeek、阿里千问们渐行渐远

上面聊了Qwen-Image开源对豆包的影响，接下来，我们聊聊豆包和DeepSeek、阿里千问们渐行渐远的大模型发展路径。

2025年的中国AI产业，正经历一场深刻的分化。字节跳动的豆包、DeepSeek与阿里通义千问，这三家曾同处生成式AI赛道的企业，如今在技术路径、商业模式与生态布局上渐行渐远。这种分化不仅是企业战略的选择差异，更折射出AI产业从技术竞赛转向场景深耕、从流量争夺转向价值重构的底层逻辑变迁。

技术路径上，豆包依托字节跳动短视频生态，主要聚焦与内容生成与分发效率优化。通过MoE架构（混合专家模型）和UltraMem稀疏模型，实现低算力成本下的高响应速度（毫秒级），适配抖音、剪映等场景的实时创作需求。例如，豆包的"网感化"文案生成能力，能快速适配短视频平台的热点趋势；DeepSeek技术上以"开源革命+效能革命"为核心，专注数学推理、代码生成等结构化任务。通过动态稀疏计算架构（仅激活20%-30%参数）和知识蒸馏技术，实现低成本高性能（如DeepSeek-V3用558万美元成本逼近GPT-4o）。其开源策略吸引超12万开发者构建垂直解决方案（如金融风控、医疗辅助诊断）；阿里千问则通过整合通义大模型与阿里云、菜鸟、盒马等业务，其AI服务已嵌入物流调度（订单预测准确率92%）、供应链金融（风控决策延迟<0.3秒）等200+场景。在硬件端，与荣耀、传音等厂商合作推出的AI手机、翻译耳机，将大模型能力封装为“一键式”功能，用户感知成本趋近于零。

商业模式上，豆包当前主要以技术授权与定制化解决方案（B端），付费功能与会员（C端），广告与场景联动，以及为政府、事业单位提供 AI 解决方案实现收入；DeepSeek则以开源模型降低企业部署成本（如教育机构用4张H20显卡即可运行），同时通过智能体应用商店抽成和开发者工具订阅盈利。2025年，其开源模型衍生应用已超10万个，覆盖医疗、法律等20+行业；阿里千问将AI能力转化为商业基础设施的盈利。例如在智能汽车领域，与宝马合作的AI座舱方案中，千问模型按每辆车年行驶里程收取0.8元服务费。在政务领域，浙江省政府的智慧城市项目使其获得每年1.2亿元的独家服务费。

生态布局上，豆包通过技术输出、场景嵌入、外部合作三大路径，将AI能力渗透到 “个人生活-企业运营-社会服务” 链条中，最终形成 “字节系内部闭环+外部开放生态” 的双轮驱动模式。比如，抖音用户可通过豆包生成短视频脚本、优化文案、甚至辅助剪辑，今日头条用户可借助豆包快速总结新闻、解读复杂信息等；DeepSeek则采取全栈开源策略（MIT协议），开放从7B到128B参数的全系列模型，吸引开发者构建金融、教育等垂直应用。例如，中公教育基于DeepSeek开发AI就业助手，服务效率提升60%。通过开发者激励基金（3000万美元）和低代码工具降低技术门槛；千问则以阿里云为基座，提供从训练到部署的全链路服务。Qwen3支持MCP协议，开发者可快速集成智能体到企业系统（如供应链优化）。2025年财报显示，阿里云AI相关收入连续7个季度三位数增长，服务63%中国A股上市公司。

对比三家大模型发现，在大模型发展分化的三岔口，豆包的选择是做C端"刚需生产力"的效率工具，DeepSeek是"开源+垂直"的技术中台，千问是"生态+场景"的企业服务，各家路径渐行渐远。而它们的不同选择，也分别代表了消费互联网、技术开源生态和产业互联网的AI落地范式。

从根本上说，AI大模型在2025年的发展分化，本质是大厂技术路线选择、资源禀赋差异与生态策略分野的综合结果，也是AI产业从“技术定义产品”转向“场景定义价值”的必然。这种路径选择并没有对错，也并非最终路线。未来，大厂们还将围绕垂直场景深耕、技术普惠化、生态主导权展开争夺。