近日,斯坦福大学(Stanford University)和国际权威学术出版社爱思唯尔(Elsevier)共同发布2025年全球前2%顶尖科学家榜单(...
2025-09-26 2
大模型正在加速进化,从“能处理多种模态”走向“真正的全模态”。这意味着,它们不仅会生成文字、图像、语音、视频,还能把这些能力融会贯通,做到跨模态的理解与生成统一。然而,要让模型既能完成复杂推理,又能感知动态场景、把握长时上下文,其实远比“功能堆砌”要复杂得多,中间有不少技术难题等待突破。
正是在这样的背景下,蚂蚁集团资深算法专家陈景东在 GOSIM HANGZHOU 2025 大会“AI 模型与基础设施”论坛上带来了题为《蚂蚁多模态大模型实践》的主题演讲。他结合在 Ming-Omni 系列开源工作的最新成果,分享了蚂蚁如何在多模态架构演进、跨模态融合,以及理解与生成统一方面展开探索。从技术路径到模型训练的联合优化,他系统展示了打造“能看、能听、能说、能画”的全模态基础模型的实践经验。
下面,我们就跟随陈景东的演讲,一起看看蚂蚁在多模态大模型上的最新进展与思考。
蚂蚁集团资深算法专家 陈景东
以下是演讲实录:
这次分享中,我想和大家聊聊蚂蚁集团在多模态大模型上的一些实践。其实蚂蚁在这个方向上起步比较早,最初是在 2023 年年初就开始探索相关工作,但真正对外开源是在今年年初。开源之后,我们收到了很多来自社区的反馈,也因此有了不少新的思考,这些都对后续的迭代和交流起到了很大启发。作为一个在开源领域还算“新手”的团队,我们也特别希望能得到更多关注和建议,帮助我们把模型优化得更快、更好。
今天的分享主要分成四个部分:
首先,用一张图来概览一下蚂蚁集团希望构建的大模型版图:
底层是基础能力,主要涵盖算力、安全力和知识力三个维度。
在打下坚实基础之后,蚂蚁集团逐步构建了大语言模型与多模态模型,这一系列品牌被命名为“百灵”。在“百灵”之上,我们进一步开发了医疗、民生、安全等应用方向,同时探索时空数据等特色场景。更高一层,则面向消费者、企业和专业服务。
谈到“百灵”模型的路线,我们的核心理念是以一个更方便社区研究者或开发者接入的方式来为大家提供服务。具体包括:
当前多模态领域呈现出两个非常有意思的发展轴,如下图所示:
时下,随着去年年底至今年年初的技术迭代,行业出现了一个重要趋势——理解与生成的结合。语言的理解与生成天然是一体两面的工作,但在视觉和音频领域却并非如此。因此,研究者在这一领域开展了大量探索,推动技术突破。例如,在语音生成方面,通义千问的 Qwen-Omni、Baichuan-Omni(百川)、MiniCPM-O(面壁)等工作提供了重要参考;图像生成方面有 Janus-Pro(Deepseek)、Bagel(字节)、MetaQuery (Meta)等工作;视频领域也出现了 OmniVideo(上海 AI Lab)等类似探索。
除此之外,全球 AI 产业中也有一些关键工作致力于将多模态的理解与生成整合到同一模型中,这不仅可谓是集所有成果之大成,同时也集所有挑战之大成。这一方向上,Gemini、ChatGPT 提供了诸多指引和标杆性的功能应用。例如,OpenAI 今年年初发布的 GPT-4o 展示了图像理解与生成在单一模型或接口中实现的能力,呈现了过去难以见到的功能。它的指令遵循能力显著提升,能够在一个模型中自由处理复杂上下文和多模态指令。
蚂蚁 Inclusion AI 团队选择沿着这一路径前进,背后也带来了一个核心思考:从应用上看,未来多模态模型的入口应该具备什么功能。我们认为人的自然交互形式是“认知”(理解)与 “表达”(生成)的闭环,全模态的交互是联通数字世界与物理世界的关键入口。在通向通用人工智能的道路上,模型不仅要理解语音、图像和 3D 世界,也必须能够清晰表达这些内容,这是必须经过的路径。
在这一思路指导下,百灵多模态模型沿两条主线发展:
一、延续语言模型的 Scaling Law 基本范式,通过增加参数量、扩充数据和提升迭代效率,不断推动智能能力上限;
二、将多模态的理解与生成融合在一个模型中,这是更关键的方向。
今年四月底,蚂蚁发布的模型首次实现了图像理解与生成的统一,验证了该方向的技术潜力与发展空间。五月份,我们又推出了 Ming-Lite-omni-Preview 版本,进一步实现了语音和图像的生成与理解整合。在探索过程中,我们发现模型实现的难度和技术空间远超预期,但也带来了大量优化机会。随后,我们迅速推出了 Ming-Lite-omni 正式版及 1.5 版本。
未来,我们计划发布更大规模模型,展示更强能力。社区反馈显示,用户希望模型能在更多场景中部署和交互。因此,Ming-Lite-omni 1.5 在发布一周内就由社区贡献了一个可在消费级显卡上运行的 INT8 量化版本。我们希望这些模型将来能应用于智能眼镜、机器人或机器狗等场景,更好地与视觉传感器和语音系统互动,为用户带来有趣的应用体验。
在蚂蚁多模态模型中,最关键的问题是:它有哪些技术特点,又如何实现那些令人惊喜的能力?在进入技术细节之前,我先展示一下它的实际效果。
为了直观对比,我们使用类似雷达图的方式,将各领域表现出色的模型放在一起对比,正如下图所示:
观察此前市场上的大部分模型,其通常专注于单一领域。例如,千问的 Qwen-Audio 主要用于语音理解和生成;CogVLM 聚焦于视觉理解;Meta 的 Emu2 是当时图像理解和生成方面的典型代表;Kimi Audio 在语音理解和表达上也做了大量工作。
这些研究为我们提供了重要的启示和借鉴。基于对社区和领域内大部分工作的研究,我们开发了 Ming-Omni,它能够将理解与生成融合在同一个模型中,并整合音频、图像和文本。因此,在功能和模态支持上,它基本可以与 GPT-4o 和 Gemini 对齐。当然,模型仍存在一些改进空间。
不过,令人惊喜的是,这款多模态大模型在多任务中对上下文的理解和指令遵循能力显著增强,具体来看:
接下来我们不妨看看 Ming-Omni 模型的整体结构。通过下图可以看出,它的架构稍显复杂,但实际上其设计路径非常清晰:
总体而言,我们这一代的解决方案主要有两个目标:第一,将不同模态融合到一个模型中;第二,将理解和生成能力统一在一个模型中。
当然,理想方案背后仍存在大量技术挑战。第一个问题是如何将收敛速度不同的任务有效融合。在这里,我们主要是将任务分为不同阶段,并通过全模态联合训练动态调优权重,即调整数据和参数的配比,使不同损失(loss)下的更新趋向一致,从而实现同步收敛。
第二个挑战是如何在模型中同时实现图像的理解与生成。过去的生成模型通常没有这样多模态接入的能力,但今年年初已有大量工作采用了类似方案。我们的主要创新之一,是在不同尺度上实现自由生成与一致性。同时我们发现,与 Emu2 不同的是,随着 tokens 数量增加或参数量提升,模型效果持续提升,这是一个有趣的现象。
回顾整个蚂蚁大模型的实现过程,可以总结为三点:
以上分享了许多关于多模态的技术细节,但从宏观层面来看,“百灵大模型”的目标,是希望为社区提供一个在效率与智能之间更加均衡的模型方案,让更多用户能够更容易上手。在这一过程中,我们设定了几个核心目标:
一、成为“扫码级”AI。就像人们一提到支付宝,首先想到的就是扫码一样,我们希望新一代 AI 也能达到类似扫码的直观、自然、随手可用的体验。想要实现这类 AI,其背后对应的是对极致性能、智能表现以及长尾需求的满足。而实现这一点的关键,在于如何通过全模态来支撑这些长尾需求。这里有一个非常值得注意的现象:模态自由组合带来的“涌现”能力。在以往的训练数据中,大多数都是“文生图”,并没有出现过“语音生成图像”的指令或样本。但当模型接收到语音输入时,依然能够自然地生成图像。这正体现了模态组合所带来的潜在能力。因此,在构建大模型时,我们始终希望它具备更强的涌现能力,从而能够在更广泛、更灵活的长尾场景中发挥作用。
二、以“MOE 炼丹”。过去这一方向存在不少争论,但今天已成为共识。MOE(Mixture of Experts)能够以更小的参数规模、更低的推理代价,实现更高水平的智能表现。因此,MOE 将是未来我们持续坚持和演进的重要路径。
三、线性 Attention。在模型优化中,提速不是终点,精度始终是底线。我们希望通过混合线性的方法,突破平方级 Attention 的限制,在速度与性能之间找到更好的平衡。这不仅能带来更强的长上下文处理能力,也能突破交互和常规处理中的局限。
四、多模态的融合。这里所说的融合,并不是模态之间简单的缝合和堆砌,而是更深层次的统一。首先,需要让不同模态能够共享表征,并投影到同一个空间中,让语言与视觉能够在统一的空间里进行交互与转换,从而打破模态之间的壁垒。其次,要同时关注理解与生成——图像如何理解与生成、语音如何理解与生成。在这种横纵两个维度的融合过程中,能够探索出一种简洁而优雅的新一代方案,推动真正的多模态融合。这种融合,也正是能力涌现的基础。例如,语音生成图像的功能,正是通过这种自由组合被自然激发出来。可以说,自然世界中的自由组合,在多模态模型中同样能够看到其影子。
五、AI 优化。我们的目标,是让模型更具“人样”。标准的设定决定了技术的上限,但真正的衡量,还是取决于用户体验。未来,我们会将安全性放在首位,其次是体验,再进一步是美感。我们希望模型不仅能带来功能上的支持,更能带来人与技术之间更自然、更美好的交互体验。
想要了解关于 Ming-lite-omni 1.5 和 Ming-lite-uni 的更多内容,也可以参考以下资料:
相关文章
近日,斯坦福大学(Stanford University)和国际权威学术出版社爱思唯尔(Elsevier)共同发布2025年全球前2%顶尖科学家榜单(...
2025-09-26 2
大模型正在加速进化,从“能处理多种模态”走向“真正的全模态”。这意味着,它们不仅会生成文字、图像、语音、视频,还能把这些能力融会贯通,做到跨模态的理解...
2025-09-26 2
IT之家 9 月 26 日消息,微软昨日(9 月 25 日)发布博文,邀请 Windows Insider 项目所有频道用户,在 Windows 11...
2025-09-26 2
当英伟达这个靠GPU芯片统治AI世界的巨头,突然要自己开起“无人驾驶出租车”,整个科技圈和汽车圈都屏住了呼吸。这不是一家新势力车企的跨界噱头,而是全球...
2025-09-26 2
快科技9月26日消息,在小米17系列发布会上,小米还发布了一款磁吸充电宝新品——小米金沙江充电宝 磁吸超薄 5000 15W,售价299元。仅上架一晚...
2025-09-26 2
虽然现在是设计师在蹭热度,以后可说不一定。近年来,随着电动趋势的加强、电商行业飞速发展,很多电动四轮也开始将目光转向商业配送领域,像早前奥迪、菲亚特、...
2025-09-26 2
昨晚小米17系列正式发布,小趣也提前拿到了其中的标准版小米17雪山粉配色,12+256GB 4499起。雪山粉饰小米17此次四款配色中最温暖柔和的一款...
2025-09-26 2
本篇文章给大家谈谈微乐跑得快一直输,以及微乐跑得快有没挂对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 微乐跑的快谁建房间怎么老输 首先,打开...
2025-09-26 6
发表评论