首页 今日新闻文章正文

大模型“卷”向多模态, 深度解析蚂蚁实践思路

今日新闻 2025年09月26日 15:20 2 aa

大模型正在加速进化,从“能处理多种模态”走向“真正的全模态”。这意味着,它们不仅会生成文字、图像、语音、视频,还能把这些能力融会贯通,做到跨模态的理解与生成统一。然而,要让模型既能完成复杂推理,又能感知动态场景、把握长时上下文,其实远比“功能堆砌”要复杂得多,中间有不少技术难题等待突破。

正是在这样的背景下,蚂蚁集团资深算法专家陈景东在 GOSIM HANGZHOU 2025 大会“AI 模型与基础设施”论坛上带来了题为《蚂蚁多模态大模型实践》的主题演讲。他结合在 Ming-Omni 系列开源工作的最新成果,分享了蚂蚁如何在多模态架构演进、跨模态融合,以及理解与生成统一方面展开探索。从技术路径到模型训练的联合优化,他系统展示了打造“能看、能听、能说、能画”的全模态基础模型的实践经验。

下面,我们就跟随陈景东的演讲,一起看看蚂蚁在多模态大模型上的最新进展与思考。

大模型“卷”向多模态, 深度解析蚂蚁实践思路

蚂蚁集团资深算法专家 陈景东

以下是演讲实录:

这次分享中,我想和大家聊聊蚂蚁集团在多模态大模型上的一些实践。其实蚂蚁在这个方向上起步比较早,最初是在 2023 年年初就开始探索相关工作,但真正对外开源是在今年年初。开源之后,我们收到了很多来自社区的反馈,也因此有了不少新的思考,这些都对后续的迭代和交流起到了很大启发。作为一个在开源领域还算“新手”的团队,我们也特别希望能得到更多关注和建议,帮助我们把模型优化得更快、更好。

今天的分享主要分成四个部分:

  1. 百灵大模型的整体技术布局;
  2. 多模态技术趋势,以及蚂蚁在这一过程中的演进;
  3. 蚂蚁多模态模型的关键技术实践(Ming-Omni);
  4. 百灵大模型的演进方向。


对大模型领域的技术布局

首先,用一张图来概览一下蚂蚁集团希望构建的大模型版图:

大模型“卷”向多模态, 深度解析蚂蚁实践思路

底层是基础能力,主要涵盖算力、安全力和知识力三个维度。

  • 算力方面:其实整合大量异构计算系统并转化为实际生产力并不容易,尤其是算力卡型号繁多。除此之外,存储、网络、调度等系统软件层面也存在诸多挑战。以多模态模型为例,训练一个模型至少要处理 PB 级的文件和数据。如何让模型高效“消化”这些信息,就需要在算力、效率和效果上不断优化。为此,我们内部搭建了 AI 计算平台,并开源了训练引擎 ATorch(https://github.com/intelligent-machine-learning/atorch/)
  • 安全力方面:在产业应用中,安全是重中之重。我们日常面临的挑战包括:如何从多样化的数据中有效过滤负面内容、防止复杂数据被恶意注,以及在检测能力尚未完善时避免遗漏敏感信息。这些问题如果流入生产环境,潜在风险不容忽视。因此,从大模型研发伊始,安全就被列为重点投入方向。
  • 知识力方面:蚂蚁的应用场景具有高度专业化特征,涵盖金融、医疗和生活服务等领域,对健康、可信和责任提出严格要求。在这些专业领域里,模型必须深入掌握专业知识。为此,我们从数据标注到预处理进行了针对性优化,以确保模型在专业场景下具备可靠能力。

在打下坚实基础之后,蚂蚁集团逐步构建了大语言模型与多模态模型,这一系列品牌被命名为“百灵”。在“百灵”之上,我们进一步开发了医疗、民生、安全等应用方向,同时探索时空数据等特色场景。更高一层,则面向消费者、企业和专业服务。

谈到“百灵”模型的路线,我们的核心理念是以一个更方便社区研究者或开发者接入的方式来为大家提供服务。具体包括:

  1. 开源轻量模型:首先,蚂蚁开源了 Ling-lite-1.5/Ling-mini-2.0,激活参数分别为 3B、1B 甚至更小,强调质量与策略优先,使研究者和开发者能够在单台或消费级显卡上运行。
  2. 推理模型探索:在上述模型的基础上,我们又推出了 Ring-lite-1.5、Ring-mini-2.0,尝试在 MOE 架构和小模型条件下实现高效推理。
  3. 效率优化:在小规模基础上引入混合线性技术,由此开发了 Ring-lite-linear 模型,与社区协作持续迭代。
  4. 全模态扩展:今年五月,蚂蚁发布 Ming-lite-omni 全模态模型,将视觉、听觉和文本理解深度融合,并实现语音生成和图像生成,支持类似人类的自然交流。在开发过程中,我们也获得了许多新的技术启发。

多模态技术趋势及蚂蚁多模态演进

当前多模态领域呈现出两个非常有意思的发展轴,如下图所示:

  • 纵轴为单模态向多模态的演进历程。值得一提的是,这里的单模态主要指文本以外的模态,行业中最早的研究主要集中在图像和语音领域,很多研究成果也都源于这些方向。随着大模型的发展,研究者开始尝试将图像、音频、文本整合到同一个模型中,以实现更强的多模态能力。然而,这一尝试在起步之初就面临着不少挑战:不同的模态加入一个模型时,数据比例比较难控制;同时,不同模态在同一模型中的学习难度和收敛速度存在差异。因此,多模态研究工作起步较晚,难度显著高于单模态。
  • 横轴则是从理解向生成方向的演进。近年来,图像生成、视频生成、语音生成以及 3D 生成受到高度关注,相关行业、企业投入也在增加。但要将多模态内容整合用于生成,同样面临较高技术门槛,因此研究相对较少。这意味着多模态生成仍有很大空间和技术探索价值。
大模型“卷”向多模态, 深度解析蚂蚁实践思路

时下,随着去年年底至今年年初的技术迭代,行业出现了一个重要趋势——理解与生成的结合。语言的理解与生成天然是一体两面的工作,但在视觉和音频领域却并非如此。因此,研究者在这一领域开展了大量探索,推动技术突破。例如,在语音生成方面,通义千问的 Qwen-Omni、Baichuan-Omni(百川)、MiniCPM-O(面壁)等工作提供了重要参考;图像生成方面有 Janus-Pro(Deepseek)、Bagel(字节)、MetaQuery (Meta)等工作;视频领域也出现了 OmniVideo(上海 AI Lab)等类似探索。

除此之外,全球 AI 产业中也有一些关键工作致力于将多模态的理解与生成整合到同一模型中,这不仅可谓是集所有成果之大成,同时也集所有挑战之大成。这一方向上,Gemini、ChatGPT 提供了诸多指引和标杆性的功能应用。例如,OpenAI 今年年初发布的 GPT-4o 展示了图像理解与生成在单一模型或接口中实现的能力,呈现了过去难以见到的功能。它的指令遵循能力显著提升,能够在一个模型中自由处理复杂上下文和多模态指令。

蚂蚁 Inclusion AI 团队选择沿着这一路径前进,背后也带来了一个核心思考:从应用上看,未来多模态模型的入口应该具备什么功能。我们认为人的自然交互形式是“认知”(理解)与 “表达”(生成)的闭环,全模态的交互是联通数字世界与物理世界的关键入口。在通向通用人工智能的道路上,模型不仅要理解语音、图像和 3D 世界,也必须能够清晰表达这些内容,这是必须经过的路径。

在这一思路指导下,百灵多模态模型沿两条主线发展:

一、延续语言模型的 Scaling Law 基本范式,通过增加参数量、扩充数据和提升迭代效率,不断推动智能能力上限;

二、将多模态的理解与生成融合在一个模型中,这是更关键的方向。

大模型“卷”向多模态, 深度解析蚂蚁实践思路

今年四月底,蚂蚁发布的模型首次实现了图像理解与生成的统一,验证了该方向的技术潜力与发展空间。五月份,我们又推出了 Ming-Lite-omni-Preview 版本,进一步实现了语音和图像的生成与理解整合。在探索过程中,我们发现模型实现的难度和技术空间远超预期,但也带来了大量优化机会。随后,我们迅速推出了 Ming-Lite-omni 正式版及 1.5 版本。

未来,我们计划发布更大规模模型,展示更强能力。社区反馈显示,用户希望模型能在更多场景中部署和交互。因此,Ming-Lite-omni 1.5 在发布一周内就由社区贡献了一个可在消费级显卡上运行的 INT8 量化版本。我们希望这些模型将来能应用于智能眼镜、机器人或机器狗等场景,更好地与视觉传感器和语音系统互动,为用户带来有趣的应用体验。

蚂蚁多模态模型关键技术(Ming-Omni)

在蚂蚁多模态模型中,最关键的问题是:它有哪些技术特点,又如何实现那些令人惊喜的能力?在进入技术细节之前,我先展示一下它的实际效果。

为了直观对比,我们使用类似雷达图的方式,将各领域表现出色的模型放在一起对比,正如下图所示:

大模型“卷”向多模态, 深度解析蚂蚁实践思路

观察此前市场上的大部分模型,其通常专注于单一领域。例如,千问的 Qwen-Audio 主要用于语音理解和生成;CogVLM 聚焦于视觉理解;Meta 的 Emu2 是当时图像理解和生成方面的典型代表;Kimi Audio 在语音理解和表达上也做了大量工作。

这些研究为我们提供了重要的启示和借鉴。基于对社区和领域内大部分工作的研究,我们开发了 Ming-Omni,它能够将理解与生成融合在同一个模型中,并整合音频、图像和文本。因此,在功能和模态支持上,它基本可以与 GPT-4o 和 Gemini 对齐。当然,模型仍存在一些改进空间。

不过,令人惊喜的是,这款多模态大模型在多任务中对上下文的理解和指令遵循能力显著增强,具体来看:

  • 在音视频交互能力方面,由于模型既能理解又能生成图像与音频,音视频交互成为其自然能力之一,这也为未来更深入的数字世界交互奠定了基础。
  • 在传统任务上,如图像理解任务(Grounding、VQA、OCR),雷达图清晰显示了模型在编辑任务上的潜力。实际上,视觉领域对编辑任务的重视还不够,但从效果来看,这确实是一个值得深入探索的方向。
  • 在理解与生成过程中,我们发现了一个非常有趣的任务——图像编辑。例如,找到“带哨子的男人”或“拿着雨伞的女人”,模型必须理解语义关系,并准确分割目标。虽然其他模型可能理解语义,但要精确分割出目标边界,则需要更高的语义理解和定位能力。为此,我们采用了一个方法:将图像分割任务转化为图像编辑任务,通过生成方式实现对目标的理解。这也是我们在大模型研发中取得的重要突破。此外,在保持身份(ID preservation)方面,我们发现仅靠增加数据并不能完全解决问题。例如,在“把头转向左侧”的场景中,我们希望保持背景一致,同时保持人像身份稳定。这需要模型具备精确分割、定位能力和高度语义理解。在这方面,Ming-Omni 展现了显著优势。

接下来我们不妨看看 Ming-Omni 模型的整体结构。通过下图可以看出,它的架构稍显复杂,但实际上其设计路径非常清晰:

大模型“卷”向多模态, 深度解析蚂蚁实践思路

  • 中间部分是“Ling”语言模型,我们在基础语言模型上进行了一系列扩展,针对多模态任务设计了路由(router),将图像、文本和语音的处理路径扩展出来,使不同模态既能协同工作,也能独立完成相关任务;
  • 下方是图像和语音输入所使用的编码器;
  • 上方是语音输出部分,类似于 Kimi 和 Qwen-Audio 的解码器;
  • 右侧是图像解码器,相比 Meta 的 Emu2,我们在细节上扩展了不同尺度的自由生成能力,这也是保证图像一致性的重要手段。

总体而言,我们这一代的解决方案主要有两个目标:第一,将不同模态融合到一个模型中;第二,将理解和生成能力统一在一个模型中。

当然,理想方案背后仍存在大量技术挑战。第一个问题是如何将收敛速度不同的任务有效融合。在这里,我们主要是将任务分为不同阶段,并通过全模态联合训练动态调优权重,即调整数据和参数的配比,使不同损失(loss)下的更新趋向一致,从而实现同步收敛。

第二个挑战是如何在模型中同时实现图像的理解与生成。过去的生成模型通常没有这样多模态接入的能力,但今年年初已有大量工作采用了类似方案。我们的主要创新之一,是在不同尺度上实现自由生成与一致性。同时我们发现,与 Emu2 不同的是,随着 tokens 数量增加或参数量提升,模型效果持续提升,这是一个有趣的现象。

回顾整个蚂蚁大模型的实现过程,可以总结为三点:

  1. 统一架构:我们的模型支持多模态输入与多模态输出。
  2. 任务融合:通过精准的 loss 调权和数据比例控制,将不同任务在不同阶段有效结合。
  3. 理解与生成的统一:这种统一并非天然直接,但若未来实现得更彻底,将可能推动整个多模态技术的突破。根据我们的技术论文,预计最晚在今年年底,我们能够看到更优雅地实现不同模态理解与生成统一的方案。

百灵大模型:效率与智能的进阶之路

以上分享了许多关于多模态的技术细节,但从宏观层面来看,“百灵大模型”的目标,是希望为社区提供一个在效率与智能之间更加均衡的模型方案,让更多用户能够更容易上手。在这一过程中,我们设定了几个核心目标:

一、成为“扫码级”AI。就像人们一提到支付宝,首先想到的就是扫码一样,我们希望新一代 AI 也能达到类似扫码的直观、自然、随手可用的体验。想要实现这类 AI,其背后对应的是对极致性能、智能表现以及长尾需求的满足。而实现这一点的关键,在于如何通过全模态来支撑这些长尾需求。这里有一个非常值得注意的现象:模态自由组合带来的“涌现”能力。在以往的训练数据中,大多数都是“文生图”,并没有出现过“语音生成图像”的指令或样本。但当模型接收到语音输入时,依然能够自然地生成图像。这正体现了模态组合所带来的潜在能力。因此,在构建大模型时,我们始终希望它具备更强的涌现能力,从而能够在更广泛、更灵活的长尾场景中发挥作用。

二、以“MOE 炼丹”。过去这一方向存在不少争论,但今天已成为共识。MOE(Mixture of Experts)能够以更小的参数规模、更低的推理代价,实现更高水平的智能表现。因此,MOE 将是未来我们持续坚持和演进的重要路径。

三、线性 Attention。在模型优化中,提速不是终点,精度始终是底线。我们希望通过混合线性的方法,突破平方级 Attention 的限制,在速度与性能之间找到更好的平衡。这不仅能带来更强的长上下文处理能力,也能突破交互和常规处理中的局限。

四、多模态的融合。这里所说的融合,并不是模态之间简单的缝合和堆砌,而是更深层次的统一。首先,需要让不同模态能够共享表征,并投影到同一个空间中,让语言与视觉能够在统一的空间里进行交互与转换,从而打破模态之间的壁垒。其次,要同时关注理解与生成——图像如何理解与生成、语音如何理解与生成。在这种横纵两个维度的融合过程中,能够探索出一种简洁而优雅的新一代方案,推动真正的多模态融合。这种融合,也正是能力涌现的基础。例如,语音生成图像的功能,正是通过这种自由组合被自然激发出来。可以说,自然世界中的自由组合,在多模态模型中同样能够看到其影子。

五、AI 优化。我们的目标,是让模型更具“人样”。标准的设定决定了技术的上限,但真正的衡量,还是取决于用户体验。未来,我们会将安全性放在首位,其次是体验,再进一步是美感。我们希望模型不仅能带来功能上的支持,更能带来人与技术之间更自然、更美好的交互体验。

想要了解关于 Ming-lite-omni 1.5 和 Ming-lite-uni 的更多内容,也可以参考以下资料:

  • Huggin Face: https://huggingface.co/inclusionAI/Ming-Lite-Omni-1.5
  • ModelScope: https://www.modelscope.cn/models/inclusionAI/Ming-Lite-Omni-1.5
  • Github:https://github.com/inclusionAI/Ming
  • Technical Report:https://arxiv.org/abs/2506.09344
  • Project Page:https://inclusionai.github.io/blog/ming-lite-omni-1_5/
  • ModelScope:https://modelscope.cn/models/inclusionAI/Ming-Lite-Uni
  • Huggin Face:https://huggingface.co/inclusionAI/Ming-Lite-Uni
  • Github:https://github.com/inclusionAI/Ming/tree/main/Ming-unify
  • Technical Report:https://arxiv.org/abs/2505.02471

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap