首页 AI科技文章正文

阿里云GPU用量砍82%!中国AI用软件破局,普通人将迎免费时代?

AI科技 2025年10月20日 08:43 1 aa



阿里云GPU用量砍82%!中国AI用软件破局,普通人将迎免费时代?

10月16日,韩国首尔举办的操作系统顶会SOSP 2025上传来炸裂消息:阿里云与北京大学联合研发的Aegaeon算力调度系统,将服务数十个大模型所需的英伟达H20 GPU数量从1192台锐减至213台,直接实现82%的硬件减量。在英伟达宣布退出中国高端芯片市场的背景下,这套“让单GPU顶7个用”的技术,不仅破解了算力荒,更拉开了中国AI从“硬依赖”转向“软突围”的序幕,最终将让每个人都享受到AI普惠的红利。

一、GPU的“闲忙不均”:被浪费的70%算力

“以前我们平台就像‘大饭店’,每个大模型都要占一间‘包厢’,哪怕只有零星客人,也得留着服务员候场。”阿里云百炼平台工程师李然的比喻,点出了行业通病。作为承载200多款大模型的AI marketplace,阿里云曾面临尴尬现实:17.7%的GPU资源仅处理1.35%的请求,大量硬件在“空等”中浪费。

这并非个例。字节跳动火山引擎的监测显示,企业级大模型调用存在极强的“潮汐效应”——电商大促时,智能客服模型瞬间满负荷,而数据分析模型无人问津;深夜时段,多数行业模型请求量不足峰值的5%。传统调度系统只能给每个模型分配固定GPU,就像给每个家庭配专属发电机,效率低下却成本高昂。

算力浪费直接推高了AI使用成本。2023年时,调用一次700亿参数大模型的API接口,每千Tokens收费高达0.5元,中小企业根本不敢大规模应用。即便到2024年,行业平均算力利用率仍不足30%,相当于十座发电厂只开三座,这种低效在芯片管制背景下更显致命——英伟达H20 GPU虽为中国市场定制,却因安全审查陷僵局,国产GPU产能尚未完全释放,每一块硬件都成了“稀缺品”。

二、Aegaeon的魔术:Token级调度让GPU“连轴转”

Aegaeon的突破,在于把GPU从“专属包厢”改造成“共享工位”,核心秘诀是全球首创的Token级自动调度技术。

大模型生成文字时,是逐字(Token)计算的,传统系统在处理一个请求时,GPU会被“独占”直到整段文字生成。而Aegaeon能在每个Token生成的间隙“插空”,让GPU切换服务其他模型。就像外卖骑手送单时,在取餐等待的几十秒里接下一个顺路订单,全程无空跑。阿里云团队通过精准的执行时间预测算法,把模型切换延迟砍了97%,用户完全感知不到卡顿。

这套系统还解决了“显存打架”的老难题。不同大模型的参数、缓存数据差异巨大,切换时加载数据的耗时曾是主要障碍。Aegaeon通过显存精细化管理和KV缓存同步优化,让多模型共享硬件资源,单块GPU最多可同时支撑7个不同参数规模的模型(最大达720亿参数),而行业主流方案最多只能支撑2-3个。

三个月的实测数据印证了其价值:阿里云百炼平台的有效吞吐量提升1.5-9倍,请求处理能力翻了2倍多,仅这一项优化就为平台每年节省数亿元硬件投入。更关键的是,这种软件优化不挑硬件,无论是英伟达GPU还是华为昇腾、寒武纪思元等国产芯片,都能通过Aegaeon提升利用率。

三、中国算力突围战:不止阿里云的“软功夫”

Aegaeon的亮相,是中国科技企业集体攻克算力效率的缩影。在芯片自主化尚未完全实现的当下,“软件提效”成了破局的关键抓手,各大玩家已形成差异化布局。

字节跳动的火山引擎走了“硬件适配+算法优化”的路线。其推出的“方舟”调度系统虽未实现Token级切换,但通过模型量化压缩与硬件特性深度匹配,在昇腾910B芯片上实现了比通用方案高40%的吞吐量。2024年底,火山引擎将企业级模型定价降至0.0003元/千Tokens,一元钱能处理284张720P图片,背后正是算力效率的提升。

百度则押注“开源+优化”双轮驱动。文心大模型4.5系列开源后,配套的“飞桨极速推理引擎”同步开放,支持自动模型剪枝和混合精度计算,中小企业用普通服务器就能部署大模型,硬件成本直降60%。百度创始人李彦宏直言:“现在大模型推理成本每年能降90%以上,软件优化的贡献占了七成。”

华为的思路更侧重“软硬一体”。昇腾芯片搭配自研的MindSpore框架,通过“张量并行+流水线并行”技术,在处理千亿参数模型时,算力利用率比通用方案高30%。华为云ModelArts平台已接入超1000款模型,依托这套系统,其AI推理服务价格较2023年下降75%。

对比国际同行,中国企业的优化更贴合实际需求。美国META的LLaMA Factory侧重模型训练阶段的效率提升,而中国厂商直击“推理服务”这一高频场景;谷歌的TPU调度系统依赖专属硬件,中国方案则兼容多品牌芯片,更适应国内“混合算力池”的现状。这种实用性导向,让中国在AI效率竞赛中实现了“换道超车”。

四、对普通人:AI免费用、服务快、选择多

算力效率的革命,最终会变成普通人能摸到的实惠。随着Aegaeon这类技术的普及,AI服务正从“贵族专属”走向“全民普惠”,三大变化已在发生。

AI服务进入“免费时代”。算力成本是大模型定价的核心。阿里云2024年已连续三轮降价,通义千问降幅超80%;百度更是直接宣布文心一言主力模型免费。按照Aegaeon的优化幅度,未来企业级API调用成本有望降至“每百万Tokens5分钱”,个人用户使用AI写作、设计、翻译等工具基本可以零成本,就像现在用搜索引擎一样随意。

小众需求终于能被满足。过去,专业领域的小模型因使用率低、部署成本高,很难向公众开放。现在单GPU能支撑多个小众模型,古籍修复AI、方言翻译模型、专业法律问答系统等“冷门工具”纷纷上线。浙江的非遗传承人已通过阿里云百炼平台的专属模型,实现刺绣图案的AI辅助设计,这类个性化服务以前根本找不到商用方案。

AI响应速度再翻倍。Token级调度不仅省硬件,更提升了响应效率。实测显示,用Aegaeon服务的Qwen-72B模型,生成千字文章的延迟从2.3秒降至0.8秒,接近人类打字速度。对普通人来说,AI写报告、剪视频的等待时间大幅缩短,甚至实时语音翻译、AI直播助手等对延迟敏感的服务,体验也会更流畅。

五、对行业:算力不再是“天花板”,中小企迎爆发期

Aegaeon带来的82%算力节省,正在重构AI行业的竞争逻辑,让“算力壁垒”成为历史。

中小企业迎来“创新平等权”。以前,训练一个大模型需要数千万美元的硬件投入,只有巨头玩得起。现在,通过阿里云百炼这类平台,初创公司只需按调用量付费,无需自建算力中心。北京一家做教育AI的创业公司透露,采用Aegaeon优化后的服务,每月算力成本从12万元降至2.1万元,终于能把资金投入到算法创新上。2025年上半年,国内AI初创企业数量同比增长67%,创历史新高。

AI与实体经济融合加速。低算力成本让传统行业敢用AI了。东莞的电子厂用优化后的视觉检测模型,每台设备的AI部署成本从8万元降至1.5万元,缺陷检测准确率却提升到99.2%;农业领域,基于轻量化模型的病虫害识别系统,在千元级边缘设备上就能运行,河南的种粮大户用手机拍照片就能获得施肥建议,这类应用正快速普及。

国产芯片生态迎来“喘息窗口”。Aegaeon等软件技术能让现有国产GPU发挥更大价值,缓解了“芯片性能不够”的压力。华为昇腾与阿里云合作后,通过软件优化弥补了硬件性能差距,在推理服务场景的性价比反超部分进口芯片。2025年第三季度,国产GPU在AI推理市场的份额从18%升至32%,软件优化功不可没。

六、未来挑战:效率与安全的平衡术

不过,算力调度的极致优化也带来新课题。Token级切换虽然高效,但多模型共享资源可能引发数据安全风险——如何防止模型间的信息泄露,是行业必须解决的问题。阿里云已在Aegaeon中加入硬件级隔离模块,确保不同用户的请求互不干扰,但这会让算力利用率损失约5%,如何在安全与效率间找平衡,仍需技术突破。

另一个挑战是“动态适配性”。随着固态大模型、多模态模型的兴起,模型结构越来越复杂,Token级调度的算法需要持续迭代。目前Aegaeon对视频生成类模型的优化效果仅68%,低于文本模型的82%,这也是下一步的攻关重点。

更关键的是标准化问题。不同厂商的调度系统互不兼容,企业切换平台时会面临适配成本。工信部已牵头成立“AI算力调度标准工作组”,阿里云、华为、字节跳动等企业均参与其中,预计2026年将出台统一的接口规范,让算力优化技术实现跨平台复用。

从阿里云Aegaeon的82%算力节省,到百度、字节的价格战,中国AI正在用“软件智慧”破解“硬件困境”。这场变革不仅让我们离“免费AI”更近一步,更证明了在技术封锁下,通过自主创新同样能走出一条高质量发展之路。当算力不再稀缺,AI真正的价值——赋能每一个人、激活每一个行业——才会彻底释放。或许用不了多久,我们谈论AI时,关心的将不再是“算力够不够”,而是“创意多不多”。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap