自ChatGPT火爆以来,AI人才的招聘就只能用“火爆”来形容。多位猎头描述,“几乎每隔一段时间,就能接到新的AI相关headcount需求,有些大厂...
2025-09-28 1
2022年的时候,朴朴数据团队突然收到云厂商TAM团队的消息,月成本涨得有点离谱,说实话,那时候他们重心全在数据中台建设上,谁也没精力深究云资源的计费规则。
那些规则细得像绕线团,要捋清楚得专门花时间对接,之前成本全靠TAM团队月会反馈,这下突然爆涨,才赶紧启动了第一波成本治理。
最开始优化,他们先盯着最花钱的几个地方:计算、存储和网络流量。
计算这块主要靠EMR,这东西就像数据平台的“大主机”,成本拆成两部分,一部分是集群管理费,另一部分是EC2实例的费用。本来想直接砍实例数量,但后来发现不行,业务还得正常跑,只能在细节上抠。
比如把低于8x规格的小机型全下线,这些机型看着便宜,积少成多也是笔不小的开销;还有按业务忙闲调整扩缩容,比如晚上业务淡的时候就少开点资源,白天忙的时候再加上,不至于浪费。
另外,他们还把INTEL机型换成了AMD的,老实讲,同等性能下AMD确实便宜些,不少企业这么试过;按需付费的实例也少用,多买长期合约或者用竞价实例补溢出需求,竞价实例价格低很多,就是偶尔会断,但临时任务用着没问题。
存储这边也有坑,之前朴朴用S3存数据,不管冷热全塞标准层,就像家里衣柜堆满旧衣服,看着方便,其实好多数据放着没人碰。
无奈之下,他们开始清理无效数据,关了用不上的版本控制,还把没传完的分段上传给清了,最后居然清出了PB级的数据,月成本一下少了小十万。
还有EBS卷,之前集群扩大后,低规格实例多了,EBS用量跟着涨,后来参照计算层的办法优化,也省了不少钱。
网络流量的问题更隐蔽,跨可用区传数据要额外花钱,之前没注意,直到成本异常才发现。他们在A/B区都建了EMR集群,数据来回传就产生了费用。
后来调整了任务分布,尽量让计算任务靠近数据源,又优化了S3的访问方式,这部分开销才降下来。
第一波优化有效果,但团队也明白,总靠临时清理不行,得有能主动盯成本的办法,这时候CUR报告和自定义标签派上了用场。
CUR就像详细的“花钱清单”,每笔开销都列得很细,再加上他们自己设计的标签,比如标清楚哪个区域、哪个应用、哪个集群用的资源,就像给每笔开销贴了“姓名牌”,谁用的、用在哪都一目了然。
他们把这些数据建模后接入自研的BI平台,随时能查成本分布。
后来搞S3智能分层,就是靠这些数据找的方向,哪些数据常用、哪些是冷数据,分清楚后转存到便宜的存储层,一年下来省了上百万。
说实话,这招真的关键,之前成本分析像摸黑走路,有了这些工具,相当于开了灯。另外,他们还把S3的inventory和访问日志结合起来用。
inventory能导出数据的元信息,比如每个文件多大、最后修改时间,访问日志能看到谁访问过这些数据。
本来单独看这两个数据用处不大,后来用Spark把它们整合到一起,连数据的访问热度都能算出来,哪些数据没人碰、该清理,一眼就知道,治理效率高了不少。
第一阶段折腾了一个季度,成本降了不少,业务还没受影响,这给后面的治理打了好基础。
但团队也清楚,业务还在涨,数据量只会越来越大,光靠第一阶段的办法不够,得从平台能力和架构上改。
朴朴从2019年就开始用EMR,最早用的版本是Spark2.4.5,后来Hudi社区更新很快,新功能越来越多,旧版本不仅性能跟不上,还费资源,升级就成了必须做的事。
但升级这事儿不敢瞎来,本来想一次更到最新版,后来发现风险太大,平台上跑着好多业务任务,万一升级出问题,影响就大了。
他们只能分步骤来:先评估新版本的特性和风险,再把升级目标拆给每个人,接着做细粒度测试,还要验证和上层应用的兼容性,最后制定切换计划和回滚方案,分批次切换。
前后花了半年多,才从EMR5更到EMR7,核心组件版本也跟着更了。
升级后效果很明显,大部分离线任务的计算效率提了不少,成本自然也降了。
Flink这边也做了大改动,之前Flink任务跑在YARN上,时间长了问题越来越多,资源隔离差,任务之间总抢资源;集群扩缩容慢,业务忙的时候跟不上;大状态任务还容易把节点搞崩。
2024年初,他们决定把Flink迁到K8s上,选了FKO方案。
说实话,选方案的时候也纠结过,对比了好几种,最后选FKO是因为它能自动管理任务生命周期,比如任务故障了能自动重启,还能按需求扩缩容,不用手动写复杂的配置。
迁移花了近两个季度,过程还算顺利,偶尔出点小问题,都及时解决了。
迁完之后,通用流计算集群的月成本又降了一截,稳定性也比以前好很多。
后来他们还优化了FlinkHudi,比如把多个表的入湖任务合并,避免一个任务出问题影响所有表;又用上了Hudi的BucketIndex,解决了任务重启时卡在bootstrap阶段的问题,之前个别大表重启要等半小时,现在快多了。
到了第三阶段,朴朴又搞了体系化治理,他们建了成本数仓,把存储、计算的成本都量化,谁用了多少资源、该摊多少成本都算清楚;还做了个数据治理平台,分平台层和用户层协作,平台层自动生成待治理的任务,用户层负责执行,大家对着OKR干活,不会各干各的。
另外还有治理健康分,给每个团队的治理情况打分,低分的要整改,这样就把治理变成了常态,不是一阵风。
现在回头看,朴朴这三年降本,不是靠瞎砍资源,而是在成本、稳定性、易用性之间找平衡。
好多公司降本就想着少花钱,结果业务受影响,朴朴这个思路我觉得挺对的,先发现问题,再靠技术优化,最后建体系把治理固定下来。
未来业务还会涨,成本治理肯定也得跟着变,但只要这个框架在,应该不会出大问题。
相关文章
自ChatGPT火爆以来,AI人才的招聘就只能用“火爆”来形容。多位猎头描述,“几乎每隔一段时间,就能接到新的AI相关headcount需求,有些大厂...
2025-09-28 1
2022年的时候,朴朴数据团队突然收到云厂商TAM团队的消息,月成本涨得有点离谱,说实话,那时候他们重心全在数据中台建设上,谁也没精力深究云资源的计费...
2025-09-28 1
活动现场。栖轩摄9月28日,脑机接口创新技术赋能产业应用会议在南京栖霞召开。会上,江苏脑机接口研究院启用,脑机接口技术创新和产业服务联盟同步成立。据了...
2025-09-28 2
9月27日的广州,蓝天白云,绿草茵茵,一场以“绿美广东‘林’距离 自然剧场科普集”为主题的2025年广东省龙眼洞林场(下称“林场”)科普嘉年华活动,在...
2025-09-28 3
国庆中秋八天长假马上到啦!无论是约朋友出门吃饭,还是在家庭群里抢红包,要是微信收不到消息回复,那就太扫兴了!我上个月刚帮爸妈把手机更到鸿蒙5,他们也偶...
2025-09-28 2
【CNMO科技消息】9月28日,ColorOS设计总监陈希发文对ColorOS 16系统中的录音和全新的AI摘要功能,进行了详细介绍。陈希表示,Col...
2025-09-28 2
与其说这是一个科幻预言,不如说是一张已经摆上桌面的财务报表。当马斯克宣称,特斯拉未来那令人咋舌的8.5万亿美元市值中,将有八成来自一个叫“擎天柱”的人...
2025-09-28 2
9月26日这天,谷歌DeepMind扔出了个让科技圈眼前一亮的东西,GeminiRobotics1.5系列机器人模型。不用扯那些高深的技术名词,咱们就...
2025-09-28 2
发表评论