首页 AI科技文章正文

从被动到体系化:朴朴云上数据平台降本30%路径

AI科技 2025年09月28日 17:33 1 aa

2022年的时候,朴朴数据团队突然收到云厂商TAM团队的消息,月成本涨得有点离谱,说实话,那时候他们重心全在数据中台建设上,谁也没精力深究云资源的计费规则。

那些规则细得像绕线团,要捋清楚得专门花时间对接,之前成本全靠TAM团队月会反馈,这下突然爆涨,才赶紧启动了第一波成本治理。

从被动到体系化:朴朴云上数据平台降本30%路径

最开始优化,他们先盯着最花钱的几个地方:计算、存储和网络流量。

计算这块主要靠EMR,这东西就像数据平台的“大主机”,成本拆成两部分,一部分是集群管理费,另一部分是EC2实例的费用。本来想直接砍实例数量,但后来发现不行,业务还得正常跑,只能在细节上抠。

比如把低于8x规格的小机型全下线,这些机型看着便宜,积少成多也是笔不小的开销;还有按业务忙闲调整扩缩容,比如晚上业务淡的时候就少开点资源,白天忙的时候再加上,不至于浪费。

从被动到体系化:朴朴云上数据平台降本30%路径

另外,他们还把INTEL机型换成了AMD的,老实讲,同等性能下AMD确实便宜些,不少企业这么试过;按需付费的实例也少用,多买长期合约或者用竞价实例补溢出需求,竞价实例价格低很多,就是偶尔会断,但临时任务用着没问题。

存储这边也有坑,之前朴朴用S3存数据,不管冷热全塞标准层,就像家里衣柜堆满旧衣服,看着方便,其实好多数据放着没人碰。

无奈之下,他们开始清理无效数据,关了用不上的版本控制,还把没传完的分段上传给清了,最后居然清出了PB级的数据,月成本一下少了小十万。

从被动到体系化:朴朴云上数据平台降本30%路径

还有EBS卷,之前集群扩大后,低规格实例多了,EBS用量跟着涨,后来参照计算层的办法优化,也省了不少钱。

网络流量的问题更隐蔽,跨可用区传数据要额外花钱,之前没注意,直到成本异常才发现。他们在A/B区都建了EMR集群,数据来回传就产生了费用。

后来调整了任务分布,尽量让计算任务靠近数据源,又优化了S3的访问方式,这部分开销才降下来。

从被动到体系化:朴朴云上数据平台降本30%路径

从“被动等反馈”到“主动盯成本”,CUR+标签帮了大忙

第一波优化有效果,但团队也明白,总靠临时清理不行,得有能主动盯成本的办法,这时候CUR报告和自定义标签派上了用场。

CUR就像详细的“花钱清单”,每笔开销都列得很细,再加上他们自己设计的标签,比如标清楚哪个区域、哪个应用、哪个集群用的资源,就像给每笔开销贴了“姓名牌”,谁用的、用在哪都一目了然。

他们把这些数据建模后接入自研的BI平台,随时能查成本分布。

从被动到体系化:朴朴云上数据平台降本30%路径

后来搞S3智能分层,就是靠这些数据找的方向,哪些数据常用、哪些是冷数据,分清楚后转存到便宜的存储层,一年下来省了上百万。

说实话,这招真的关键,之前成本分析像摸黑走路,有了这些工具,相当于开了灯。另外,他们还把S3的inventory和访问日志结合起来用。

inventory能导出数据的元信息,比如每个文件多大、最后修改时间,访问日志能看到谁访问过这些数据。

从被动到体系化:朴朴云上数据平台降本30%路径

本来单独看这两个数据用处不大,后来用Spark把它们整合到一起,连数据的访问热度都能算出来,哪些数据没人碰、该清理,一眼就知道,治理效率高了不少。

第一阶段折腾了一个季度,成本降了不少,业务还没受影响,这给后面的治理打了好基础。

但团队也清楚,业务还在涨,数据量只会越来越大,光靠第一阶段的办法不够,得从平台能力和架构上改。

从被动到体系化:朴朴云上数据平台降本30%路径

架构大改造:EMR升级+Flink上K8s,降本又稳业务

朴朴从2019年就开始用EMR,最早用的版本是Spark2.4.5,后来Hudi社区更新很快,新功能越来越多,旧版本不仅性能跟不上,还费资源,升级就成了必须做的事。

但升级这事儿不敢瞎来,本来想一次更到最新版,后来发现风险太大,平台上跑着好多业务任务,万一升级出问题,影响就大了。

从被动到体系化:朴朴云上数据平台降本30%路径

他们只能分步骤来:先评估新版本的特性和风险,再把升级目标拆给每个人,接着做细粒度测试,还要验证和上层应用的兼容性,最后制定切换计划和回滚方案,分批次切换。

前后花了半年多,才从EMR5更到EMR7,核心组件版本也跟着更了。

升级后效果很明显,大部分离线任务的计算效率提了不少,成本自然也降了。

从被动到体系化:朴朴云上数据平台降本30%路径

Flink这边也做了大改动,之前Flink任务跑在YARN上,时间长了问题越来越多,资源隔离差,任务之间总抢资源;集群扩缩容慢,业务忙的时候跟不上;大状态任务还容易把节点搞崩。

2024年初,他们决定把Flink迁到K8s上,选了FKO方案。

说实话,选方案的时候也纠结过,对比了好几种,最后选FKO是因为它能自动管理任务生命周期,比如任务故障了能自动重启,还能按需求扩缩容,不用手动写复杂的配置。

从被动到体系化:朴朴云上数据平台降本30%路径

迁移花了近两个季度,过程还算顺利,偶尔出点小问题,都及时解决了。

迁完之后,通用流计算集群的月成本又降了一截,稳定性也比以前好很多。

后来他们还优化了FlinkHudi,比如把多个表的入湖任务合并,避免一个任务出问题影响所有表;又用上了Hudi的BucketIndex,解决了任务重启时卡在bootstrap阶段的问题,之前个别大表重启要等半小时,现在快多了。

从被动到体系化:朴朴云上数据平台降本30%路径

到了第三阶段,朴朴又搞了体系化治理,他们建了成本数仓,把存储、计算的成本都量化,谁用了多少资源、该摊多少成本都算清楚;还做了个数据治理平台,分平台层和用户层协作,平台层自动生成待治理的任务,用户层负责执行,大家对着OKR干活,不会各干各的。

另外还有治理健康分,给每个团队的治理情况打分,低分的要整改,这样就把治理变成了常态,不是一阵风。

从被动到体系化:朴朴云上数据平台降本30%路径

现在回头看,朴朴这三年降本,不是靠瞎砍资源,而是在成本、稳定性、易用性之间找平衡。

好多公司降本就想着少花钱,结果业务受影响,朴朴这个思路我觉得挺对的,先发现问题,再靠技术优化,最后建体系把治理固定下来。

未来业务还会涨,成本治理肯定也得跟着变,但只要这个框架在,应该不会出大问题。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap