“张总上周还在会议室跟我们掰扯 PaaS 平台升级的细节,怎么突然就没了?”9 月 25 日晚,浙江品控科技的员工刷到公司公众号的讣告时,手里的检测报...
2025-10-02 1
上周QCon大会上,焱融科技CTO张文涛聊的那事儿,说实话,戳中了不少AI圈儿的痛处,现在搞深度学习,数据就是地基,算力就是发动机。可训练模型就像熬粥,得反复加料搅拌,这时候计算和存储之间的“递勺子”速度就特别关键。
你看Meta的数据,两年内存储容量翻了一倍,吞吐能力涨到原来的近四倍,咱国内有个客户更夸张,2022年到2024年,数据量每年猛增60T,要知道2020年到2022年每年才涨20T。这数据爆炸式增长,直接导致一个问题:IO速度跟不上,GPU算力再强也得“干瞪眼”。就像你开车加了98号油,结果遇上堵车,油门踩到底也跑不起来。
AI训练这事儿,从数据采集到推理,每个环节都跟存储较劲,数据处理的时候要兼容各种协议,训练的时候又得应付海量小文件,推理时还得盯着KVCache的延迟。最头疼的是海量小文件,打个比方,存1亿个小文件就像往抽屉里塞1亿张纸条,找起来麻烦不说,抽屉还容易卡住,这其实是元数据性能在拖后腿。
张文涛他们团队想的招儿挺有意思,别人做存储先想着压成本,他们反其道而行之,先把性能做到极致,再琢磨怎么省钱。就像买车先追求百公里加速,再考虑油耗。
他们家的YRCloudFile有个核心设计:文件创建的时候就把存储位置“钉死”,这样访问数据时不用反复查元数据,就像你记熟了回家的路,闭着眼都能走。再配上Multi-Channel技术,把网卡带宽聚合起来,单节点吞吐能力直接翻倍。还有NUMA亲和性优化,避免内存访问“绕远路”,AMD平台上这招能把带宽提升近四成。
对付海量小文件,YRCloudFile用了DentryHash架构,把目录和文件均匀分布在各个元数据节点上。更绝的是弱化POSIX语义,比如打开文件这事,传统做法像走繁琐的审批流程,他们改成“刷脸快速通道”,性能一下子提升10倍以上。跟CephFS比起来,同样存10亿文件,CephFS的性能衰减得厉害,YRCloudFile却稳如泰山。
省钱这块儿,他们玩起了“智能分层”,把常用的数据放高速存储层,不常用的扔到对象存储冷层。有个生物医药企业用了这招,把90天没碰的数据挪到冷层,成本直接降了三成,而且需要用的时候,10分钟就能把数据“搬”回热层,不耽误GPU干活。
YRCloudFile在AI训练和推理场景里,表现都挺“抗打”,训练时支持GPUDirectStorage,减少数据搬运环节,搭配400Gb的高速网络,有客户用3个节点就撑起500台GPU服务器,IO等待时间从2小时压缩到20分钟。
推理阶段更有意思,他们优化了KVCache,用存储来“偷”算力,举个例子,长上下文场景下,用了YRCloudFile后,延迟降了13倍。高并发时上下文越长优势越明显,当上下文到10240时,吞吐量比原生方案高了近一半。这就好比图书馆管理员把常用的书都放在手边,你找书的速度自然快。
还有个DataInsight功能,简直是知识库的“搜索引擎”,某金融机构用它管理百亿条行业法规,秒级就能检索到结果,数据流转效率提升80%。现在这存储方案能支持200多个全闪节点,带宽接近10TBps,TCP客户端能接10万个,不管你是自动驾驶还是生物医药,数据量再大也能hold住。
最后说说未来规划,他们打算上EC纠删码技术,还用QLCSSD提升存储密度,以后单TB成本预计再降三成。再把工作负载扔给DPU处理,给GPU服务器“减负”。你看,这存储方案不仅解决了当下的痛点,还在为未来的大模型提前铺路,毕竟在AI这行,存储跟得上,算力才能真正“放飞自我”。
相关文章
“张总上周还在会议室跟我们掰扯 PaaS 平台升级的细节,怎么突然就没了?”9 月 25 日晚,浙江品控科技的员工刷到公司公众号的讣告时,手里的检测报...
2025-10-02 1
IT之家 10 月 2 日消息,据 CNBC 报道,微软首席技术官凯文・斯科特(Kevin Scott)于当地时间周三表示,微软未来计划在其数据中心中...
2025-10-02 1
上周QCon大会上,焱融科技CTO张文涛聊的那事儿,说实话,戳中了不少AI圈儿的痛处,现在搞深度学习,数据就是地基,算力就是发动机。可训练模型就像熬粥...
2025-10-02 0
9月30日晚,记者搜索发现,网红户晨风全网账号被彻底封禁,且无法通过搜索找到账号,账号主页已无法查看信息。此前,该博主在微博、抖音、哔哩哔哩等社交平台...
2025-10-02 1
9月30日消息,中国联通官方App首页已开启eSIM业务预约通道,在线预约人数已超1.1万人。根据预约页面提示,中国联通App和自有营业厅支持办理eS...
2025-10-02 2
9月26-28日,首届“泰中合作博览会”在曼谷IMPACT会展中心盛大启幕。作为中泰建交50周年的重要系列纪念活动之一,本届博览会吸引120余家两国领...
2025-10-02 0
摩根大通大幅上调阿里目标价,分析师称通过将云业务的AI Token收入转化为电商平台的抽成率优势,阿里正构建一个前所未有的商业飞轮。过去三个月阿里巴巴...
2025-10-02 1
信息来源:https://officechai.com/ai/grokipedia/埃隆·马斯克再次将矛头指向了现有的科技巨头,这次的目标是全球最大的...
2025-10-02 0
发表评论