今年中秋国庆,身边买酒的人都在说一个怪事,线下烟酒店里冷冷清清,老板们守着货架发呆。郑州那个有名的百荣酒水批发市场,往年节前挤得挪不开脚,今年好多商户...
2025-10-12 0
计算机世界的天堑,由来已久,在机箱之内,是总线的天下。
PCIe、NVLink这些技术如同城市里的高速地铁,设备间共享统一的物理地址空间,通信延迟以纳秒计,带宽高得惊人。
但这类“地铁系统”有个致命缺陷:铁轨铺不了太远,一个机箱就是它的全世界。
在机箱之外,是网络的领土,以太网、InfiniBand这些技术好比国家铁路网,能把成千上万的节点连成一片,扩展性无与伦比。
代价却是复杂的协议栈、额外的转发开销,延迟一下子跳到微秒甚至毫秒级。
这道“内外有别”的鸿沟,在很长一段时间里相安无事。
直到深度学习的Scaling Law如幽灵般降临,研究者们发现,只要不断堆大模型规模、数据量和计算量,模型性能就会稳定提升。
这个发现彻底改写了游戏规则。
曾经傲视群雄的8卡服务器,在千亿参数的大模型面前,瞬间显得力不从心。
单机性能触顶后,成千上万的处理器必须协同工作,而它们之间的通信效率,直接决定了整个系统的生死。
此时,一个近乎疯狂的想法浮出水面:
我们能不能推倒总线与网络之间的这堵墙?创造一种既拥有总线级的极致性能,又具备网络级的超大规模扩展能力的新型互联?
这就是Unified Bus(UB)与生俱来的使命。
它不满足于对现有协议修修补补,而是要彻底重构,目标是构建真正的“数据中心级计算机”。
让访问远程服务器内存像访问本地内存一样自然,让上万个处理器协同工作如同一块芯片般高效。
传统的计算机架构里,CPU是毋庸置疑的“主人”,其他设备都是“仆人”。
所有I/O操作都需要CPU发起和控制,这就是主从架构。
在CPU性能一骑绝尘的年代,这套体系运转良好。
但在异构计算时代,它越来越力不从心。
性能瓶颈首当其冲,所有I/O都要CPU介入,随着设备数量激增,CPU自己先成了瓶颈。
延迟也居高不下,数据要经过多层软件栈,带来额外的开销和拷贝。
更麻烦的是扩展性,当大量GPU、NPU都需要与CPU通信时,设备间的“横向”数据交换效率极其低下。
在这个新世界里,所有设备都是平等的,每个设备都被视为一块内存。
任何设备都可以通过Load/Store这样的内存语义,像访问本地内存一样直接访问其他设备的内存,完全不需要CPU的干预。
数据路径就此绕过操作系统,实现零拷贝和微秒级超低延迟。
这种平等带来的好处立竿见影:不同服务器的内存可以组成共享内存池,计算密集型服务器上空闲的内存,能被内存密集型服务器高效利用。
各种异构的计算资源、存储资源都能池化,根据需求动态组合,资源利用率大幅提升,不必要的数据搬运显著减少。
但要实现这个愿景,UB必须在两个层面上完成统一。
首先是物理层面的统一。
传统上,我们在“超节点”(如单台服务器)内用总线追求性能,在超节点间用网络追求规模,这是两套完全不同的技术栈。
UB承认底层物理实现的差异,机箱内可能是高速电信号背板,机箱间可能是长距离光纤,但它通过一层统一的抽象,向应用屏蔽了这些差异。
其次是语义层面的统一。
UB的核心思想有点像神雕侠侣中杨过和小龙女的交集:小龙女在崖壁上刻字是单边“写”操作,不需要杨过在场;十六年后杨过读字是单边“读”操作,也不需要小龙女在场。
这种不依赖双方同时在场的通信模式,就是“单边语义”。
与之相对的是“双边语义”,需要收发双方配合,就像打电话必须两边都有人。
单边语义适合传输大块数据,如同把大文件上传到网盘;双边语义适合发送通知,好比发邮件告诉对方文件已上传。
UB的创新在于将两者融合。
通过“带立即数”的操作,它把数据传输和轻量通知合并成单个硬件原语。
就像网盘在上传完成后自动发送带备注的通知邮件,既简化了应用逻辑,又避免了乱序问题。
在UB之前,RDMA是高性能网络的标杆。
但它有个致命伤:通信前必须先建立“连接”,即队列对(QP)。
每个QP都包含完整的状态机,处理包序、重传、确认等复杂逻辑。
这套设计在小规模集群中表现优异,但当面对上万台服务器、每台运行成百上千进程的超大规模数据中心时,就撞上了“可扩展性的天花板”。
网卡的片上内存极其宝贵,很快就会被海量QP状态耗尽。
应用程序和操作系统管理这些连接状态的软件开销也大得惊人。
社区后来推出的XRC、SRQ等技术,本质都是在原有模型上打补丁,没有解决根本问题。
UB的解决方案是彻底的范式革命,只要通信还需要应用显式创建和管理“连接”状态,可扩展性的天花板就永远存在。
于是,Jetty抽象应运而生。
工程师们特意创造了“Jetty”(码头)这个新词,而不是沿用网络领域的传统术语。
因为旧词汇承载了太多旧范式的思维惯性。
新词则以全新世界观思考问题:不再是点对点的“私人航道”,而是多对多的“公共码头”。
想象一个拥有多个泊位的公共码头。
每个请求就像一艘船,需要先申请一个泊位。
这个泊位在请求的整个生命周期内都被占用,直到操作完成并被处理后才释放。
JFS(发送码头)和JFC(完成码头)的格子一一对应,构成了CPU与网卡间的硬件流控机制。
这种设计解决了最棘手的背压问题,防止硬件处理速度超过软件处理能力导致事件丢失。
更重要的是,它把N×N的“私有航道”管理问题,简化成了N个“公共码头”的管理问题,从根本上破解了可扩展性难题。
当然,“公共码头”也要面对现实挑战:队头阻塞、公平性、隔离性。
Jetty的巧妙之处在于把选择权交还给应用,当需要时,应用可以创建多个Jetty。
大请求的“慢船”和小请求的“快艇”可以分用不同码头。
关键应用可以拥有“私人码头”保证服务质量。
多租户服务可以为每个租户建立专属码头。
这种灵活性体现了UB的核心哲学:提供极简的默认选项,同时允许应用根据需求在“完全共享”和“完全隔离”间自由权衡。
顺序,是分布式系统中保证一致性的核心,但也常常是性能的枷锁。
传统的TCP提供了可靠的字节流抽象,保证数据不丢不重不乱。
但当我们在一个连接中传递多个独立业务消息时,严格的字节流序反而成了性能杀手。
如果第一个消息的数据包丢失,整个连接都会被阻塞,后面所有消息都要等待。
现代网络协议普遍转向消息语义。
UB更进一步,引入了分级的“弱事务序”原语。
事务执行序分为多个等级:
NO(无顺序)性能最高,事务完全独立。
RO(宽松顺序)保证来自同一发起者的事务链不乱序,但不阻塞无关事务。
SO(强顺序)提供严格的串行化。
Fence(屏障)则在不同事务批次间建立清晰边界。
更有趣的是,UB将执行序与完成序解耦。
事务可以按序执行但乱序完成。
比如写操作在持久化到日志后即可通知完成,无需等待数据落盘。
这种灵活性的哲学基础令人深思:既然现代AI算法的核心(如随机梯度下降)本身就是概率性的,能容忍甚至利用噪声,那么通信带来的微小乱序,何尝不是另一种可被算法消化的噪声?
在内存访问方面,UB提供了Load/Store和Read/Write两种范式,代表了两种不同的世界观。
Load/Store是同步内存访问,与处理器指令集深度融合。
执行一条Load/Store指令,CPU的网络模块直接将其转化为网络报文,远端完成内存读写后返回结果。
现代CPU流水线能很好隐藏部分延迟,特别适合对延迟敏感的小数据块访问。
Read/Write则是异步模型,软件构造工作请求,通过驱动发给网卡,再轮询完成队列。
虽然过程更繁琐,但能灵活指定访问数据量,大数据传输吞吐量高,对硬件要求也更低。
两种模式各有优劣,UB选择同时提供,让开发者按需选择。
当多个节点可以缓存同一段远程内存时,缓存一致性就成为必答题。
UB采用了务实的设计哲学:不追求理想化的强一致性,而是提供多种一致性模型。
多读单写是最实用的选择,任何时候,一段数据可被多个节点以只读方式缓存,但最多只能被一个节点写入。
写入前,所有只读缓存副本必须失效。
这种模型在读多写少的场景下性能很高,是复杂度和性能的绝佳平衡。
而这一切设计的价值,在大模型推理的KV Cache场景中得到了完美印证。
LLM生成文本时需要缓存海量中间状态(KV Cache),大小动辄数十GB,远超单张GPU显存极限。
更关键的是,这些数据在每个token生成过程中都必须被高频访问,对延迟和带宽极度敏感。
UB内存池的设想突然找到了用武之地:通过全局共享内存池,不同请求的相同前缀只需计算一次KV Cache,后续请求直接复用,大幅降低首token延迟,节省大量计算资源。
从更深层次看,KV Cache的成功印证了计算机系统对AI领域的核心贡献。
Transformer的注意力机制本质上是一种新颖的、可微分的“键值存储”。
与传统系统里精确、离散的键值匹配不同,注意力机制进行的是模糊、连续的“软”匹配,一次性按相关性程度“读取”数据库中所有内容。
结语:从白板草图到世界第三极
回顾UB的诞生历程,最初的梦想是打破总线与网络的界限,创造统一的计算范式。
这个愿景曾被许多人视为天方夜谭。单机8卡还不够用吗?跨节点通信需要这么极致的性能吗?
直到GPT-3横空出世,以无可辩驳的性能验证了Scaling Law的威力,UB才获得广泛认同。
从十余人小团队到上千人参与的大项目,从白板草图到规模化量产,曾经的愿景终于落地成真。
放眼全球,能支撑超大规模AI训练的硬件生态屈指可数。
NVIDIA通过“GPU+DPU+CPU”的三芯战略构建了DGX SuperPOD;Google的TPU与软件生态深度绑定自成一体。
而现在,随着UB超节点的成熟,世界迎来了第三个全栈式AI计算生态系统。
这条破壁之路证明:真正的技术革命,始于少数人对世界“应该是什么样”的重新想象,并最终成为整个行业对“世界是什么样”的全新共识。
在算力决定AI进展的时代,UB不仅是一项技术成果,更是通向未来计算范式的重要里程碑。
相关文章
今年中秋国庆,身边买酒的人都在说一个怪事,线下烟酒店里冷冷清清,老板们守着货架发呆。郑州那个有名的百荣酒水批发市场,往年节前挤得挪不开脚,今年好多商户...
2025-10-12 0
2020 年,智能手机刚刚进入 5G 普及阶段,手机的硬件与软件都迎来了一次迭代浪潮——新形态的需求对操作系统的设计与交互都提出了诸多新的问题,Ori...
2025-10-12 0
双十一临近,正是选购空调的好时机。经过多方比较,我发现美的这三款热门空调各具特色,都特别适合家庭使用。美的酷省电:这款新一级能效空调最吸引我的是其智能...
2025-10-12 0
文/小甄,头条、公众号、百家号等平台同步发文,发现转发和AI洗稿将举报到底众所周知,现如今电动自行车的新国标已经实施了,但各大品牌的新标车亮相的并不多...
2025-10-12 0
计算机世界的天堑,由来已久,在机箱之内,是总线的天下。PCIe、NVLink这些技术如同城市里的高速地铁,设备间共享统一的物理地址空间,通信延迟以纳秒...
2025-10-12 0
大宝苏北麻将辅牌器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下载使用。 手机打牌可以一键让你轻松成为“必赢”...
2025-10-12 11
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-10-12 9
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-10-12 12
发表评论