公众号记得加星标⭐️,第一时间看推送不会错过。
来源 : 内容 编译自微软 。
人工智能确实很热门。
数据中心用于运行最新人工智能突破的芯片产生的热量比前几代硅片要多得多。任何经历过手机或笔记本电脑过热的人都知道,电子产品不喜欢过热。面对日益增长的人工智能需求和更新的芯片设计,目前的冷却技术将在短短几年内限制其发展。
为了解决这一问题,微软成功测试了一种新型冷却系统,其散热效果比目前常用的先进冷却技术——冷板——高出三倍。该系统采用微流体技术,将液体冷却剂直接引入硅片内部——也就是热量的来源。硅片背面直接蚀刻出微小通道,形成凹槽,使冷却液能够直接流到芯片上,从而更高效地散热。该团队还利用人工智能识别芯片上独特的热信号,并更精确地引导冷却剂流动。
研究人员表示,微流体技术可以提高下一代人工智能芯片的效率并增强其可持续性。目前,数据中心运行的大多数GPU都采用冷板进行冷却,这些冷板与热源之间有多层隔离,从而限制了其散热量。
随着新一代人工智能芯片的性能越来越强大,它们产生的热量也越来越多。微软云运营与创新高级技术项目经理 Sashi Majety 表示:“如果五年后你仍然严重依赖传统的冷却板技术,那你就陷入困境了。”
今天,微软宣布成功开发出一种芯片内微流体冷却系统,可以有效冷却运行模拟 Teams 会议核心服务的服务器。
微软云运营与创新部门副总裁兼首席技术官朱迪·普里斯特 (Judy Priest) 表示:“微流体技术将允许更高功率密度的设计,从而实现更多客户关心的功能,并在更小的空间内提供更好的性能。”
“但我们需要证明这项技术和设计是有效的,然后我接下来要做的就是测试可靠性,”普里斯特说。
该公司的实验室规模测试表明,微流体技术的散热性能比冷板高出三倍,具体取决于工作负载和配置。微流体技术还能将 GPU 内部硅片的最高温升降低 65%,但具体降低幅度会因芯片类型而异。该团队预计,这项先进的冷却技术还能提高电源使用效率(衡量数据中心能源效率的关键指标),并降低运营成本。
利用人工智能模仿自然
微流体技术并非新概念,但如何将其付诸实践一直是整个行业的挑战。“在开发微流体技术这样的技术时,系统思维至关重要。你需要了解芯片、冷却剂、服务器和数据中心之间的系统交互,才能充分利用它。”微软云运营与创新系统技术总监 Husam Alissa 说道。
仅仅设计出合适的凹槽就很难。微通道的尺寸与人类头发丝大小相近,这意味着不容有任何差错。作为原型设计工作的一部分,微软与瑞士初创公司Corintis合作,利用人工智能技术优化仿生设计,使其比垂直上下的通道更有效地冷却芯片的热点。他们也对垂直上下的通道进行了测试。这种仿生设计类似于树叶或蝴蝶翅膀上的叶脉——事实证明,大自然善于找到最有效的路径来分配所需的热量。
微流体技术需要的不仅仅是创新的通道设计,它还是一项复杂的工程挑战。
它需要确保通道足够深,以便循环足够的冷却液而不会堵塞,但又不能太深,以免削弱硅材料,导致其破裂。仅在过去一年,该团队就进行了四次设计迭代。
微流体还需要为芯片设计防漏封装,找到最佳冷却剂配方,测试不同的蚀刻方法,并开发将蚀刻添加到芯片制造中的分步流程。
这一突破只是微软投资和创新基础设施以满足人工智能服务和功能需求的一个例子。例如,该公司计划在本季度投入超过300亿美元的资本支出。
这些投资包括开发自己的Cobalt和Maia芯片系列,专门用于更高效地运行微软和客户的工作负载。例如,自从微软部署Cobalt 100芯片以来,微软及其客户一直受益于其节能的计算能力、可扩展性和性能。
然而,芯片只是整个系统的一部分,因为硅片在数据中心内由电路板、机架和服务器组成的复杂系统中运行。微软的系统方法意味着对整个系统的每个部分进行精细调整,使其协同工作,最大限度地提高性能和效率。其中一个重要部分是开发微流体等下一代冷却技术。
下一步,微软将继续研究如何将微流体冷却技术融入其第一方芯片的未来几代产品中。该公司表示,还将继续与制造和硅片合作伙伴合作,将微流体技术应用于其数据中心的生产。
“硬件是我们服务的基础,”Microsoft 365 核心管理技术研究员 Jim Kleewein 表示。“我们都对这个基础抱有既得利益——它的可靠性、成本效益、速度、行为的一致性以及可持续性等等。微流体技术可以改善这些方面:成本、可靠性、速度、行为的一致性以及可持续性。”
微流体技术的优势
例如,一个简单的 Microsoft Teams 通话就体现了微流体冷却技术的优势。Teams 并非一项单一服务,而是一套由大约 300 项无缝协作的服务组成的系统。一项服务负责将客户连接到会议,另一项服务负责主持会议,另一项服务负责存储聊天记录,还有一项服务负责合并音频流,以便在多人通话时确保每个人都能听到,还有一项服务负责录音,还有一项服务负责转录。
“每项服务都有不同的特性,对服务器的不同部分施加的压力也不同,”Kleewein 说,“服务器的利用率越高,产生的热量就越多,这是有道理的。”
例如,大多数 Teams 通话通常在整点或半点开始。通话控制器在这些时间点的前后五分钟左右会非常繁忙,其余时间则不太繁忙。有两种方法可以应对需求高峰:安装大量昂贵的额外容量(这些容量大部分时间都不会使用),或者让服务器更加高效地运行,这被称为超频。由于超频会使芯片温度更高,因此不能过度超频,否则会损坏芯片。
“每当工作负载激增时,我们都希望能够超频。微流体技术可以让我们超频,而不必担心芯片熔化,因为它是一种更高效的芯片冷却器,”Kleewein 说。“它在成本和可靠性方面都有优势。而且速度也更快,因为我们可以超频。”
冷却系统如何融入全局
微流体技术是微软一项更宏大计划的一部分,该计划旨在推进下一代冷却技术,并优化云堆栈的各个部分。传统上,数据中心采用大型风扇吹风进行冷却,但液体的导热效率远高于空气。
微软已经在其数据中心部署了一种液体冷却方式——冷板。冷板位于芯片顶部,冷液体流入,在板内的通道中循环,吸收下方芯片的热量,而热液体则流出进行冷却。
芯片采用多层材料封装,有助于将热量从热点区域散发出去,并保护芯片。但这些材料也像毯子一样,会锁住热量并阻挡冷气,从而限制冷却板的性能。未来适用于人工智能的芯片预计将性能更强大,并且温度会过高,无法通过冷却板进行冷却。
通过微流体通道直接冷却芯片效率更高——不仅能散热,还能保证整个系统的正常运行。由于省去了所有绝缘层,冷却剂直接接触高温硅片,冷却剂无需达到足够低的温度即可发挥作用。这样可以节省冷却剂所需的能量,同时比现有的冷却板效果更好。微流体技术还能更高效地利用废热。
微软还致力于通过软件和其他方法优化数据中心的运营。“如果微流体冷却能够使用更少的能耗来冷却数据中心,那么对附近社区的电网压力也会更小,”微软技术研究员、Azure 计算效率部门副总裁 Ricardo Bianchini 表示。
热量也限制了数据中心的设计。数据中心对计算的一大优势是服务器之间的物理距离很近。距离会减慢服务器之间的通信速度,这被称为延迟。但如今的服务器只能紧密地挤在一起,否则热量会成为问题。微流体技术可以让数据中心提高服务器的密度。这意味着数据中心无需额外的建筑,就能提升计算能力。
芯片创新的未来
微流体技术还有可能为全新的芯片架构(例如3D芯片)打开大门。正如将服务器紧密连接可以降低延迟一样,堆叠芯片可以进一步降低延迟。由于会产生热量,这种3D架构的构建颇具挑战性。
然而,微流体技术将冷却剂带到了非常靠近功耗点的位置,因此“我们可能会让液体流过芯片”,就像3D设计那样,Bianchini说道。这将需要一种不同的微流体设计,在堆叠的芯片之间使用圆柱形针脚,有点像多层停车场的柱子,液体在它们周围流动。
普里斯特说:“任何时候,只要我们能够更高效地做事并简化流程,这就为新的创新提供了机会,我们可以研究新的芯片架构。”
消除热量的限制还可以允许数据中心机架中安装更多芯片或在芯片上安装更多核心,从而提高速度并允许更小但更强大的数据中心。
微软表示,通过展示微流体等新型冷却技术的工作原理,微软希望为整个行业更高效、更可持续的下一代芯片铺平道路。
“我们希望微流控技术成为人人都在做的事情,而不仅仅是我们自己的事情,”Kleewein说道。“采用它的人越多越好,技术发展得越快,对我们、对我们的客户、对每个人来说都会越好。”
参考链接
https://news.microsoft.com/source/features/innovation/microfluidics-liquid-cooling-ai-chips/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
END
今天是《半导体行业观察》为您分享的第4166期内容,欢迎关注。
★
★
★
★
★
★
★
★
加星标⭐️第一时间看推送,小号防走丢

求分享

求推荐

发表评论