21世纪经济报说念记者骆轶琪 郑州报说念
从2022年末ChatGPT发布于今,AI大模子的模子参数及本事架构捏续演进,由此对智能算力的需求也在飙升,相关基础设施产业链都在面对新的变化。
近日举行的“2024智算期间数据中心本事引颈与变革论坛”上,中国信通院云大所数据中心部总工程师郭亮在演讲中指出,算力中心发展资格了三个阶段:在2000-2010年间,数据中心由三大通讯运营商为主导;2010-2020年间,跟着数据中心需要更多专科本事才略加捏,驱动有第三方数据中心奇迹商加入;到面前的智算中心期间,数据中心主体驱动呈现百花皆放的发展态势,但同期也面对寻找正确的发展旅途命题。
这不同于此前以CPU为主导的发缓期间,在GPU为主导期间,包括底层芯片、基础设施、汇集架构、专揽生态等方面发生了较大变化,产业链厂商亟需密切诱导,探路新本事阶梯下的演进标的。
秦淮数据CTO张炳华对21世纪经济报说念记者示意,面前国内第三方数据中心奇迹商主要有两种运营模式:超大领域定制模式和传统通用零卖模式。跟着AI大模子快速发展,对数据中心的需求走向更大领域AI集群,超大领域定制模式的上风突显。对此,秦淮数据升级发布“智算中心全栈处罚有筹办2.0”,并诱导生态伙伴,共同启动相关行业圭臬立项。
业内觉得,奉陪国内智能规划生态的才略演进,并在此经过中推动产业走向圭臬化,将有望更好霸占AI海浪下的新发展机遇。
中国信息通讯联系院发布的《算力中心冷板式液冷发展联系施展(2024年)》(下称“施展”)闪现,终止2023年底,我国在用算力奇迹机架数已达到810万圭臬机架,算力总领域达230EFLOPS。大型以上算力中神思架数目占算力中心总机架领域比重逐年高潮,部分超大型算力中心的平均单机柜功率已达20kW。由此可见,高功率密度、高算力的大型、超大型算力中心将是畴昔竖立的要点。
这也意味着面对GPU为中枢的智算中心基础设施生态需要快速应变。
郭亮指出,面前智算中心的生态发展以英伟达CUDA生态独步天下,在早期以CPU为中枢的X86期间,天然主导厂商数目也少,但芯片和专揽、基础设施之间莫得过强的耦合关系;到了AI期间,从底层芯片到汇集、框架、专揽、基础设施,互相之间耦合度极高,由此导致一家厂商占据了80%~90%的极高份额。因此,行业企业若何找到我方的定位、围绕算力基础设施作念更多始创性职责成为热切话题。
从基础设施、汇集、规划、运营多个方面带来契机同期也有挑战:若何将汇集与规划会通是面前被高度关怀的话题;基础设檀越要包括电和冷,近期微软、甲骨文接踵通知要重启关闭多年的核电站,便是基于电力紧俏而作念出应酬,冷即散热花样从风冷转向液冷;运营主要指面前计谋层面推动的算力调遣平台竖立。
本事和生态面对较多转向、需要产业链协同处罚问题比较多,其中一个要点就包括散热花样。
张炳华分析,在通用规划发展时期,CPU芯片功耗从2010年到2019近十年仅增长了一倍傍边,单机柜功率从几千瓦提高到十千瓦;但在智能规划发展时期,GPU卡的功耗捏续翻倍,GPU奇迹器单机柜功率密度从蓝本的近十千瓦傍边,提高到面前的一百三十多千瓦,提高了十几倍。这让功率密度、铺张电量等方面大幅提高,由此带来新的散热命题。
“在咱们看来,数据中心在相通要求下,若何保证芯片、奇迹器和汇集安全褂讪运行,压根问题是处罚供电、制冷、遭受故障后冗余等方面问题。”他续称,这就需要从基础设施系统架构、联想有筹办,到居品化、预制化等标的推动,由此进行圭臬化落地,也更容易罢了领域效益。
前述会议上,秦淮数据推出“磐石”模块数据中心框架,包括高弹性建筑模子、“玄铁”极简供电架构、“玄冰”极致冷却架构和“玄智”智能运维系统,以维持高密及超高密智算场景。
其中,高弹性建筑模子的模块架构可天真竖立、分期预制,同期兼容CPU和GPU不同算力场景;“玄铁”架构将传统配电全链路的10余个门径斥地会通成变电站、柴发、中压、低压、电板、IT六大机电模块,可分阶段部署和弹性扩容;“玄冰”架构包括风冷、液冷、风液兼容等模块,以处罚8kW-150kW区间通盘功率密度的机柜冷却辛苦。
张炳华对21世纪经济报说念记者示意,选择通用有筹办来竖立机房的基础设施,从建筑封顶到精良参加运营期间会有3-6个月的准备期,用来安设供电、冷却等系统。面前收受液冷有筹办需要更长的竖立周期、更长的奇迹器研发周期,为了尽快上线大模子,得到比竞对更高的算力,客户会优先采纳概况更快部署的风冷有筹办。是以在风冷向液冷有筹办转化的初期,鉴于风冷散热有筹办熟悉且通用,以及企业对收受新本事阶梯可能带来的风险存在担忧,大部分客户穷乏积极主动采纳液冷有筹办的能源。
“面前颇受关怀的冷板液冷有筹办也面对如水质、冷却液闪现、微通说念拥挤致使腐蚀等问题,一朝联想有筹办隔离理、竖立质地莫得保证、运维不休不当等,对业务运行来说会面对更高的故障风险。但风冷散热才略已达极限,无法顺应畴昔高密度机柜的冷却需求,因此,当下阶段液冷小领域的尝试和考证一定要作念,这是畴昔通向大领域使用场景的必经阶段。”他续称。
需求驱动下,面前液冷本事还是在快速浸透。调研机构IDC统计闪现,中国液冷奇迹器阛阓在2024上半年延续保捏快速增长,阛阓领域达12.6亿好意思元,同比增长98.3%,其中液冷处罚有筹办仍以冷板式为主,占95%以上。左证调研机构IDC的统计和预测,2023-2028年,中国液冷奇迹器阛阓年复合增长率将达到47.6%,2028年阛阓领域将达到102亿好意思元。
张炳华对21世纪经济报说念记者分析,从传统风冷向液冷转化经过中,面对的实质上并不是单一买卖逻辑辛苦,更多源于面前液冷散热生态不够熟悉。
举例奇迹器在液体中运行时,遇到一些液体会产生化学响应,这在当年行业并莫得积存满盈的应酬警告,需要较万古期来对主要液体材料的兼容性和褂讪性进行考证。但探究到GPU资本偏高,且并不对浸没式液冷有筹办答应质保,令厂商尝试浸没式液冷时有更多记挂。
这与新本事在发展早期面对的圭臬化、兼容性不及相关。但产业界还是在驱动处罚这一近况。
前述《施展》分析,面前我国针对液冷本事的联系仍处于起步阶段,液冷奇迹器的联想、运维、安防等方面的行业圭臬较为空白,业内尚未变成调解的本事圭臬,增高了产业发展壁垒。成绩于计谋维持与调换,液冷产业圭臬治安化迎来了快速发展。相等是冷板式液冷本事圭臬制定慢慢朝向常态化、治安化迈进。
面前阛阓上的液冷有筹办主要包括三类:冷板式液冷、浸没式液冷、喷淋式液冷。张炳华觉得,在多个液冷散热有筹办中,冷板液冷相对更熟悉、对现存奇迹器生态的更正更少,因此业界面前更侧重于推动冷板液冷有筹办完善。
“要是要收受浸没式液冷有筹办,对奇迹器汇集、电源等生态都要有较大更正。在液冷有筹办发展初期会不太具备领域效益。但冷板液冷有筹办不错同期适配GPU、CPU等主规划单位的才略和生态。比较之下,从风冷有筹办改为冷板液冷有筹办的难度更小。”他进一步指出。
IDC中国奇迹器阛阓联系司理辛一觉得,从群众范围看,液冷有筹办面前在外洋的专揽尚抗击常,只在一些头部CSP(云奇迹商)的集群节点中有所专揽。英伟达最新的Blackwell平台瞻望在本年末或2025岁首在群众范围多数出货,新平台本身功耗较高,天然对液冷有筹办的专揽起到促进作用。
“要是中国在此时机下,不管是奇迹器居品联想、制造、销售和选藏方面,如故液冷数据中心基础设施竖立等领域积存丰富警告,必将在通盘这个词液冷阛阓中推崇热切作用。同期,还需要产业相关组织、机构、企业及合营伙伴,在液冷有筹办现实专揽经过中精诚合营,共同制定合适液冷发展的行业或组织圭臬,加速促进产学研的高效会通。”他续称。
前述论坛上,“冷板液冷系统全生命周期质地戒指治安系列行业圭臬”启动立项,行家组同期成立。该系列圭臬将由中国信通院和秦淮数据牵头,诱导数十家行业头部企业共同编制。
张炳华告诉记者,面前国际上关于液冷散热本事天然莫得变成好意思满调解的圭臬,但并不料味着对液冷有筹办莫得本事要求。在这些要求渐渐完善后,才会变成圭臬定式。
此前对数据中心制定圭臬主要由互联网厂商牵头,但在智能规划发展需求下,奇迹器硬盘布局进行了从头联想,更正了既有生态模式。因此,面前需要产业链厂商共同参与完善圭臬制定,左证各清闲产业链中的位置协同开发,对阛阓发展也更具有调换作用。
“咱们在制定圭臬带领治安时,既模仿行业的基本原则,也参考了ODCC(绽开数据中心委员会)的本事要求等方面探究。”他续称,秦淮数据但愿通过参与ODCC、拉通更多产业链生态等花样,让更多元的行业用户共同参与完善早期圭臬界说经过。
集邦商榷觉得,跟着群众政府及监管机构关于ESG(环境、社会和公司治理)意志渐渐提高下,将加速带动散热有筹办由气冷转液冷容貌发展,预期液冷有筹办浸透率逐年攀升,这将促使电源供应厂商、散热业者及系统整合厂等竞相参加AI液冷阛阓,变成新的产业竞争与合营态势。
更多内容请下载21财经APP