作家:毛烁
本周一,英伟达发布了多款全新器具和框架,用以增强及时流体能源学模拟、狡计化学、天气预告以及药物成立等任务的启动速率,而依托的恰是现时全球最宠爱的流行词:AI。
此番公告强调了英伟达的合手续努力,即不仅要使用其GPU加快以往永远启动在CPU之上的高性能狡计(HPC)责任负载,同期要减少机器学习本事在各平台上完成这些责任负载所毒害的时候和算力。
笔据英伟达数据中心居品营销支配Dion Harris的先容,即使是一丝微辞数学元素的引入,也能给这些责任负载带来雄伟的性能擢升。
在狡计化学方面,英伟达暗意与未经AI加快的纯GPU责任负载启动情势比拟,使用其AI加快的Alchemi容器或NIM大概将1600万种化学结构的狡计速率擢升100倍。
有些一又友可能不太老练,简而言之,NIM是英伟达的推理微管事,属于包含结束预期接头所需要的一谈框架、库及依赖项的容器镜像。在推出后不久,NIM就马上成为英伟达打包其软件居品的首选形势。
本届SC24大会上公布的其他NIM,还包括用于CorrDiff和FourCastNet天气模子的Earth-2容器以及用于卵白质模拟的DiffDock 2.0。
在另一个示例中,Harris先容了英伟达的狡计机援救工程kOmniverse蓝图,其使用多套AI模子来结束对流体能源学狡计等任务的及时模拟。
Harris声称,“传统来讲,针对一辆汽车的模拟不时需要数周、以致几个月的时候。”
凭借雄伟的服从擢升以及极低的精度赔本,英伟达仍是劝服高性能狡计软件巨头Ansys将这些框架集成到其流体模拟平台当中。
Harris暗意,“Altair、Cadence、西门子等公司正在探索若何将这些蓝图整合到我方的管事和居品当中,从而裁汰想象周期。”
固然,在高性能狡计中使用混杂精度及AI来处治体量更大、复杂度更高的问题,其实也不算是什么簇新事。商量征象模子的商量东谈主员早就在崇尚这类标准并获取了不少出路光明的扫尾。但是,让更平庸的高性能狡计社区转向这种念念维形势,无疑更恰当英伟达业务的利益定位。
AI本事的升起正为英伟达的数据中心业务带来浩繁收入,而这种趋势又被反应在该公司的想象决策当中。Blackwell等于典型案例,在双精度狡计方面,其最新一代GPU与Superchips只可说是是非各半。一方面,FP64矢量性能擢升至45万亿次;但在矩阵数学方面,该芯片与H100和H200比拟反而略有倒退。
这也导致英伟达相干于AMD处于竞争症结。AMD不仅为那些停止转型的顽派高性能狡计用例制造CPU,而况其GPU和APU也本心提供更高的性能。MI325X不错说是与英伟达Blackwell最具可比性的GPU型号,其在双精度下领有81万亿悦铃 矢量与163万亿次矩阵狡计性能。
在另一方面,英伟达赫然是通过断送精度的形势相易更极致的FLOPS浮点运算性能,其顶配Blackwell GPU在FP4下可提供20千万亿次算力。
由此可见,英伟达领有一套明确的高性能计统统谋:与其在小从市集上跟AMD发奋争夺,不如劝服软件供应商在恰当要求下,将微辞矩阵数学和限制的双精度性能相合并不时扫尾更佳。
这对英伟达来说也并不是一条新路。自从2007年头次公布CUDA以来,该公司对高性能狡计社区的孝敬不仅体面前超等狡计规模,同期也对企业和云狡计规模GPU的崛起齐产生了积极影响。
在高性能狡计规模被基于CPU的架构所主导的时间,要干与该规模必须构建新的框架并诊治软件以在GPU上启动。
从各个方面来看,英伟达并莫得毁灭其传统计谋,仅仅在软件的具体欺诈方面迸发出了更多创意,而况在关于机器学习的欺诈也依旧具有实效。一言以蔽之,英伟达现阶段的念念路仍然是沿用现存框架并尽一切可能加快狡计。
最新的案例等于cuPyNumeric,属于无处不在的NumPy库的“替代决策”。
Harris暗意,“NumPy是Python成立东谈主员进行数学模子狡计的基础库,面前被进步500万科学行业成立者使用,仅上个月的下载量就达到3亿次。”但他也同期承认,尽管NumPy普及度极高,但在多GPU集群中的库推广方面却遭受到不小的挑战。
英伟达声称,cuPyNumeric大概将NumPy门径自动推广至限制更大的集群,且无需借助底层散播式狡计库。
英伟达本周还推广了对其量子系统CUDA-Q平台中加快动态模拟的撑合手。Harris暗意,“依托GPU对这些全面量子比特模拟进行加快,商量东谈主员不错测试新的量子处理器想象决策。以往对50种想象迭代进行模拟可能需要一年傍边的时候,但面前全球不错在不到一个小时内傲气完成。”
谷歌恰是首批将CUDA-Q欺诈于英伟达EOS超等狡计机以启动大限制量子模拟的公司之一。