“万卡集群”被业界视作是这一轮大模子竞赛的“入场券”勾引 英文,当今,“十万卡集群”成为科技巨头们竞逐的新高地。
“很快就会有更多的10万卡集群出现。”9月25日,百度集团履行副总裁沈抖在百度智云大会上这样说。
他提到,曩昔一年仍是感受到客户的模子历练需求猛增,需要的集群边界越来越大,与此同期,大家对模子推理资本的捏续下落的预期也越来越高。这些齐对GPU料理的通晓性和有用性建议了更高条目。今日,百度升级AI异构筹画平台百舸4.0,具备了10万卡集群部署和料理才调。
事实上,这一轮生成式东谈主工智能爆发的背后,一定进程上归功于“鼎力出古迹”,业界通过禁止增多算力堆叠,遣散大模子性能的飞跃。万卡集群也因此被业界视作是参加AI中枢圈的“标配”。但当今,即即是万卡也不可够彻底怡悦需求。不仅百度,越来越多的行业巨头正在布局十万卡集群,以追求更高的筹画搁置和大模子性能。
不久前的云栖大会上,阿里云展示了围绕 AI 期间的新基建,其中单网罗集群已拓展至十万卡级别,正在从芯片、就业器、网罗、存储到散热、供电、数据中心等方方面面,再行打造面向改日的 AI 先进基础体式。
9月初时马斯克在酬酢媒体上秘书,旗下AI初创公司xAI 打造的超等 AI 历练集群 Colossus 仍是负责上线,搭建用时 122 天,共有 10 万块英伟达 H100 GPU 加快卡,而在改日几个月将再翻倍增多10万块GPU,其中5万为更先进的 H200。
更早之前,Meta首席履行官马克·扎克伯格曾在年头秘书筹谋购买35万块英伟达H100 GPU,将Meta的算力扩展到终点于60万块英伟达H100 GPU的水平。OpenAI莫得浮现过确实的GPU使用量,但业界测度接近十万块。百川智能CEO王小川曾对第一财经记者浮现,我方此前在硅谷造访时,OpenAI正在想象能够将1000万块GPU连在通盘的筹画模子,“这种方针像登月通常。”
“今天一家通用大模子公司淌若莫得万卡,就不好说我方是大模子公司了。” 香港科技大学校董会主席沈向洋更在不久前戏弄:“谈卡伤情感,没卡没情感”。而摩尔线程CEO张建中也在收受记者采访时暗意,在AI主战场,万卡是最低标配,因为大模子竞争横暴,裁汰历练时期是企业的基本诉求。
算力是鼓舞大模子发展的中枢能源。但从千卡到万卡再到十万卡,不是算力的浅易堆叠。在科技巨头竞逐AI算力极限背后,沈向洋指出,从2012年开动勾引 英文,每年大模子需要的算力齐在增长,一开动几年是六七倍的增长,最近几年通晓下来,每年是四倍傍边的增长。而跟着大模子的参数越来越大,大模子对算力的条目仍是由线性增出息化到正常向的增长。
但构建十万卡集群是一项复杂的系统工程,不仅意味着算力的指数级增长,还波及复杂的技能和运营挑战。这些集群需要科罚高效用筹画、高能耗料理、高密度机房想象、高通晓性历练等一系列问题。况兼即便智算中心已配备了超大边界的集群,最终能否将这些算力有用开释,还取决于算法、软件架构的优化与调节才调。
沈抖对包括第一财经在内的媒体暗意,料理10万卡的集群与料理万卡集群有实践不同。要部署10万卡这样大边界的集群,光是在物理层面就要占据约略10万正常米的空间,终点于14个圭臬足球场的面积。在能耗方面,这些就业器一天就要破钞直率300万千瓦时的电力,终点于北京市东城区一天的住户用电量。
这种关于空间和能源的巨大需求,远远最初了传统机房部署面孔所能承载的边界,这意味着科技巨头不得不计议跨地域的机房部署,这带来了网罗层面的巨大挑战。
同期,无数的诞生、运营资本是一浩劫题。沈抖告诉记者,建一个万卡集群,单是GPU的采购资本就高达几十亿。
此前Anthropic首席履行官也暗意,现时AI模子历练资本是10亿好意思元,改日三年,这个数字可能会飞腾到100亿好意思元致使1000亿好意思元。
跟着集群边界的扩大,怎么高效讹诈每一块GPU的算力成为关节挑战。一位业内东谈主士告诉记者,万卡集群仍是靠近卡间和节点间的互联网罗、软件和硬件的适配调优等问题,而十万卡集群则需要更精湛化的想象和优化,构建超高精度和高可靠性的网罗,包括引入新式芯片想象、超节点技能、跨节点互联网罗技能等。
“你自己的集群调节搁置奈何样?调节搁置就怕候会被大家忽略掉,超大边界的集群不是你的卡物换星移齐在用。大模子大边界的参数,在超大边界集群内部奈何样作念模子的拆分,才能确实让算力有用领路出来,这口舌常关节的。”有AI芯片从业者这样暗意。
还有一大挑战就是通晓性问题。在如斯大边界的集群上,运维的复杂性急剧增多。硬件不可幸免地会出故障,而边界越大,出故障的概率就越高。业界常常拿Meta历练Llama模子例如,该模子用的是1.6万卡算力集群,约略每隔两三个小时悉数历练任务就要因此再行开动,回到上一个Checkpoint(检讨点)。“淌若推演到10万卡,意味着每30分钟历练成要中断一次,有用历练时长占比会相配低。”沈抖告诉记者。
他称,在这些故障中,绝大多数是由GPU引起的。其实GPU是一种很敏锐的硬件,连中午天气温度的波动,齐会影响到GPU的故障率。
“这些挑战迫使咱们再行想考怎么构建、料理和珍惜这样刚毅而复杂的GPU集群,屏蔽硬件层的复杂性,为大模子落地的全过程提供一个浅易、好用的算力平台,让用户能够更容易地料理GPU算力、低资土产货用好算力。”沈抖告诉记者。
举报 第一财经告白调和,请点击这里此内容为第一财经原创,著述权归第一财经统统。未经第一财经籍面授权,不得以任何面孔加以使用,包括转载、摘编、复制或配置镜像。第一财经保留精良侵权者法律连累的权益。 如需赢得授权请关系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作家刘佳
关系阅读 百度部署10万卡集群,一天破钞300万千瓦时电力百度部署10万卡集群,一天破钞300万千瓦时电力
0 5小时前 郑州:到2026年新增算力边界55EFLOPS 高性能算力占比最初90%鼓舞算力赋能千行百业,重心面向东谈主工智能、工业坐褥、城市治理、科研训诲等重心标的开展算力革命应用,支捏不少于20个行业模子历练推理。
27 09-13 18:23 马斯克浮现Colossus已负责上线:10万张H100还不够 48 09-04 07:53 坐褥淡季、需求不及,制造业PMI相接三月位于枯荣线之下非制造业商务看成指数和概括PMI产出指数均为50.2%,均比上月下落0.3个百分点,我国经济总体产出连接保捏推广。
自拍华人在线 429 07-31 10:45 本年上半年全球黄金需求2441.3吨勾引 英文本年上半年全球黄金需求2441.3吨,同比增长1.3%。
44 07-30 14:02 一财最热 点击关闭