北美商业电讯

| 简体 | 繁体 | 2024年12月07日

马斯克秀肌肉!在线展示AI超算中心庞大规模,全用英伟达

更新于2024-08-28 14:19

最新消息显示,埃隆·马斯克的超级计算探索继续向前推进。

8月26日,马斯克在X上分享了他新命名的“Cortex”人工智能超级计算机集群的视频。目前,特斯拉“Giga Texas”工厂正在扩建,将包含70,000台人工智能服务器,服务器同时启动时需要130兆瓦 (MW) 的电力,到2026年耗电量将升级到500兆瓦。

马斯克视频展示了正在组装的大量服务器机架。从模糊的视频来看,这些机架似乎以每行16个计算机机架的阵列形式排列,每行之间有四个左右的非GPU机架。每个计算机机架可容纳8台服务器。在这段20秒的视频中可以看到16-20行服务器机架,因此粗略估计可以看到2,000台GPU服务器,不到预计部署规模的3%。

马斯克在特斯拉7月份的财报电话会议上表示,Cortex超算集群将成为特斯拉迄今为止最大的训练集群,包含“50,000台(英伟达)H100,以及20,000台我们的硬件”。这个数字比马斯克之前分享的数字要小,他在6月份的推文估计Cortex将容纳50,000台特斯拉的Dojo AI硬件。马斯克之前的言论也暗示特斯拉自己的硬件将在稍后上线,预计Cortex在发布时将完全由英伟达提供支持。

根据马斯克的发贴,Cortex训练集群的构建是为了“解决现实世界的人工智能问题”。在特斯拉2024年第二季度的财报电话会议上,这意味着Cortex将为特斯拉训练全自动驾驶 (FSD)系统——该系统将为消费者和承诺的“Cybertaxi”产品提供动力——并为Optimus机器人训练人工智能。Optimus是一款自主人形机器人,预计将于2025年开始限量生产,用于特斯拉的制造过程。

Cortex首次引起媒体关注,是因为马斯克在6月份展示了正在建造的用于冷却整个超算集群的大型风扇。风扇组冷却采用超微电脑提供的液体冷却解决方案,该解决方案旨在在满功率下处理最终500兆瓦的电力消耗。作为对比,一个普通的燃煤电厂可能输出大约600兆瓦的电力。

Cortex加入了马斯克正在开发的超算阵营。到目前为止,马斯克的第一个投入运营的数据中心是孟菲斯超算集群,属于xAI公司,由100,000块英伟达H100提供支持。孟菲斯的所有100,000台服务器都通过单个RDMA(远程直接内存访问)结构连接,并且同样在超微公司的帮助下进行冷却。马斯克还宣布计划在纽约布法罗建造一台价值5亿美元的Dojo超级计算机,这是特斯拉的另一项业务。

孟菲斯超算集群还预计将其H100升级到30万块B200 GPU,但由于设计缺陷,Blackwell芯片的生产延迟,使这一大规模订单推迟了几个月。作为英伟达AI GPU最大的单一客户之一,马斯克似乎遵循了黄仁勋的数学:“买得越多,省得越多。”

主编精选,篇篇重磅,请点击订阅“邮件订阅

编辑:
版权声明:本文版权归北美商业电讯所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。
评论
用户名: 登录可见
匿名
发表评论
×

分享到微信朋友圈

打开微信点击底部的“发现”
使用“扫一扫”即可将网页分享至朋友圈