ZAKER 资讯-这个餐盘一样大的芯片,越过GPU

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

话题讨论 /

你的位置:ZAKER 资讯 > 话题讨论 > 这个餐盘一样大的芯片,越过GPU
这个餐盘一样大的芯片,越过GPU
发布日期:2024-11-03 00:11    点击次数:141

(原标题:这个餐盘一样大的芯片,越过GPU)

要是您但愿不错频频碰面,接待标星储藏哦~

开首:内容编译自nextplatform,谢谢。

就在几个月前,晶圆级计较前驱 Cerebras Systems 还吹法螺说,在运行由 Meta Platforms 创建的开源 Llama 3.1 基础模子时,将其少数几个 WSE-3 引擎运动在一说念,不错越过基于 Nvidia“Hopper”H100 GPU 的 Nvidia GPU 实例。

刻下,正如软件工程师终于赶上硬件功能时正常发生的那样,Cerebras 再次吹嘘说,在运行最新的 Llama 3.2 模子时,其推感性能上风更大。8 月至 10 月手艺,AI 推感性能的飞跃是弘大的,提高了 3.5 倍,它拉开了 Cerebras CS-3 系统在腹地或由 Cerebras 或其金主协作伙伴 Group 42运营的云中运行的差距。

与 AI 考验比较,AI 推理商场限制更大,而且在许多方面王人更容易攻克,而 Nvidia 基本上依然锁定了 AI 考验商场。要是你想知说念为什么 Cerebras 等了这样久才参加推理商场,谜底很简便:该公司颠倒搭救者但愿在向华尔街倾销该公司的初次公开募股时讲一个大故事。AI 考验是一个崇高的大问题,但天下上大无数组织王人莫得资源来考验我方的模子,他们将寻找性能最高、资本最低的推理来部署他们的 AI 利用智商。

刻下,基于 Artificial Analysis 完成的 Llama 3.2 70B 基准测试以及公有云上 GPU 实例、正常会提高性能的专用 GPU 云以及竞争敌手 Groq 和 SambaNova Systems 的非 GPU 系统的订价公开数据,Cerebras 似乎照确实 AI 推理竞赛中得胜。

在这一轮推理基准比较中,Cerebras 专注于对仅在 Llama 3.2 70B 模子上运行的推理进行更新,顾名念念义,该模子有 700 亿个参数。在 16 位数据分歧率下有 700 亿个参数,仅加载这些参数就需要 140 GB 内存,而每个 WSE-3 引擎唯有 44 GB 的片上 SRAM 内存,因此仅加载 Llama 70B 模子的参数并留出一些内存来运行它们就需要三个多少许的 WSE-3 引擎和四个 CS-3 系统节点。(咱们在 3 月份对 WSE-3 引擎和 CS-3 系统进行了深刻讨论。)

CS-3 节点与晶圆上的结构互连,晶圆上的结构是 CS-3 架构的一部分,由其 SwarmX 集聚堆栈处置。每个 WSE-3 晶圆的额定速率为 125 千万亿次浮点运算(由晶圆上的 900,000 个张量中枢驱动),在其 44 GB 的 SRAM 块上具有 21 PB/秒的总带宽,并为 SwarmX 集聚提供 214 PB/秒的总带宽。

Cerebras 在 AI 推理方面所展现出的性能飞跃正常需要一两年的手艺,但这并不旷费。Nvidia 的 GPU 硬件和软件很好地讲解了这一旨趣。一般来说,自 Pascal 以来的每一代新 GPU 王人仅基于硬件就为 AI 责任负载提供了省略 2 倍的性能。而到下一代硬件问世时,软件堆栈的性能依然提高了 4 到 5 倍,使旧硬件的性能提高了 8 到 10 倍。然后,软件退换和调优历程在新硬件上再次运行。

然则,笔据 Cerebras 高傲的数字,Nvidia 颠倒 GPU 协作伙伴最佳运行进行退换。因为他们在性能和价钱方面王人受到了打击。让咱们来望望这些数字。

笔据东说念主工智能分析,Llama 3.2 70B 推理的性能如下:

早在 8 月份,Cerebras 运行 Llama 3.1 70B 时每秒可推送 450 个token,而 9 月份,使用早期版块的 Llama 3.2 70B 时,每秒可推送 589 个token。通过这些退换和优化,Cerebras 的软件工程师随机在 8 月份使用的 CS-3 互连的疏通四个节点上将其推送到惊东说念主的每秒 2,100 个token。这是软件雠校的 4.7 倍——这是 Nvidia 在两年内完了的。

刻下,要么是 Cerebras 软件工程师莫得作念出欢喜,因此他们随机在关节时刻逾额完成任务——斯科特先生会感到无比自爱——要么他们取得了弘大而出乎预见的冲破。Cerebras 并莫得高傲。但 Cerebras 家具营销总监、前 Nvidia GeForce 家具司理 James Wang 告诉The Next Platform,这可能是咱们在 CS-3 处理器上不错期待的大部分性能普及。

趁机说一句,早在 8 月份,Cerebras 在运行 Llama 3.1 8B 模子时每秒就能产生 1,800 个令牌,因此不管该公司对其推理堆栈作念出何种转变,它王人能以高于畴前 8B 的速率提供 70B 的推理,这意味着推理速率不错提高 17% 傍边,从而愈加准确。

关于 Cerebras 来说,蹙迫的是,笔据 Artificial Analysis 汇集的数据,其 Llama 3.2 70B 性能比在各式云上使用“Hopper” H100 GPU 的八路 HGX 节点跳跃 8 倍到 22 倍,这些节点仅运行 3B 参数数目。请看一看:

望望这些基准测试的准确度各异会很意旨。但 Cerebras 不错运行密度高 23.3 倍的模子,速率可提高 8 倍到 22 倍——上图高傲的数据中,平均速率快 13.2 倍——笔据咱们的计较,这是 308 倍的乘法推感性能上风。

要是将 Cerebras 云表每个token的订价与 Nvidia Hopper 云表 GPU 节点进行比较,Cerebras 在这里仍然具有上风:

咱们不知说念购买 Nvidia Hopper 系统和 Cerebras CS-3 系统的东说念主是否响应了这种价钱各异。是以要防备。但咱们不错作念一些计较来查验。

据咱们了解,从 G42 上装置的 Condor Galaxy 超等计较机的琢磨来看,576 个 CS-3 节点的资本约为 9 亿好意思元,即每个节点 156 万好意思元。带有 CPU 主机、主内存、闪存和集聚适配器的 H100 HGX 节点的资本可能约为 37.5 万好意思元。关于四台 CS-3 机器,每令牌每秒的资本为 2,976 好意思元。

在公有云上,Llama 3.1 或 3.2 型号的性能并不高,性价比判袂不大。要是您将上述性能图表中的云实例性能平均化,并将其四肢 Llama 3.2 70B 推感性能的斟酌方法,您将赢得每秒 45.9 个令牌,即每秒每个令牌 8,170 好意思元。

因此,在购买铁矿石时,Cerebras 和云表 Hoppers 之间的性价比各异为 2.75 倍,但租用铁矿石时,性价比各异为 5.2 倍,这似乎意味着 Cerebras 在出租容量时升天惨重。出租容量和出售容量之间的这种各异不是一种买卖方法,而是一家初创公司试图解释我方不雅点的亏本销售。但这是否可握续还有待不雅察。要找到谜底,Cerebras 将不得不提高其销售和坐褥以裁汰硬件采购资本,而作念到这少许的惟一方法是让许多东说念主感深嗜,并在短期内因云而蒙受升天。

除了 Nvidia 和 AMD 以外,通盘加快器供应商王人在作念雷同的事情,因为他们在云表销售容量。

押注数据中心推理来鞭策 Cerebras 的收入流(实质上亦然通盘 AI 初创公司的收入流)很容易。推理运行越来越像考验,需要更多手艺进行计较,需要更多计较才智更好地进行推理。此图表讲解了念念路链推理和代理 AI 将怎样鞭策更密集的推理:

通过增多 10 倍到 100 倍的计较量来进行推理,Cerebras 不错运行赢得弥漫的数目来裁汰其 WSE-3 引擎和 CS-3 系统的价钱。

咱们想知说念,亦然许多潜在的 Cerebras 客户想知说念的是,CS-3 系统怎样运行 Llama 3.2 405B 模子,顾名念念义,该模子有 4050 亿个参数,况兼在推理测试中的准确性比 70B、8B 和 3B 模子高得多。

“咱们竣工不发怵 405B,”王说。“事实上,咱们刻下正在提倡 405B,我刚刚参加的会议即是琢磨何时提倡这个问题、以何种样子提倡。是以你不错确定地说,咱们行将在 405B 规模发布一些内容。”

笔据咱们的计较,加载这个大型 Llama 3.2 模子中的 4050 亿个参数需要 810 GB 的内存,这意味着加载这些参数至少需要 18.4 个 WSE-3 引擎。为了便于琢磨,咱们将其称为 20 个引擎。这是一个价值 3125 万好意思元的集群,但至少您不消使用真实用于 AI 考验而不是推理的 MemoryX 内存集群。咱们想知说念将 20 个 CS-3 节点互连以运行如斯大型的推理引擎对性能的影响。

“咱们频频被问到这个问题:要是你在多个晶圆上运行,你的带宽不是受限的吗?”王承认。“咱们将模子拆分红多个层,以符合这些不同的晶圆,节点间带宽条目颠倒低——省略是咱们实质可用硬件带宽的 5%。真实需要带宽的是张量并行。这即是 Nvidia 必须作念 NVLink 和 NVSwitch 的原因,对咱们来说,这部分在咱们的晶圆结构上责任。是以咱们不发怵更大的模子。事实上,咱们很期待它们。咱们照实必须对内存进行一些优化,这样咱们就不消使用太多的系统。”

按照咱们的意见,Cerebras 需要 3D 垂直缓存来推广其计较晶圆的内存,就像昨天一样。咱们竣工服气 WSE-3 计较引擎不是计较受限,而是 SRAM 容量受限。与其收缩晶圆晶体管来制造 WSE-4,不如但愿它不错再行加工晶圆上的芯片,在芯片下方或上方领有多个 SRAM 堆栈,就像 AMD 在其 Epyc CPU 的 X 版块上使用 3D V-Cache(上图)以及在 Instinct MI300X 和 MI300A GPU 上使用 Infinity Cache(下图)一样。梦想情况下,每个 SRAM 堆栈可能会提供颠倒的 60 GB SRAM,固然咱们在这里作念梦,但为什么不有三四个 SRAM 堆栈呢?假定模子将需要更多的内存容量和带宽。

Cerebras 架构中依然有弥漫的推广空间用于 AI 考验,但更多的 SRAM 可能有助于考验和推理。

关于 CS-3 机器,企业客户不错采取 24 TB 和 36 TB 的 MemoryX 内存(一种用于晶圆上 SRAM 的缓存),而超大限制和云构建者不错采取 120 TB 和 1,200 TB,这为企业限制的高端提供了 4800 亿和 7200 亿个参数的存储,为超大限制和云构建者提供了 2.4 万亿或 24 万亿个参数。蹙迫的是,通盘这些 MemoryX 内存王人不错悲怆于计较进行推广——这是任何 GPU 甚而 Nvidia 的 Grace-Hopper 超等芯片羼杂芯片王人无法作念到的,后者也具有静态内存建立。

https://www.nextplatform.com/2024/10/25/cerebras-trains-llama-models-to-leap-over-gpus/

半导体宏构公众号推选

专注半导体规模更多原创内容

关爱行家半导体产业动向与趋势

*免责声明:本文由作家原创。著述内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或搭救,要是有任何异议,接待筹办半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3927内容,接待关爱。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

心爱咱们的内容就点“在看”共享给小伙伴哦