• 我的订阅
  • 科技

晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token

类别:科技 发布时间:2024-09-02 13:36:00 来源:芯智讯

今年3月,新创AI芯片公司Cerebras Systems推出了其第三代的晶圆级AI芯片WSE-3,性能达到了上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。

根据官方资料显示,WSE-3依然是采用了一整张12英寸晶圆来制作,基于台积电5nm制程,芯片面积为46225平方毫米,拥有的晶体管数量达到了4万亿个,拥有90万个AI核心,44GB片上SRAM,整体的内存带宽为21PB/s,结构带宽高达214PB/s。使得WSE-3具有125 FP16 PetaFLOPS的峰值性能,相比上一代的WSE-2提升了1倍。

晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token

作为对比,WSE-2芯片面积同样是46225平方毫米,基于台积电7nm制程,晶体管数量为2.6万亿个,AI内核数量为85万个,片上内存SRAM为40GB,内存带宽为20PB/s,结构带宽高达220PB/s。

如果将其与英伟达的H100相比,WSE-3面积将是H100的57倍,内核数量是H100的52倍,片上内存是H100的880倍,内存带宽是H100的7000倍,结构带宽是H100的3715倍。( H200 的 HBM3e 仅拥有 4.8TBps 的带宽。)

晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token

在此次的Hot Chips 2024大会上,Cerebras公布了更多关于WSE-3在运行AI大模型上的性能表现。

Cerebras表示,它在Llama3.1-8B上的推理速度比微软Azure等公司使用NVIDIA H100快了20倍。需要指出的是,在许多现代生成式 AI 工作负载中,推理性能通常更得益于内存带宽的大小,而不单单是计算能力。也就是说,拥有更大的内存带宽,模型的推理速度就越快。

晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token

Cerebra Systems首席执行官 Andrew Feldman 称,WSE-3通过使用 44GB片上SRAM,使得其能够以 16 位精度运行 Llama 3.1 8B 时,每秒能够生成超过 1,800 个Token,而性能最好的基于英伟达H100的实例每秒只能生成超过 242 个Token。

与此同时,Cerebras还推出了基于WSE-3的CS-3超级计算机,可用于训练参数高达24万亿的人工智能模型,这比相比基于WSE-2和其他现代人工智能处理器的超级计算机有了重大飞跃。该超级计算机可以支持1.5TB、12TB或1.2PB的外部内存,这使它能够在单个逻辑空间中存储大量模型,而无需分区或重构,从而简化了训练过程,提高了开发人员的效率。

晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token

最新的 Cerebras 软件框架可以为PyTorch 2.0 和最新的 AI 模型和技术(如多模态模型、视觉转换器、专家混合和扩散)提供原生支持。Cerebras 仍然是唯一为动态和非结构化稀疏性提供本机硬件加速的平台,相比英伟达的DGX-100计算机系统,将训练速度提高了8 倍。

在运行分布在四个CS-3加速器上的 700 亿参数版本的 Llama 3.1 大模型时,也能够实现每秒 450 个Token。相比之下,H100 可以管理的最佳状态是每秒 128 个Token。

晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token

Feldman 认为,这种性能水平,就像宽带的兴起一样,将为 AI 的采用开辟新的机会。“今天,我认为我们正处于 Gen AI 的拨号时代,”他说,并指出了生成式 AI 的早期应用,其中提示的响应会有明显的延迟。

他认为,如果能够足够快地处理请求,就可以基于多个模型构建代理应用程序,而不会因为延迟变得难以为继。Feldman 认为这种性能有益的另一个应用是允许 LLM 在多个步骤中迭代他们的答案,而不仅仅是吐出他们的第一个响应。如果您可以足够快地处理Token,则可以在幕后做更多的处理。

虽然WSE-3能够以 16 位精度运行 Llama 3.1 8B 时,每秒能够生成超过 1,800 个Token,但是如果不是因为系统受计算限制,WSE-3的速度应该能够更快。

该产品代表了 Cerebras 的一些转变,因为此前,Cerebras 主要专注于 AI 训练。虽然现在也开始应用于AI推理,但是硬件本身实际上并没有改变。Feldman表示,他们正在使用相同的 WSE-3 芯片和 CS-3 系统进行推理和训练。

“我们所做的是扩展了编译器的功能,可以同时在芯片上放置多个层,”Feldman解释说。

SRAM 速度很快,但使 HBM 容量更大

虽然 SRAM 在性能方面比 HBM 具有明显的优势,但它的不足之处在于容量。对于大型语言模型 (LLM)来说,44GB的容量并不多,因为必须考虑到键值缓存在WSE-3所针对的高批处理大小下占用了相当多的空间。

Meta 的 Llama 3 8B 模型是 WSE-3 的理想化场景,因为大小为 16GB(FP16),整个模型可以安装在芯片的 SRAM 中,为键值缓存留下大约 28GB 的空间。

Feldman 声称,除了极高的吞吐量外,WSE-3 还可以扩展到更高的批量大小。尽管它究竟可以扩展到多大程度并保持每个用户Token的生成率,这家初创公司不愿透露。“我们目前的批次大小经常变化。我们预计第四季度的批量规模将达到两位数,“Cerebras说道。

当被追问更多细节时,Feldman补充说:“我们目前的批量大小还不成熟,因此我们宁愿不提供它。系统架构旨在以高批量运行,我们预计在未来几周内实现这一目标。”

与现代 GPU 非常相似,Cerebras 通过跨多个 CS-3 系统并行化模型来应对这一挑战。具体来说,Cerebras 正在使用管道并行性将模型的层分布到多个系统。

对于需要 140GB 内存的 Llama 3 70B,该模型的 80 层分布在四个通过以太网互连的 CS-3 系统中。这确实会带来性能损失,因为数据必须通过这些链接。

晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token

△由于单个WSE-3只有 44GB SRAM,因此需要将多个加速器连接在一起以支持更大的模型

然而,根据 Feldman 的说法,节点到节点的延迟并不像您想象的那么大。“这里的延迟是真实的,但很小,并且它与通过芯片上所有其他层的Token分摊,”他解释说。“最后,Token上的晶圆到晶圆延迟约占总数的 5%。”

对于更大的模型,例如最近宣布的 4050 亿参数变体的 Llama 3,Cerebras 估计它将能够使用 12 个 CS-3 系统实现每秒约 350 个Token。

利用更高速的片上SRAM来替代HBM并不是一个新鲜事,Cerebra的竞争对手 Groq也是这么做的。

Groq 的语言处理单元 (LPU) 实际上使用了片上SRAM。不同之处在于,由于单个 Groq LPU SRAM 容量较低,因此需要通过光纤连接更多的加速器来支持更大的模型。

Cerebras 需要四个 CS-3 系统才能以每秒 450 个令牌的速度运行 Llama 3 70B,Groq 此前曾表示,它需要 576 个 LPU 才能实现每秒300个Token。而Cerebras 引用的人工智能分析 Groq 基准测试略低,为每秒 250 个Token。

Feldman 还指出,Cerebras 能够在不求助于量化的情况下做到这一点。认为Groq 正在使用 8bit量化来达到他们的性能目标,这减少了模型大小、计算开销和内存压力,但代价是准确性有所损失。

不过,仅比较性能,而忽略整体的成本是不公平的对比。毕竟单个晶圆级的WSE-3芯片的成本也远远高于Groq LPU的成本。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-02 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

携手联发科技,OPPO加码大模型
...地,并实现性能更优。据了解,联发科技是全球第四大无晶圆厂半导体公司,每年约有20亿台搭载MediaTek芯片的终端产品在全球上市,在移动终端、智能家居应用、无线连接技术及物联
2023-10-11 18:11:00
一文读懂黄仁勋CES重磅发布:最新5090芯片、世界最大AI计算机、首个世界模型
...Grace Blackwell NVLink72的巨型芯片,并在现场手持该款芯片的晶圆“盾牌”,摆起类似“美国队长”造型
2025-01-07 19:00:00
130亿大模型塞进电脑手机,高通骁龙性能全面升级,碾压苹果英特尔
...能做不少事——生成PPT、画图等等。与此同时,手机专属芯片骁龙8 Gen3也正式亮相,可以说有着相当不错的性能提升
2023-10-25 16:12:00
...□南京日报/紫金山新闻记者肖凡 通讯员吴晓倩IP设计、晶圆制造、封装测试全流程国内生产;配备大容量、先进的高带宽显存,性能对标国际旗舰产品;软件栈MXMACA全面兼容主流生态
2025-10-23 07:46:00
ChatGPT引发AI芯片荒 台积电成了英伟达身后的超级大赢家
...PU 非常抢手,春节后就有不少消息指出,英伟达正在追加晶圆代工订单,满足全球市场的旺盛需求,这几个月时间理应能够大幅提高代工产能,毕竟又不是台积电最先进的 3nm 工艺。然而
2023-06-27 13:48:00
oppo首个端侧应用70亿参数大模型findx7系列
...过高精度4bit量化等模型压缩,推理引擎的加速,以及与芯片平台深度合作的硬件加速方式,第一次为手机端侧带来完全体的70亿参数大模型,彻底变革手机端侧AI的使用方式。OPPO软
2023-12-28 10:13:00
Find X7正式发布!天玑9300带来极致性能
...最新的旗舰手机FindX7,这款手机搭载了联发科的天玑9300芯片,在最新的苏黎世智能手机AI排名中获得第一名的成绩。在发布会上,联发科总经理陈冠州也出席了,并对双方的深度合
2024-01-09 09:51:00
NPU IP累计出货超1亿颗!芯原股份一站式AI解决方案揭秘
...务平台,每年流片30-50颗芯片,累计出货了10000片14nm FinFET晶圆,近30000片10nm FinFET晶圆
2024-06-14 11:39:00
掰开安卓手机 满屏都是三个字:大模型
...大模型当场塞进手机系统……其竞争激烈程度,不亚于抢芯片首发。到底是怎么回事?究其原因,还是智能终端已经成为了各类AIGC应用的落地“新滩头”。先是图像生成大模型接二连三地被塞
2023-11-16 20:30:00
更多关于科技的资讯:
金堰社区:党建赋能“她”力量,直播筑梦新斜塘
江南时报讯 为激活数字经济时代社区创业活力,助力居民尤其是女性群体拓宽就业创业路径,苏州工业园区斜塘街道妇联联合金堰社区党支部
2025-12-15 14:25:00
体育用品产业创新加速器获奖企业出炉,聚焦材料、物流、数字化三赛道
12月12日,在清华大学技术创新研究中心主办的全球开放式创新论坛期间,由安踏集团与璞跃中国联合发起的“体育用品产业创新加速器”(下称“加速器”)颁奖典礼在上海举行
2025-12-15 14:26:00
银泰百货绿色实践获认可,入选中国商业联合会2025年度创新案例
12 月 15 日,银泰百货的 “绿色商场” 建设实践通过评审,成功入选中国商业联合会2025年度绿色消费创新案例。此次一同入选的还有喜茶
2025-12-15 14:26:00
年终消费季再添一把火!“购在中国·2025山东家居焕新消费季暨“安居齐鲁 轻松焕新”活动”启动
鲁网12月15日讯年终消费市场迎来政策与科技双轮驱动的“强心剂”。2025年12月14日,由山东省智能家居协会主办,银座家居
2025-12-15 14:39:00
蚂蚁集团AQ升级为“蚂蚁阿福”:从医疗到健康 从AI工具到AI朋友
12月15日消息,蚂蚁集团宣布旗下AI健康应用AQ品牌升级为“蚂蚁阿福”,并发布App新版本,升级健康陪伴、健康问答、健康服务三大功能
2025-12-15 15:16:00
从品质定制到品牌闭环:中粮福掌柜以联名专供驱动供应端与餐饮端的协同进化
近日,中粮餐饮旗下专业餐厨品牌福掌柜与知名川菜品牌龙人居联名推出福掌柜非转基因压榨一级玉米胚芽油,在行业内引发了深度关注
2025-12-15 15:22:00
技术+生态+服务三向发力 聊城“惠循环”平台焕新惠民路径
鲁网12月15日讯(记者 泮晓阳)12月15日上午,聊城市政府新闻办公室召开“水城有约·惠享两节”2026聊城元旦春节促消费兴文旅主题新闻发布会
2025-12-15 15:54:00
瀚康荟(德州)健康科技有限公司刘勇:儒缘汇德州,大道砥初心
刘勇“富而好礼,利以义制;居敬而行简,以临其民。”当我第一次驻足于儒商研究会,孔孟故里的微光,便悄然照进了我四十年的商海生涯
2025-12-15 15:55:00
蓝图航空完成5亿元A轮融资 领航低空经济新未来
上海蓝图航空科技近日正式完成5亿元人民币A轮融资,本轮融资由玖树创投领投。作为国内低空经济领域的先行者与生态构建者,此次融资将全面加速公司在技术研发
2025-12-15 16:28:00
万物云灵石发布,不动产管理迈向“智驾时代”
不动产管理迈向“智控时代”12月12日,万物云睿见大会2025“睿见·灵石”在上海国际传媒港举行。大会汇聚近300名知名企业代表以及媒体和分析师
2025-12-15 16:30:00
中交中南局首次!隧道围岩智能识别大模型斩获“蓝翼杯”大赛三等奖
近日由中国公路学会主办的“蓝翼杯”第一届人工智能场景创新应用大赛中中交中南局凭借“隧道围岩智能识别大模型应用设计”项目荣获三等奖这是中交中南局在人工智能领域首次获得行业级奖项本次大赛以“智联交通基建
2025-12-15 16:31:00
深夜,当一场数万人的演唱会散场,人流涌向车站,一列列预先等候的“歌迷专列”正静待启程。这一幕在深圳、广州、厦门等多个城市接连上演
2025-12-15 16:32:00
钱江观潮丨经典产业焕新记
近日,首届浙江省历史经典产业焕新大赛总决赛在永康举行,可机洗真丝、可穿戴青瓷等一批创新成果亮相。一起寻访两位青年设计师,看传统产业如何焕发新生。
2025-12-15 17:43:00
年终观察:文化“新三样”出海有何变化?
近年来,以网络文学、网络影视剧、网络游戏为代表的中国文化“新三样”迅速崛起,并日益受到海外市场的欢迎。2025年,文化“新三样”出海有何变化
2025-12-15 17:43:00
在全球化人才竞争日益激烈的当下,为子女规划一条优质的海外升学路径已成为众多中高产家庭的战略选择。然而,面对市场上数量庞大
2025-12-15 18:17:00