• 我的订阅
  • 科技

比GPU性价比高百倍!Cerebras推出新AI推理服务,号称“全球最快”

类别:科技 发布时间:2024-08-29 09:49:00 来源:智东西
比GPU性价比高百倍!Cerebras推出新AI推理服务,号称“全球最快”

智东西8月28日消息,AI芯片独角兽Cerebras Systems于8月27日宣布推出AI推理服务Cerebras Inference,号称“全球最快”。该服务已经在云端上线。

据官网介绍,该推理服务在保证精度的同时,速度比英伟达的服务快20倍;其处理器内存带宽是英伟达的7000倍,而价格仅为GPU的1/5,性价比提高了100倍。Cerebras Inference还提供多个服务层次,包括免费、开发者和企业级,满足从小规模开发到大规模企业部署的不同需求。

用户可直接在官网上的交互界面进行体验,也可调用API。

比GPU性价比高百倍!Cerebras推出新AI推理服务,号称“全球最快”

体验地址:https://inference.cerebras.ai/

Cerebras Systems成立于2016年,团队由计算机架构师、计算机科学家、深度学习研究人员和各种工程师组成。该公司以其创新的晶圆级芯片(Wafer Scale Engine, WSE)而闻名,这些芯片专为AI计算而设计,具有巨大的尺寸和性能。

这家芯片独角兽曾经得到多个知名投资者的支持,其中包括OpenAI联合创始人Sam Altman、AMD前CTO Fred Weber等。截至2021年11月,该公司完成了2.5亿美元的F轮融资,估值达到40亿美元。

一、性价比远超英伟达:速度快20倍,价格仅为1/5

AI推理指的是在训练好一个AI模型之后,使用这个模型对新的数据进行预测或决策的过程。AI推理的性能和效率对于实时应用至关重要,例如自动驾驶汽车、实时翻译或在线客服聊天机器人等。Cerebras Inference(以下称作“Cerebras推理服务”)便是一个专注于AI推理的服务,以支持这些对实时性要求极高的应用场景。

Cerebras推理服务由Cerebras CS-3系统及其第三代晶圆级芯片(WSE-3)提供支持。WSE-3于3月发布,基于2021年推出的WSE-2芯片进行了改进。WSE-3内存带宽高达21PB/s,是英伟达H100 GPU的7000倍。这种超高的内存带宽可以大幅减少数据传输时间,提高模型推理的速度和效率。

据官网介绍,Cerebras推理服务针对Llama 3.1 8B模型每秒提供1800个tokens,每百万tokens的价格为10美分;针对Llama 3.1 70B模型每秒提供450个tokens,每百万tokens的价格为60美分。速度比基于英伟达GPU的超大规模云解决方案快20倍。

比GPU性价比高百倍!Cerebras推出新AI推理服务,号称“全球最快”

▲Cerebras推理服务与其他服务在Llama 3.1 8B上的速度比较。单位:tokens/秒/用户。(图源:Cerebras官网)

比GPU性价比高百倍!Cerebras推出新AI推理服务,号称“全球最快”

▲Cerebras推理服务与其他服务在Llama 3.1 70B上的速度比较。单位:tokens/秒/用户。(图源:Cerebras官网)

此外,Cerebras推理服务在整个推理过程中始终保持在16位精度域内,确保在提升速度的同时不会牺牲模型的精度。大语言模型质量评估公司Artificial Analysis的联合创始人兼CEO Micah Hill-Smith谈道,他的团队已经验证了Llama 3.1 8B和Llama 3.1 70B模型在Cerebras推理服务上运行的质量评估结果:与Meta官方版本的原生16位精度一致。

跟据官网,该服务运行Llama3.1的速度比基于英伟达GPU的解决方案快20倍,而提供服务的芯片WSE-3价格仅为GPU的1/5,相当于AI推理工作负载的性价比提高了100倍。

“在Artificial Analysis的AI推理基准测试中,Cerebras推理服务已经领先。Cerebras推理服务的速度比基于GPU的解决方案快一个数量级,打破了测试的纪录。”Micah Hill-Smith说,“凭借推动超高的性能速度和具有竞争力的定价,Cerebras推理服务对具有实时或高容量需求的AI应用开发者特别具有吸引力。”

二、清晰的分级访问制度,用户可免费体验

Cerebras推理服务根据用户需求和使用情况,提供了分级制度,分为三个层级:

1、免费层级:这一层级为所有登录用户提供免费的API访问权限以及相对宽松的使用限制。用户可以在这个层级中体验,无需支付费用。

2、开发者层级:这一层级专为灵活的无服务器部署设计,为用户提供一个API端点。相比于市场上的大多数方案,其成本要低得多。对于Llama 3.1 8B和Llama 3.1 70B模型,每百万tokens的价格分别是10美分和60美分。未来,Cerebras计划持续推出对更多模型的支持。

3、企业层级:这一层级提供经过微调的模型、定制的服务级别协议和专门的支持。它适合需要持续的工作负载。企业可以通过Cerebras管理的私有云或在企业的本地部署访问Cerebras推理服务。可按需求定价。

Cerebras推理服务的这种分级制度旨在满足从小规模开发到大规模企业部署的不同需求。

三、推动多方战略合作,构建AI开发一条龙服务

在推动AI开发的战略合作伙伴关系中,Cerebras Systems正与一系列行业领导者合作,共同构建AI应用的未来生态。这些公司在各自的领域内提供关键技术和服务,比如,Docker旨在利用容器化技术使AI应用部署更加便捷和一致,LangChain为语言模型应用提供快速开发框架,Weights&Biases打造了供AI开发者训练和微调模型的MLOps平台……

“LiveKit很高兴能与Cerebras合作,帮助开发者构建下一代多模态AI应用。结合Cerebras的计算能力和模型以及LiveKit的全球边缘网络,所开发的语音和视频AI应用将实现超低延迟并更接近人类特征。”LiveKit公司的CEO兼联合创始人Russell D’sa说道,该公司专注于构建和扩展语音和视频应用程序。

AI搜索引擎创企Perplexity的CTO兼联合创始人Denis Yarats认为,Cerebras推理服务可以帮助AI搜索引擎在用户交互方面实现突破,从而提高用户参与度。

结语:AI计算战事升温,高效推理成焦点

根据国际数据公司(IDC)的研究,AI推理芯片在2020年已经占据了中国数据中心市场的50%以上份额,并预计到2025年,这一比例将增长至60.8%。据英伟达2024财年数据中心的业绩会纪要,其公司该年度有超过40%的收入来自AI推理业务。可见,AI推理不仅在当前市场中占有相当比例,而且预计在未来几年将继续保持增长势头。

Cerebras凭借其超快的推理速度、优异的性价比和独特的硬件设计,将赋予开发者构建下一代AI应用的能力,这些应用将涉及复杂、多步骤的实时处理任务。

然而,在生态系统的成熟度、模型支持的广泛性以及市场认知度方面,英伟达仍然占据优势。相比于Cerebra,英伟达拥有更大的用户群体和更丰富的开发者工具和支持。此外,虽然Cerebras支持主流模型(如Llama 3.1),但英伟达的GPU支持的深度学习框架和模型范围更广。对于已经深度集成在英伟达生态系统中的用户,Cerebras可能在模型支持的广度和灵活性方面略显不足。

来源:Cerebras Systems官网

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-29 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

星凡科技与国星宇航战略合作,解锁太空算力“天地同算”新篇章
...,以及吞吐量及并发量、功耗等性能优势,为客户以极高性价比搭建及极低成本运营智算中心提供保障。通过地面智算中心与太空AI卫星互联,实现天地数据实时互通、实施计算,服务于人工智能
2024-11-25 10:00:00
Cerebras 推出全球最快AI推理解决方案,速度是英伟达方案的20倍
...万个 token 10 美分,从而为 AI 工作负载提供 100 倍更高的性价比。该方案将允许 AI 应用程序开发人员构建下一代 AI 应用程序
2024-08-28 13:37:00
全新英特尔 至强 可扩展处理器,打破数智化变革瓶颈的一板利斧
...尔® 至强® 可扩展处理器用于AI加速工作负载的代际提升性价比高;另一方面,它可以覆盖从数据预处理、训练、推理的整个AI管线,实现端到端的AI加速。更重要的是,广泛且规模庞大
2023-12-20 19:21:00
节后娱乐消费重整旗鼓
...,让没有经验的玩家爱上剧本杀,再加上68元/盒的均价,性价比高,DM(剧本主持人)的开本质量高,形成了不错的口碑。“在这个特殊时期,有他们支持才能坚持下来。”为了接下来的春节
2023-01-10 01:33:00
英伟达没有慌,黄仁勋再谈DeepSeek:“推理”的计算需求可能增加上百万倍
...理算力需求占比,原来走 GPU训练路线的,这种芯片由于性价比较低,在推理时代可能无法维持其高毛利率。 不过据财联社援引路透社报道,有知情人士表示,由于对DeepSeek低成
2025-02-27 11:55:00
...客户的需求,为客户量身设计方案并协助落地,可以提供性价比最优的一个算力中心,这是在算力中心建设方面的优势;其次我们更加专注于GPU的资源优化,还可以为用户提供定制化的模型服务
2024-08-29 06:30:00
破解实时性与成本难题!白山云发布“大模型API”产品
...分布式算力下沉与智能调度,能够为高实时、高隐私、高性价比场景提供关键支撑,驱动AI从集中式智能迈向“云-边-端”全域协同智能。聚焦边缘推理场景,白山云基于全球1700 边缘节
2025-07-10 20:59:00
ai生命周期:ai训练和ai推理的完美结合
...这个阶段使用常规的CPU最合适,其性能、能效、兼容性、性价比完美符合AI推理需求。当然,这对CPU的综合素质也是有着很高的需求的,足够强大且平衡的性能、能效、成本才能带来足够
2024-03-15 02:13:00
AI推理速度提升超10倍,Groq LPU能否取代英伟达GPU?
...的同时,其能耗成本仅有英伟达GPU的十分之一,这等于是性价比提高了100倍。 Groq公司在演示中展示了其芯片的强大性能
2024-02-21 14:03:00
更多关于科技的资讯:
原佳星摘要:互联网行业的迅速发展使数据成为企业核心资源,统计学专业的重要性随之提升。企业在产品运营、用户分析和商业预测中高度依赖统计能力
2025-12-09 05:45:00
近年来,商品过度包装问题引发社会广泛关注。部分商家为提升商品附加值,通过增加包装层数、扩大空隙率、使用高成本材料等方式制造“包装溢价”
2025-12-09 07:18:00
在杭州,两位潜心科研的博士后,不约而同地将目光投向了地球上空数百公里处的低轨卫星。来自西安电子科技大学杭州研究院的孙冉冉博士
2025-12-09 07:49:00
我省交通行业首个自主创新研发的交通数智大模型太行交通数智大模型发布河北日报讯(曹智、谭磊)12月6日,河北交投集团发布太行交通数智大模型
2025-12-09 08:00:00
“小丰”又一次在走位中撞到了同伴。在杭州市滨江区大丰科创中心的实验室里,这个站在C位的人形机器人突然停顿——它的“大脑”
2025-12-09 08:19:00
浙江日报讯 (记者 应磊 通讯员 崔宁 洪映映) 外形酷似“机械战警”,行动稳健有力,即便遭遇人为干扰也“不动如山”。近日
2025-12-09 08:20:00
产业炬光灯聚焦新诺北斗:坚持自主创新 为船舶装上“智慧大脑”
厦门网讯(厦门日报记者 林露虹)茫茫大海上,船舶的行踪与航向,由船载北斗终端精准“掌舵”。位于火炬高新区的新诺北斗航科信息技术(厦门)股份有限公司(以下简称“新诺北斗”)
2025-12-09 08:57:00
厦门跨境电商出海加速 多家厦企亮相2025亚马逊全球开店跨境峰会
2025亚马逊全球开店跨境峰会。(主办方 供图)提供亚马逊出海服务的厦门企业AMZ123服务台前围满咨询的客商。(受访企业 供图) 厦门网讯 (厦门日报记者 沈彦彦 通讯员 周晓雅) “每年的亚马逊全球开店峰会
2025-12-09 08:57:00
长白时评评论员 久泰平“方向盘装饰贴”竟成“夺命杀器”!凌晨1点28分,一车辆在高架行驶时,主驾驶位空无一人,王某某竟在副驾驶酣睡
2025-12-09 11:09:00
根据工业和信息化部的数据,近年来我国互联网数据中心(IDC)产业规模年均增速达30%左右。然而,高速增长累积的高能耗问题也逐渐暴露
2025-12-09 14:21:00
第十一届全国大学生物理实验竞赛:西工大荣获三个“国赛一等奖”
近日,第十一届全国大学生物理实验竞赛(创新)决赛成绩公布,西北工业大学三支代表队进入决赛,均荣获国赛一等奖,获奖数量与质量位居全国高校前列
2025-12-09 14:29:00
西安建大学子创新研发“膜法湿法磷酸净化技术” 获全国特等奖
近日,西安建筑科技大学“膜达”环境与市政工程学院学生科创团队凭借自主研发的“膜法湿法磷酸净化技术”,在第十九届“挑战杯”全国大学生课外学术科技作品竞赛“揭榜挂帅”擂台赛中荣获特等奖
2025-12-09 14:30:00
重要提醒:杭州小红车租借有新变化!大家务必转知
2025年12月31日起,杭州小红车“绑卡租车”功能(即“绑卡免押金”服务)将正式停止服务,已开通“绑卡租车”功能的用户也将无法使用
2025-12-09 14:57:00
优路教育荣膺腾讯教育“2025年度职业教育领航品牌”
近日,2025腾讯新闻教育·新回响年会在北京圆满落幕。本届年会以“智变之时”为主题,汇聚了众多教育行业专家、学者及头部教育机构代表
2025-12-09 15:05:00
二元魂×金鹰卡通破界联动,AI+IP重构Z世代家庭陪伴新场景
2025年12月3日,AI潮玩创新品牌二元魂与湖南广播电视台旗下金鹰卡通卫视在长沙正式签署战略合作协议。双方将聚焦国民级亲子IP“麦咭”
2025-12-09 15:33:00