我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

比GPU性价比高百倍！Cerebras推出新AI推理服务，号称“全球最快”

类别：科技发布时间：2024-08-29 09:49:00 来源：智东西

智东西8月28日消息，AI芯片独角兽Cerebras Systems于8月27日宣布推出AI推理服务Cerebras Inference，号称“全球最快”。该服务已经在云端上线。

据官网介绍，该推理服务在保证精度的同时，速度比英伟达的服务快20倍；其处理器内存带宽是英伟达的7000倍，而价格仅为GPU的1/5，性价比提高了100倍。Cerebras Inference还提供多个服务层次，包括免费、开发者和企业级，满足从小规模开发到大规模企业部署的不同需求。

用户可直接在官网上的交互界面进行体验，也可调用API。

体验地址：https://inference.cerebras.ai/

Cerebras Systems成立于2016年，团队由计算机架构师、计算机科学家、深度学习研究人员和各种工程师组成。该公司以其创新的晶圆级芯片（Wafer Scale Engine, WSE）而闻名，这些芯片专为AI计算而设计，具有巨大的尺寸和性能。

这家芯片独角兽曾经得到多个知名投资者的支持，其中包括OpenAI联合创始人Sam Altman、AMD前CTO Fred Weber等。截至2021年11月，该公司完成了2.5亿美元的F轮融资，估值达到40亿美元。

一、性价比远超英伟达：速度快20倍，价格仅为1/5

AI推理指的是在训练好一个AI模型之后，使用这个模型对新的数据进行预测或决策的过程。AI推理的性能和效率对于实时应用至关重要，例如自动驾驶汽车、实时翻译或在线客服聊天机器人等。Cerebras Inference（以下称作“Cerebras推理服务”）便是一个专注于AI推理的服务，以支持这些对实时性要求极高的应用场景。

Cerebras推理服务由Cerebras CS-3系统及其第三代晶圆级芯片（WSE-3）提供支持。WSE-3于3月发布，基于2021年推出的WSE-2芯片进行了改进。WSE-3内存带宽高达21PB/s，是英伟达H100 GPU的7000倍。这种超高的内存带宽可以大幅减少数据传输时间，提高模型推理的速度和效率。

据官网介绍，Cerebras推理服务针对Llama 3.1 8B模型每秒提供1800个tokens，每百万tokens的价格为10美分；针对Llama 3.1 70B模型每秒提供450个tokens，每百万tokens的价格为60美分。速度比基于英伟达GPU的超大规模云解决方案快20倍。

▲Cerebras推理服务与其他服务在Llama 3.1 8B上的速度比较。单位：tokens/秒/用户。（图源：Cerebras官网）

▲Cerebras推理服务与其他服务在Llama 3.1 70B上的速度比较。单位：tokens/秒/用户。（图源：Cerebras官网）

此外，Cerebras推理服务在整个推理过程中始终保持在16位精度域内，确保在提升速度的同时不会牺牲模型的精度。大语言模型质量评估公司Artificial Analysis的联合创始人兼CEO Micah Hill-Smith谈道，他的团队已经验证了Llama 3.1 8B和Llama 3.1 70B模型在Cerebras推理服务上运行的质量评估结果：与Meta官方版本的原生16位精度一致。

跟据官网，该服务运行Llama3.1的速度比基于英伟达GPU的解决方案快20倍，而提供服务的芯片WSE-3价格仅为GPU的1/5，相当于AI推理工作负载的性价比提高了100倍。

“在Artificial Analysis的AI推理基准测试中，Cerebras推理服务已经领先。Cerebras推理服务的速度比基于GPU的解决方案快一个数量级，打破了测试的纪录。”Micah Hill-Smith说，“凭借推动超高的性能速度和具有竞争力的定价，Cerebras推理服务对具有实时或高容量需求的AI应用开发者特别具有吸引力。”

二、清晰的分级访问制度，用户可免费体验

Cerebras推理服务根据用户需求和使用情况，提供了分级制度，分为三个层级：

1、免费层级：这一层级为所有登录用户提供免费的API访问权限以及相对宽松的使用限制。用户可以在这个层级中体验，无需支付费用。

2、开发者层级：这一层级专为灵活的无服务器部署设计，为用户提供一个API端点。相比于市场上的大多数方案，其成本要低得多。对于Llama 3.1 8B和Llama 3.1 70B模型，每百万tokens的价格分别是10美分和60美分。未来，Cerebras计划持续推出对更多模型的支持。

3、企业层级：这一层级提供经过微调的模型、定制的服务级别协议和专门的支持。它适合需要持续的工作负载。企业可以通过Cerebras管理的私有云或在企业的本地部署访问Cerebras推理服务。可按需求定价。

Cerebras推理服务的这种分级制度旨在满足从小规模开发到大规模企业部署的不同需求。

三、推动多方战略合作，构建AI开发一条龙服务

在推动AI开发的战略合作伙伴关系中，Cerebras Systems正与一系列行业领导者合作，共同构建AI应用的未来生态。这些公司在各自的领域内提供关键技术和服务，比如，Docker旨在利用容器化技术使AI应用部署更加便捷和一致，LangChain为语言模型应用提供快速开发框架，Weights&Biases打造了供AI开发者训练和微调模型的MLOps平台……

“LiveKit很高兴能与Cerebras合作，帮助开发者构建下一代多模态AI应用。结合Cerebras的计算能力和模型以及LiveKit的全球边缘网络，所开发的语音和视频AI应用将实现超低延迟并更接近人类特征。”LiveKit公司的CEO兼联合创始人Russell D’sa说道，该公司专注于构建和扩展语音和视频应用程序。

AI搜索引擎创企Perplexity的CTO兼联合创始人Denis Yarats认为，Cerebras推理服务可以帮助AI搜索引擎在用户交互方面实现突破，从而提高用户参与度。

结语：AI计算战事升温，高效推理成焦点

根据国际数据公司（IDC）的研究，AI推理芯片在2020年已经占据了中国数据中心市场的50%以上份额，并预计到2025年，这一比例将增长至60.8%。据英伟达2024财年数据中心的业绩会纪要，其公司该年度有超过40%的收入来自AI推理业务。可见，AI推理不仅在当前市场中占有相当比例，而且预计在未来几年将继续保持增长势头。

Cerebras凭借其超快的推理速度、优异的性价比和独特的硬件设计，将赋予开发者构建下一代AI应用的能力，这些应用将涉及复杂、多步骤的实时处理任务。

然而，在生态系统的成熟度、模型支持的广泛性以及市场认知度方面，英伟达仍然占据优势。相比于Cerebra，英伟达拥有更大的用户群体和更丰富的开发者工具和支持。此外，虽然Cerebras支持主流模型（如Llama 3.1），但英伟达的GPU支持的深度学习框架和模型范围更广。对于已经深度集成在英伟达生态系统中的用户，Cerebras可能在模型支持的广度和灵活性方面略显不足。

来源：Cerebras Systems官网

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-29 11:45:09

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于性价比高,推理,性价比,全球,服务,推理的资讯：

星凡科技与国星宇航战略合作，解锁太空算力“天地同算”新篇章

...，以及吞吐量及并发量、功耗等性能优势，为客户以极高性价比搭建及极低成本运营智算中心提供保障。通过地面智算中心与太空AI卫星互联，实现天地数据实时互通、实施计算，服务于人工智能

2024-11-25 10:00:00

Cerebras 推出全球最快AI推理解决方案，速度是英伟达

...万个 token 10 美分，从而为 AI 工作负载提供 100 倍更高的性价比。该方案将允许 AI 应用程序开发人员构建下一代 AI 应用程序

2024-08-28 13:37:00

全新英特尔至强可扩展处理器，打破数智化变革瓶颈的一板利斧

...尔® 至强® 可扩展处理器用于AI加速工作负载的代际提升性价比高；另一方面，它可以覆盖从数据预处理、训练、推理的整个AI管线，实现端到端的AI加速。更重要的是，广泛且规模庞大

2023-12-20 19:21:00

节后娱乐消费重整旗鼓

...，让没有经验的玩家爱上剧本杀，再加上68元/盒的均价，性价比高，DM（剧本主持人）的开本质量高，形成了不错的口碑。“在这个特殊时期，有他们支持才能坚持下来。”为了接下来的春节

2023-01-10 01:33:00

英伟达没有慌，黄仁勋再谈DeepSeek：“推理”的计算需求

...理算力需求占比，原来走 GPU训练路线的，这种芯片由于性价比较低，在推理时代可能无法维持其高毛利率。不过据财联社援引路透社报道，有知情人士表示，由于对DeepSeek低成

2025-02-27 11:55:00

稳定高效普惠

...客户的需求，为客户量身设计方案并协助落地，可以提供性价比最优的一个算力中心，这是在算力中心建设方面的优势；其次我们更加专注于GPU的资源优化，还可以为用户提供定制化的模型服务

2024-08-29 06:30:00

破解实时性与成本难题！白山云发布“大模型API”产品

...分布式算力下沉与智能调度，能够为高实时、高隐私、高性价比场景提供关键支撑，驱动AI从集中式智能迈向“云-边-端”全域协同智能。聚焦边缘推理场景，白山云基于全球1700 边缘节

2025-07-10 20:59:00

ai生命周期：ai训练和ai推理的完美结合

...这个阶段使用常规的CPU最合适，其性能、能效、兼容性、性价比完美符合AI推理需求。当然，这对CPU的综合素质也是有着很高的需求的，足够强大且平衡的性能、能效、成本才能带来足够

2024-03-15 02:13:00

AI推理速度提升超10倍，Groq LPU能否取代英伟达GP

...的同时，其能耗成本仅有英伟达GPU的十分之一，这等于是性价比提高了100倍。 Groq公司在演示中展示了其芯片的强大性能

2024-02-21 14:03:00

更多关于科技的资讯：

【2025数博会】记者探数博｜机器人“咖啡师”上岗

在2025中国国际大数据产业博览会现场，一台智能咖啡机器人成为许多观众科技之旅的起点。只需简单几步，这位“咖啡师”就能制作出一杯手工现磨咖啡

2025-08-30 05:29:00

构建“全国算力一张网” 太原算力接入北京算力平台

近日，在省通信管理局精心筹划下，国家超算太原中心、中国移动山西公司智算中心携手接入北京市算力互联互通平台，标志着山西在落实国家“东数西算”战略

2025-08-30 06:46:00

胶东金秋家装节大牌联动920启动仪式在青岛成功举办

青岛，2025年8月29日——今日下午，“胶东金秋家装节大牌联动920启动仪式”在青岛市市北区居然之家店负一层中庭隆重举行

2025-08-30 07:23:00

【红色导师·思想汇报60】以青春之我，奔赴人工智能浪潮下的时

思想汇报：“人工智能是引领新一轮科技革命和产业变革的战略性技术。”今年暑假，我作为华中农业大学经济管理学院“数智商途”暑期社会实践团队的队长

2025-08-29 14:52:00

临沂首届“何为精工”高端私宅精工论坛启幕，精工专委会同步成立

8月27日至28日，临沂首届“何为精工”高端私宅精工论坛在居然之家北城店盛大启幕。论坛由临沂室内设计师协会主办，汇聚建筑

2025-08-29 14:52:00

从“一瓶酒”到“一头牛”：海普数智为传统产业装上“数据引擎”

在氤氲的酱酒香里，一粒粒红缨子高粱正被赋予数字身份，经历着从农田到餐桌的全程溯源；在繁忙的灌装生产线上，一个个智能瓶盖不再只是容器

2025-08-29 14:55:00

央牧乳业：构建全域渠道生态，引领羊乳产业升级新纪元

央牧乳业以“真羊乳，选央牧”为品牌核心，打造中国羊乳产业渠道建设标杆。目前已完成全国5000+龙头商超系统战略布局（含大润发

2025-08-29 14:59:00

《胖东来凭什么：一家幸福企业的哲学逻辑》出版发行

鲁网8月29日讯2025年8月，知名学者王立胜等人所著的《胖东来凭什么：一家幸福企业的哲学逻辑》一书由中国民主法制出版社出版发行

2025-08-29 16:03:00

小米升级澎湃OS 3Beta版后手机变得很烫，官方：约3天恢

8月29日，小米澎湃OS官方微博发布答网友问，详细介绍了澎湃OS 3 Beta 后续推送计划，集中回答大家对小米澎湃OS 3 Beta版的高频问题

2025-08-29 16:04:00

拼多多要亲自拍短剧？招聘短剧制片运营，年薪近50万

8月29日消息，拼多多在招聘平台上发布了一则引人注目的招聘信息，招聘“短剧制片运营”岗位，年薪近50万，负责短剧内容制作

2025-08-29 16:05:00

【2025数博会】可信数据空间破解数据要素流通难题

8月28日，2025中国国际大数据产业博览会上，行业专家与企业代表聚焦可信数据空间建设及数据要素市场化发展开展深度交流

2025-08-29 16:29:00

浙江卫视×浙江文交所联手打造全球首个爆款综艺文化数字资产

综艺史上的首次突破！浙江文化产权交易所携手Z视介，联手打造的浙江卫视全球首张综艺数字卡，8月29日重磅上线浙江文交所旗下乐数通平台

2025-08-29 16:30:00

对话领航者--滨高电梯朱海涛：成立换新体验中心业务聚焦两大

鲁网8月29日讯近日，齐鲁商势力联盟对话领航者走进滨州市滨高电梯销售有限公司日立换新体验中心，与公司负责人朱海涛面对面

2025-08-29 16:40:00

贵安超算中心：每秒1.3亿亿次的峰值算力助力影视项目渲染

2025年暑期档光影盛宴的背后，贵安超算中心功不可没：参与《猫和老鼠：星盘奇缘》《刺杀小说家2》《731》等12部影视项目渲染

2025-08-29 17:00:00

【2025数博会】虚拟F1驱动贵阳打造全球数字体育新生态

虚拟F1赛事已从娱乐载体跃升为融合职业竞技、技术研发与商业创新的复合生态系统，成为推动真实F1技术革新与连接尖端科技大众化的核心桥梁

2025-08-29 17:00:00

头条订阅服务

比GPU性价比高百倍！Cerebras推出新AI推理服务，号称“全球最快”