推理,模型,成本,参数,模型,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...Hot Chips 2024大会上，Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示，WSE-3依然是采用了一整张12英寸晶圆来制作，基于台积电5nm制程，芯片面积为46225平方毫米，拥有的晶体管数量达到了4万亿个，拥有90...……更多

2024-09-02 13:36:00晶圆,芯片,生成,模型,性能,参数

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上

... Meta 对 Llama 模型来了一波大更新：不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型，还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此，Meta 还正式发布了 Llama Stack Distribution，其可……更多

2024-09-27 13:42:00推理,可在,图像,运行,版本,支持

大模型“免费”送，厂商们图什么？

...，零一万物CEO李开复接受采访时表示：“未来整个行业的推理成本每年降低10倍是可以期待的，而且这个趋势是必然的。”未来，大模型的成本将呈阶梯状下探，但目前大模型的价格却断崖式下探，甚至部分企业免费送，降价幅...……更多

2024-06-05 10:57:00模型,厂商,模型,企业,成本,商业

紫东.太初再进化，揭秘全模态大模型的想象力

...会出现一些意想不到的复杂能力，譬如类似人类的思维和推理能力。正如前面所提到的，紫东.太初2.0首次提出了全模态多任务统一生成式学习框架，即全模态分组对齐、分组解码和联合解码的学习方式，形成了全模态逻辑推理...……更多

2023-05-12 06:00:00太初,模态,想象力,进化,模型,模态

微软、英伟达纷纷押注小模型，大模型不香了？

...LLM之间的性能差距正在迅速缩小，特别是在多项选择题、推理和数学问题等特定任务中，顶级模型之间的差异极小。例如，在多项选择题中，Claude 3 Opus、GPT- 4 和Gemini Ultra的准确率均超过83%，而在推理任务中，Claude3 Opus、GPT-4和Ge...……更多

2024-08-26 14:17:00模型,英伟,微软,模型,训练,性能

林达华谈大模型发展之路：未来会有更高效的模型结构出现

...模型的上下文长度快速增长，超长上下文解锁新应用，但推理计算代价高昂，上下文本身对于信息不会进行压缩，不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年，人工智能领域风起云涌...……更多

2024-03-25 10:53:00林达,模型,之路,结构,发展,模型

腾讯Angel机器学习平台获世界互联网大会领先科技奖

...腾讯Angel 机器学习平台，突破了万亿级模型分布式训练和推理以及大规模应用部署等难题，率先实现大模型技术从底层硬件到关键软件技术的自主研发，在业务场景广泛应用，显著推动实体产业和数字经济发展，提升社会效率。...……更多

2024-11-21 14:04:00科技奖,腾讯,机器,领先,大会,互联网

摆脱Transformer依赖？这家AI初创公司推出国内首个

...能效果——记忆能力提升3倍、速度提升7倍的同时，实现推理吞吐量的5倍提升。至于为何另辟蹊径，寻求非Transformer的大模型路径，岩芯数智CEO刘凡平指出，以大规模著称的Transformer，在实际应用中的高算力和高成本，让不少中...……更多

2024-01-29 06:31:00模型,机制,公司,模型,架构,岩芯

张云泉：集中力量，促进国产AI大模型发展

...法成为新时代的关键资源。大模型的开发、训练、微调及推理各个环节均离不开算力，且算力成本占据整体开销的大头。可以说，算力成为支撑大模型发展的关键因素，也是科技竞争的战略高地。在大规模的前端产品落地后，算...……更多

2024-09-03 14:17:00云泉,模型,国产,力量,发展,模型

腾讯大模型混元Turbo：御气升昺云，梓桐金鼎开

...模型，腾讯混元Turbo性能有显著提升，训练效率提升108%，推理效率提升 100%，推理成本降低 50%，解码速度提升 20%，效果在多个基准测试上对标GPT-4o。最新第三方测评在国内位居第一。腾讯混云大模型已经落地腾讯700+个业务场景...……更多

2024-09-14 14:04:00金鼎,腾讯,模型,腾讯,模型,推理

摩尔线程与360达成战略合作，将共同打造“360智脑大模型一

...模型一体机”集成了 360 智脑大模型，具备大模型管理、推理部署等功能，摩尔线程全功能 GPU 将为其提供底层算力，“以高性价比硬件方案确保大模型推理效率和成本的平衡”。双方还将共同研发和优化推理框架，在软件层面...……更多

2024-08-02 13:46:00摩尔,一体机,线程,模型,一体,战略

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...很多不同的GPU型号和显存大小。再加上，目前广泛应用于推理阶段的量化技术，比如可以用FP16或FP8精度，这会改变推理和训练/微调成本的比重。以上这些限制因素，都让模型规模的选择成为一个非常具有挑战性的问题。总体而...……更多

2024-07-29 09:33:00科学家,训练,科学,模型,训练,基准

一键解锁ChatGPT原理与应用

...的语言理解能力；②极为广泛的知识储备；③学习能力与推理能力等等。这些能力让人们感觉人工智能真正拥有了“脑子”，想象着使用GPT解决一切问题。然而，若真的要深入应用该技术，有必要了解其局限性，以便在实际应用...……更多

2023-05-10 03:00:00一键,原理,应用,模型,用户,问题

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...CLM-Baseline取得了更高的平均分，且在ARC（小学生科学问题推理）、HellaSwag（常识推理）、MMLU等任务上表现更好。 “小”模型成新趋势回到开头，“小”模型最近已成新趋势。先是HuggingFace推出了小模型家族“SmolLM”，其中包含1...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...72B在C-Eval、CMMLU、GaokaoBench等基准得分超越GPT-4。而在数学推理方面，Qwen-72B在GSM8K、MATH测评中也领先其他开源模型；代码理解方面，Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升，代码能力也有质的飞跃。△72B模型做数学题 ……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

商汤生成式AI业务飙涨256%，成为中国大模型、智算服务市场

...劲需求、“日日新SenseNova”大模型能力的飞跃式提升以及推理成本的快速下降，带动模型调用量增长迅速。报告期内，“绝影”智能汽车业务的表现也极为亮眼。其业务收入达1.7亿元，同比增长100%。上半年新增交付70.5万辆车，...……更多

2024-09-13 13:50:00商汤,市场占有率,占有率,中国,生成,模型

李开复AI公司首发大模型，阿里云领投 | 36氪独家

...SIQA、HellaSwag、WinoGrande等多个数据集，来评估Yi的“常识推理能力”“阅读理解能力”“数学与代码能力”等多维度能力。Yi能力。结果显示，Yi-6B在常识推理能力和阅读理解能力上达到了国内外开源模型的平均水平，但在数学与...……更多

2023-11-06 12:13:00李开复AI公司首发大模型，阿里云领投 | 36氪独家

大模型价格战“卷”向何方？｜深度

...千亿参数MoE架构模型。MoE架构中基于多个专家并行机制，推理时只激活部分专家，以稀疏性压缩了参数数量和推理成本。“这就可以极大地节省算力耗费”。而率先掀起价格战的幻方DeepSeek-V2，就是其通过架构创新，实现了大模...……更多

2024-05-25 10:34:00何方,价格战,深度,模型,价格,模型

优刻得首个「国产千卡智算集群」落地，支持智源千亿大模型训练

...环境，可支持超千卡规模、千亿参数级别的大模型训练和推理任务，旨在突破算力瓶颈，加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计，提供低延迟、高吞吐、高可用的IB组网环境，支持GDR技术，使...……更多

2024-06-27 19:01:00集群,落地,模型,国产,训练,支持

当大模型Scaling Law继续,万卡集群算力释放在百舸找

...需求不可避免迎来爆炸式增长，无论是前期训练还是后期推理，都是如此。在训练层面，OpenAI 曾在 2018 年做过估算，自 2012 年以来，AI 模型训练算力需求每 3.5 个月翻一番，每年所需算力增幅高达 10 倍，增速远远超出了芯片产...……更多

2024-09-26 13:37:00万卡,百舸,通途,集群,模型,百舸

反击OpenAI，谷歌放出最强悍大模型Gemini

...某些任务，例如描述图像，但难以处理更概念性和复杂的推理。其通过60页的相关技术报告证明，Gemini是一个真正原生的多模态大模型，因为从最初的预训练数据开始，Gemini就在针对不同模态的模型进行训练，因此其功能在每个...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

大模型降价背后，国产大模型的竞争逻辑变了

...市场拱手让人。另一方面，随着大模型产业的快速发展，推理成本飞速下降，也成为终端降价的基础。据百度官方透露，相比一年前，文心大模型的算法训练效率提升到了原来的5.1倍，周均训练有效率达到98.8%，推理性能提升了1...……更多

2024-05-29 09:29:00模型,逻辑,背后,国产,竞争,模型

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...」。模型升级：Baichuan4-Turbo两张4090即可部署，Baichuan4-Air推理成本下降99%接下来，如何将Baichuan4-Turbo、Baichuan4-Air应用在实际场景中？从名字中不难看出，它们都是Baichuan 4系列基础模型的升级。对于企业来说，在不同场景阶段……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本