推理,模型,成本,参数,模型,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...LLM之间的性能差距正在迅速缩小，特别是在多项选择题、推理和数学问题等特定任务中，顶级模型之间的差异极小。例如，在多项选择题中，Claude 3 Opus、GPT- 4 和Gemini Ultra的准确率均超过83%，而在推理任务中，Claude3 Opus、GPT-4和Ge...……更多

2024-08-26 14:17:00模型,英伟,微软,模型,训练,性能

林达华谈大模型发展之路：未来会有更高效的模型结构出现

...模型的上下文长度快速增长，超长上下文解锁新应用，但推理计算代价高昂，上下文本身对于信息不会进行压缩，不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年，人工智能领域风起云涌...……更多

2024-03-25 10:53:00林达,模型,之路,结构,发展,模型

腾讯Angel机器学习平台获世界互联网大会领先科技奖

...腾讯Angel 机器学习平台，突破了万亿级模型分布式训练和推理以及大规模应用部署等难题，率先实现大模型技术从底层硬件到关键软件技术的自主研发，在业务场景广泛应用，显著推动实体产业和数字经济发展，提升社会效率。...……更多

2024-11-21 14:04:00科技奖,腾讯,机器,领先,大会,互联网

摆脱Transformer依赖？这家AI初创公司推出国内首个

...能效果——记忆能力提升3倍、速度提升7倍的同时，实现推理吞吐量的5倍提升。至于为何另辟蹊径，寻求非Transformer的大模型路径，岩芯数智CEO刘凡平指出，以大规模著称的Transformer，在实际应用中的高算力和高成本，让不少中...……更多

2024-01-29 06:31:00模型,机制,公司,模型,架构,岩芯

张云泉：集中力量，促进国产AI大模型发展

...法成为新时代的关键资源。大模型的开发、训练、微调及推理各个环节均离不开算力，且算力成本占据整体开销的大头。可以说，算力成为支撑大模型发展的关键因素，也是科技竞争的战略高地。在大规模的前端产品落地后，算...……更多

2024-09-03 14:17:00云泉,模型,国产,力量,发展,模型

腾讯大模型混元Turbo：御气升昺云，梓桐金鼎开

...模型，腾讯混元Turbo性能有显著提升，训练效率提升108%，推理效率提升 100%，推理成本降低 50%，解码速度提升 20%，效果在多个基准测试上对标GPT-4o。最新第三方测评在国内位居第一。腾讯混云大模型已经落地腾讯700+个业务场景...……更多

2024-09-14 14:04:00金鼎,腾讯,模型,腾讯,模型,推理

摩尔线程与360达成战略合作，将共同打造“360智脑大模型一

...模型一体机”集成了 360 智脑大模型，具备大模型管理、推理部署等功能，摩尔线程全功能 GPU 将为其提供底层算力，“以高性价比硬件方案确保大模型推理效率和成本的平衡”。双方还将共同研发和优化推理框架，在软件层面...……更多

2024-08-02 13:46:00摩尔,一体机,线程,模型,一体,战略

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...很多不同的GPU型号和显存大小。再加上，目前广泛应用于推理阶段的量化技术，比如可以用FP16或FP8精度，这会改变推理和训练/微调成本的比重。以上这些限制因素，都让模型规模的选择成为一个非常具有挑战性的问题。总体而...……更多

2024-07-29 09:33:00科学家,训练,科学,模型,训练,基准

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...CLM-Baseline取得了更高的平均分，且在ARC（小学生科学问题推理）、HellaSwag（常识推理）、MMLU等任务上表现更好。 “小”模型成新趋势回到开头，“小”模型最近已成新趋势。先是HuggingFace推出了小模型家族“SmolLM”，其中包含1...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

华为AI存储助力中国移动构建超大规模智算集群

...海量数据信息的投入。面对智算集群目前存在的可用度、推理体验等问题，华为推出业界首款AI存储——OceanStor A800，致力于成为支撑智算集群发展的关键基座。智算集群为千行万业发展新质生产力夯基筑石近年来，智能计算已...……更多

2024-12-19 18:16:00华为,集群,中国,中国移动,存储,规模

李开复AI公司首发大模型，阿里云领投 | 36氪独家

...SIQA、HellaSwag、WinoGrande等多个数据集，来评估Yi的“常识推理能力”“阅读理解能力”“数学与代码能力”等多维度能力。Yi能力。结果显示，Yi-6B在常识推理能力和阅读理解能力上达到了国内外开源模型的平均水平，但在数学与...……更多

2023-11-06 12:13:00李开复,万物,模型,能力,训练,阿里

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...72B在C-Eval、CMMLU、GaokaoBench等基准得分超越GPT-4。而在数学推理方面，Qwen-72B在GSM8K、MATH测评中也领先其他开源模型；代码理解方面，Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升，代码能力也有质的飞跃。△72B模型做数学题 ……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

商汤生成式AI业务飙涨256%，成为中国大模型、智算服务市场

...劲需求、“日日新SenseNova”大模型能力的飞跃式提升以及推理成本的快速下降，带动模型调用量增长迅速。报告期内，“绝影”智能汽车业务的表现也极为亮眼。其业务收入达1.7亿元，同比增长100%。上半年新增交付70.5万辆车，...……更多

2024-09-13 13:50:00商汤,市场占有率,占有率,中国,生成,模型

大模型价格战“卷”向何方？｜深度

...千亿参数MoE架构模型。MoE架构中基于多个专家并行机制，推理时只激活部分专家，以稀疏性压缩了参数数量和推理成本。“这就可以极大地节省算力耗费”。而率先掀起价格战的幻方DeepSeek-V2，就是其通过架构创新，实现了大模...……更多

2024-05-25 10:34:00何方,价格战,深度,模型,价格,模型

优刻得首个「国产千卡智算集群」落地，支持智源千亿大模型训练

...环境，可支持超千卡规模、千亿参数级别的大模型训练和推理任务，旨在突破算力瓶颈，加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计，提供低延迟、高吞吐、高可用的IB组网环境，支持GDR技术，使...……更多

2024-06-27 19:01:00集群,落地,模型,国产,训练,支持

反击OpenAI，谷歌放出最强悍大模型Gemini

...某些任务，例如描述图像，但难以处理更概念性和复杂的推理。其通过60页的相关技术报告证明，Gemini是一个真正原生的多模态大模型，因为从最初的预训练数据开始，Gemini就在针对不同模态的模型进行训练，因此其功能在每个...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

当大模型Scaling Law继续,万卡集群算力释放在百舸找

...需求不可避免迎来爆炸式增长，无论是前期训练还是后期推理，都是如此。在训练层面，OpenAI 曾在 2018 年做过估算，自 2012 年以来，AI 模型训练算力需求每 3.5 个月翻一番，每年所需算力增幅高达 10 倍，增速远远超出了芯片产...……更多

2024-09-26 13:37:00万卡,百舸,通途,集群,模型,百舸

大模型降价背后，国产大模型的竞争逻辑变了

...市场拱手让人。另一方面，随着大模型产业的快速发展，推理成本飞速下降，也成为终端降价的基础。据百度官方透露，相比一年前，文心大模型的算法训练效率提升到了原来的5.1倍，周均训练有效率达到98.8%，推理性能提升了1...……更多

2024-05-29 09:29:00模型,逻辑,背后,国产,竞争,模型

小模型越级挑战14倍参数大模型，谷歌Test-Time端新的

...发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法，根据给定的prompt难度，动态地分配测试时（Test-Time）的计算资源。结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。换句话说...……更多

2024-09-12 09:58:00模型,参数,模型,训练,测试,时计

国产GPU为底座，摩尔线程首个千卡智算中心落地

...型生态联盟，致力于夯实从智算基础设施到大模型训练与推理的国产大模型一体化生态。摩尔线程CEO张建中在主题演讲中带来新品发布，包括大模型智算加速卡MTT S4000，以及专为千亿参数大模型训练和推理提供强大支持的摩尔线...……更多

2023-12-20 09:46:00摩尔,底座,线程,落地,国产,摩尔

国产GPU万卡集群终于来了！摩尔线程CEO张建中：做难而正确

...的代表先后登台，对夸娥智算集群助力其在大模型训练、推理及具身智能的创新赞誉有加。加速一切大模型，只是第一步。张建中说，夸娥万卡集群不仅是加速AI，而是想要为美好世界加速。一、大模型训练呼唤万卡集群，国...……更多

2024-07-09 09:47:00摩尔,张建中,万卡,张建,集群,线程

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...」。模型升级：Baichuan4-Turbo两张4090即可部署，Baichuan4-Air推理成本下降99%接下来，如何将Baichuan4-Turbo、Baichuan4-Air应用在实际场景中？从名字中不难看出，它们都是Baichuan 4系列基础模型的升级。对于企业来说，在不同场景阶段……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

全球最强开源大模型Llama 3发布：使用15T数据预训练，

...业基准测试中达到了 SOTA，并提供了新的功能，如改进的推理能力。最强开源 LLM 来了Meta 官方博客写道，“得益于预训练和后训练的改进，我们的预训练和指令微调模型是目前 8B 和 70B 参数尺度下最好的模型。”他们表示，后期...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

小模型正在成为AI界的新宠

...算法，超越了同等大小和稍大一号的模型，在各种语言、推理、编码和数学基准测试中表现优异。苹果紧随其后，发布了 OpenELM，包含了 2.7 亿、4.5 亿、11 亿和 30 亿四个参数版本。与微软的 Phi-3 一样，OpenELM 也是一款专为终端设...……更多

2024-06-24 09:42:00新宠,模型,正在,模型,参数,训练

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...据具体询问的内容，模型只会激活不同的专家子模块进行推理，在吞吐量一定的情况下，可以更快地完成推理、给出回答。这让Grok-1拥有了更快的生成速度和更低的推理成本，简而言之就是更好的使用体验和性价比。根据xAI公布...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

商汤联合发布白皮书，首次提出新一代AI基础设施评估体系

...。AI2.0时代,需要新一代的基础设施来支撑大模型的训练与推理、生成式AI应用的规模化落地,其核心要素,如计算、存储、网络以及数据服务都要做精细化的设计和重构,而非简单的服务器或GPU实例堆砌。《白皮书》明确了新一代AI...……更多

2024-01-02 21:30:00商汤,白皮,白皮书,基础设施,新一代,评估

摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练

...教育大模型的快速迭代，摩尔线程、师者AI还将在大模型推理上开展适配工作。摩尔线程夸娥方案是业内首个跑通、跑完国产大模型的千卡集群，基于全功能MTT S4000 GPU，提供软硬一体化的全栈解决方案，具备模型覆盖、推理加速...……更多

2024-06-14 11:37:00摩尔,师者,集群,线程,模型,训练

pytorchtorchao正式发布,提供了一系列优化工具集

...将模型训练转换为float8，从而轻松实现模型高效训练。在推理方面，torchao提供多种量化方法，包括权重量化（Weight-OnlyQuantization）和动态激活量化（DynamicActivationQuantization），用户可以自有选择适合的量化策略，以获得最佳的模...……更多

2024-10-03 02:58:00工具集,工具,模型,可将,训练,推理