推理,模型,成本,参数,模型,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

小模型越级挑战14倍参数大模型，谷歌Test-Time端新的Scaling Law

...发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法，根据给定的prompt难度，动态地分配测试时（Test-Time）的计算资源。结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。换句话说...……更多

2024-09-12 09:58:00模型,参数,模型,训练,测试,时计

DeepSeek首次披露：理论成本利润率545%

...层涟漪。3月1日，DeepSeek在知乎上发表题为《DeepSeek-V3/R1 推理系统概览》的文章，全面揭晓V3/R1 推理系统背后的关键秘密。最为引人注目的是，文章首次披露了DeepSeek的理论成本和利润率等关键信息。据介绍，假定GPU租赁成本为2...……更多

2025-03-01 18:59:00利润率,利润,成本,理论,节点,模型

国产GPU为底座，摩尔线程首个千卡智算中心落地

...型生态联盟，致力于夯实从智算基础设施到大模型训练与推理的国产大模型一体化生态。摩尔线程CEO张建中在主题演讲中带来新品发布，包括大模型智算加速卡MTT S4000，以及专为千亿参数大模型训练和推理提供强大支持的摩尔线...……更多

2023-12-20 09:46:00摩尔,底座,线程,落地,国产,摩尔

国产GPU万卡集群终于来了！摩尔线程CEO张建中：做难而正确

...的代表先后登台，对夸娥智算集群助力其在大模型训练、推理及具身智能的创新赞誉有加。加速一切大模型，只是第一步。张建中说，夸娥万卡集群不仅是加速AI，而是想要为美好世界加速。一、大模型训练呼唤万卡集群，国...……更多

2024-07-09 09:47:00摩尔,张建中,万卡,张建,集群,线程

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...」。模型升级：Baichuan4-Turbo两张4090即可部署，Baichuan4-Air推理成本下降99%接下来，如何将Baichuan4-Turbo、Baichuan4-Air应用在实际场景中？从名字中不难看出，它们都是Baichuan 4系列基础模型的升级。对于企业来说，在不同场景阶段……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

全球最强开源大模型Llama 3发布：使用15T数据预训练，

...业基准测试中达到了 SOTA，并提供了新的功能，如改进的推理能力。最强开源 LLM 来了Meta 官方博客写道，“得益于预训练和后训练的改进，我们的预训练和指令微调模型是目前 8B 和 70B 参数尺度下最好的模型。”他们表示，后期...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

小模型正在成为AI界的新宠

...算法，超越了同等大小和稍大一号的模型，在各种语言、推理、编码和数学基准测试中表现优异。苹果紧随其后，发布了 OpenELM，包含了 2.7 亿、4.5 亿、11 亿和 30 亿四个参数版本。与微软的 Phi-3 一样，OpenELM 也是一款专为终端设...……更多

2024-06-24 09:42:00新宠,模型,正在,模型,参数,训练

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...据具体询问的内容，模型只会激活不同的专家子模块进行推理，在吞吐量一定的情况下，可以更快地完成推理、给出回答。这让Grok-1拥有了更快的生成速度和更低的推理成本，简而言之就是更好的使用体验和性价比。根据xAI公布...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

商汤联合发布白皮书，首次提出新一代AI基础设施评估体系

...。AI2.0时代,需要新一代的基础设施来支撑大模型的训练与推理、生成式AI应用的规模化落地,其核心要素,如计算、存储、网络以及数据服务都要做精细化的设计和重构,而非简单的服务器或GPU实例堆砌。《白皮书》明确了新一代AI...……更多

2024-01-02 21:30:00商汤,白皮,白皮书,基础设施,新一代,评估

摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练

...教育大模型的快速迭代，摩尔线程、师者AI还将在大模型推理上开展适配工作。摩尔线程夸娥方案是业内首个跑通、跑完国产大模型的千卡集群，基于全功能MTT S4000 GPU，提供软硬一体化的全栈解决方案，具备模型覆盖、推理加速...……更多

2024-06-14 11:37:00摩尔,师者,集群,线程,模型,训练

pytorchtorchao正式发布,提供了一系列优化工具集

...将模型训练转换为float8，从而轻松实现模型高效训练。在推理方面，torchao提供多种量化方法，包括权重量化（Weight-OnlyQuantization）和动态激活量化（DynamicActivationQuantization），用户可以自有选择适合的量化策略，以获得最佳的模...……更多

2024-10-03 02:58:00工具集,工具,模型,可将,训练,推理

3天把Llama训成Mamba，性能不降，推理更快！

...Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。先来看一张其乐融融的图片（一眼AI）：右边的小羊驼代表Llama，而左边的蛇（Mamba）也是我们的老熟人了。至于到底能不能其乐融融，咱就不管了，之所以有此场景...……更多

2024-09-06 10:01:00推理,更快,性能,模型,输出,训练

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

...出的巨大潜力，而这种潜力的核心基石正是智能体的复杂推理能力。与当下广受关注的 OpenAI-o1 及其追随者略有不同，大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类：虽然不是每个人都需要具备...……更多

2024-12-11 09:53:00清华,学徒,蚂蚁,不够,团队,怎么办

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

...设定了一个新的前沿”。Mistral Large 2尤其擅长代码和数学推理，上下文窗口128k，支持数十种自然语言以及80+编程语言。特别在MMLU上，其预训练版本更是达到了84.0%的准确率。消息一出，Mistral AI联创兼首席科学家第一时间转发，...……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

算力直降97%，GPT-3存储只用20MB？！这篇新论文火了

...开始，作者提到前人研究已经表明，大语言模型（LLM）的推理可以在1.58-bit精度下进行，且不会有任何性能损失。比如下面这篇论文，有人引入了1-bit的LLM变体（即BitNet b1.58），其中LLM的每个参数或权重都是三元的{-1, 0, 1}。它在...……更多

2024-12-30 09:11:00文火,新论,存储,训练,小哥,模型

李开复：AI大模型产业如何找到“算力”最优解

...术成本×产品市场契合度）。在大模型时代，模型训练和推理成本构成了几乎每个创业公司都必须要面对的增长陷阱。用户增长需要优质的应用，而优质应用离不开强大的基座模型，强大基座模型的背后往往是高昂的训练成本，...……更多

2024-06-17 04:28:00李开复,模型,产业,模型,应用,万物

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...ta 提出“可持续思维链”：让大语言模型在连续潜空间中推理GameArena：通过实时电脑游戏评估 LLM 推理想要第一时间获取每日最新大模型热门论文？点击阅读原文，查看「2024必读大模型论文」合集，以及申请加入「大模型技术...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Soh

...元导读】史上最快Transformer芯片诞生了！用Sohu跑Llama 70B，推理性能已超B200十倍，超H100二十倍！刚刚，几位00后小哥从哈佛辍学后成立的公司Etached，宣布再融资1.2亿美元。有史以来最快的Transformer芯片，刚刚诞生了？去年21岁哈佛...……更多

2024-06-27 09:25:00小哥,英伟,哈佛,华裔,推理,芯片

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

...的连续提示学习新方法，可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识，同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

360智脑7b参数模型采用3.4万亿tokens训练

...AMBADA，考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一，平均分为第三。在LongBench（多任务、中英双语、针对大语言模型长文本理解能力的评测基准）测...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...在训练过程中在两个损失之间进行相应的超参数调优。在推理过程中，该方法不掩蔽任何 patch。未掩蔽微调由于极高的掩蔽率会大大降低扩散模型学习图像全局结构的能力，并在序列大小上引入训练 - 测试分布偏移，因此作者考...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

阿里云重磅升级全栈AI体系，一文看懂云栖大会技术发布

...7连发，在模型智能水平、Agent工具调用和Coding能力、深度推理、多模态等方面实现多项突破。2025云栖大会，阿里云CTO周靖人发布多项重磅技术更新在大语言模型中，阿里通义旗舰模型Qwen3-Max全新亮相，性能超过GPT5、Claude Opus 4等...……更多

2025-09-24 13:30:00一文,阿里,重磅,体系,大会,升级

亚马逊连甩6款大模型！推出3nm AI训练芯片，最强AI服务

...比，苹果已用Amazon Graviton、Inferentia等AWS芯片在机器学习推理工作负载方面实现了40%以上的效率提升，并预计在Trainium 2上预训练模型时，效率将提高50%。被亚马逊豪掷80亿美元投资的Anthropic，宣布与AWS共同构建面向机器学习训练...……更多

2024-12-05 09:47:00亚马,亚马逊,芯片,模型,训练,服务器

DeepSeek，大消息

...伟达开源了首个在Blackwell架构上优化的DeepSeek-R1，实现了推理速度提升25倍，并且每token成本降低20倍的惊人成果。这一新模型的推出，标志着英伟达在人工智能领域的又一次重大进展。开源周第三天，DeepSeek宣布开源Optimized Paralle...……更多

2025-02-27 15:51:00消息,英伟,模型,推理,训练,通信

LeCun 的世界模型初步实现！基于预训练视觉特征，零样本规

...常有限…… 无法理解物理世界，没有持续性记忆，不能推理（只要推理的定义是合理的）、不能规划。」Yann LeCun 批评 LLM 的推文之一相反，他更注重所谓的世界模型（World Model），也就是根据世界数据拟合的一个动态模型。比...……更多

2024-11-19 09:48:00样本,模型,特征,视觉,训练,规划

大模型步入推理Scaling时代,SambaNova如何挑战

...震。o1 能像人类一样「思考」复杂问题，拥有优秀的通用推理能力。在未经专门训练的情况下，o1 能够直接拿下数学奥赛金牌，甚至能在博士级别的科学问答环节上超越人类专家。在性能跃升之外，更重要的是，它揭示了大模型...……更多

2024-10-21 09:55:00英伟,霸主,推理,模型,地位,时代

Hugging Face发布SmolVLM开源 AI 模型：

...lVLM AI 视觉语言模型（VLM），仅有 20 亿参数，用于设备端推理，凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效，并且完全开源，所有模型检查点、VLM 数据集、训练...……更多

2024-11-28 09:47:00推理,模型,参数,模型,吞吐量,吞吐

文生图参数量升至240亿！Playground v3发布：深

...像描述性能。实验结果表明，PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色；用户偏好研究表明，PGv3模型在常见的设计应用中，如表情包（stickers）、海报和logo设计，具有超越人类的图形设计能力，还能够精确...……更多

2024-10-08 09:48:00文生,图形设计,深度,图形,人类,参数

推动前沿大模型技术应用这只浙股去年营收净利双增

...司利用自主研发的训练框架和量化算法显著提升了训练和推理速度，并优化了模型精度与推理吞吐量；在智能安全保障上，公司采用RLHF方案对齐安全认知，创新的热修复技术确保了大模型的安全性，提供安全、可靠的用户体验...……更多

2025-02-26 09:09:00净利,技术应用,模型,应用,技术,模型

大模型不会推理，为什么也能有思路？有人把原理搞明白了

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理，在今年 6 月，一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多

2024-11-23 09:42:00推理,模型,思路,原理,推理,模型