模型,性能,训练,模型,训练,数据头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

苹果300亿参数大模型首亮相，还买了家AI公司｜焦点分析

...武静静编辑｜邓咏仪放弃造车后的苹果，正在加速入局大模型战争。当地时间3月15日，苹果就披露了两个关键大模型动作。其中一个值得关注的是苹果的收购事件。彭博社报道称，苹果已经收购了一家加拿大AI初创公司DarwinAI。...……更多

2024-03-16 18:14:00模型,苹果,参数,焦点,分析,公司

提质降价，国产大模型加速奔跑

...302款生成式人工智能服务完成备案——提质降价，国产大模型加速奔跑本报记者王俊岭《人民日报海外版》（2025年02月05日第 11 版）日前，在福建省福州市鼓楼区安泰街道南门兜地铁站里举行的2025年就业援助月专项活动中，工...……更多

2025-02-05 03:48:00模型,国产,模型,国产,能力,成本

AI大模型有望再扩1000倍！剑桥耶鲁康奈尔：PNN是变革关

...一新兴的前沿领域还鲜少有人涉足，但绝对值得深耕！AI模型再扩展1000倍的秘密可能就藏在这里。随着Scaling Law越来越成功，LLM的电力和算力消耗也逐渐达到了惊人程度。我们越来越难以想象，当前的模型规模如何能再扩大10倍...……更多

2024-07-15 09:33:00康奈尔,康奈,耶鲁,剑桥,变革,模型

从0到1：国产化千卡集群的一小步，AI算力主动权的一大步

...。供求关系紧张是产生算力焦虑的根源所在。一方面，大模型训练与推理需求呈几何级数爆发——自2022年以来，人工智能算力需求每3~4个月就翻一番，每年训练AI模型所需算力增幅高达10倍，而生成式AI使上升曲线进一步陡峭，...……更多

2024-04-28 11:52:00小步,主动权,集群,大步,主动,国产

DeepSeek第二炸：开源首个用于 MoE 模型训练通信库

...出了开源代码库DeepEP王炸。据了解，DeepEP是首个用于 MoE 模型训练和推理的开源 EP 通信库，它填补了MoE模型专用通信工具的空白，为大规模分布式AI训练和实时推理场景提供了更高效的底层支持。在这里，简单介绍一下DeepEP的技...……更多

2025-02-25 11:33:00模型,训练,通信,推理,通信,场景

算力浪费超50%！百度AI计算部负责人拆解大模型时代的算力成

...构师、百度智能云AI计算部负责人王雁鹏向媒体解读了大模型时代的算力成本。为了有效降低AI万卡集群的算力开支，他提出搭载RDMA网络、自动并行策略、保证训练稳定性、动态分配算力、多芯异构混训，共五个方面的解决方案...……更多

2024-09-14 09:55:00拆解,模型,负责人,成本,时代,万卡

破解AI“胡说八道”，这家公司要给大模型投喂好原料｜产品观察

作者｜黄楠编辑｜袁斯来大模型今天所展示出的强大能力，源于背后海量数据，为其注入了丰富的人类知识。如果将大模型视为正在疾驰的科技列车，数据语料便是珍贵的“燃料”。其中，语料质量的提升对模型性能取得阶段...……更多

2024-07-30 00:59:00八道,模型,原料,观察,产品,公司

LeCun 的世界模型初步实现！基于预训练视觉特征，零样本规

...Yann LeCun 批评 LLM 的推文之一相反，他更注重所谓的世界模型（World Model），也就是根据世界数据拟合的一个动态模型。比如驴，正是有了这样的世界模型，它们才能找到更省力的负重登山方法。近日，LeCun 团队发布了他们在世界...……更多

2024-11-19 09:48:00样本,模型,特征,视觉,训练,规划

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

...Alignment。3. 黄灿：厦门大学数学系副教授随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推...……更多

2024-10-10 09:56:00框架,优势,统一,综合,模型,奖励

腾讯钟学丹：人工智能成为汽车行业新质生产力推动数智化升级

...《AI驱动汽车“新智能”》的主题演讲，分享了腾讯AI大模型等新技术在汽车产业的创新应用成果。腾讯智慧出行副总裁钟学丹钟学丹表示：“人工智能将作为新质生产力，推动汽车产业从数字化向数智化升级。”随着大模型技...……更多

2024-03-19 14:00:00智化,腾讯,人工智能,汽车行业,生产力,人工

图灵奖得主Yoshua Bengio新作：Were RNNs

自从 Transformer 模型问世以来，试图挑战其在自然语言处理地位的挑战者层出不穷。这次登场的选手，不仅要挑战 Transformer 的地位，还致敬了经典论文的名字。再看这篇论文的作者列表，图灵奖得主、深度学习三巨头之一的 Yoshu...……更多

2024-10-15 09:56:00图灵奖,图灵,得主,新作,序列,训练

Scaling Law百度最早提出！OpenAI/Claud

...统团队。他们探讨了深度学习中训练集大小、计算规模和模型精度之间的关系，并且通过大规模实证研究揭示了深度学习泛化误差和模型大小的缩放规律，还在图像和音频上进行了测试。只不过他们使用的是 LSTM，而不是Transforme...……更多

2024-11-28 09:57:00模型,训练,数据,大小,研究,误差

美国东北大学提出视频数据增强方法，能让视频模型学到更好的表征

...数据增强方法由于其缓解过拟合的特性，而被广泛使用在模型训练过程中，例如图像的旋转、缩放、颜色的改变等等。然而，美国东北大学三年级博士生张一天和所在团队发现作为图像色彩的一个重要属性，色调（Hue）的变化却...……更多

2024-05-07 10:12:00东北大学,视频,美国,模型,方法,数据

华为AI存储助力中国移动构建超大规模智算集群

...转自：人民日报《人民日报》（2024年12月19日第 18 版）大模型领域普遍存在规模化定律，即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI的运行主要基于深度学习原理，其发展离不开海量...……更多

2024-12-19 18:16:00华为,集群,中国,中国移动,存储,规模

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航，北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...领域中，序列建模是一项至关重要的任务。然而，现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此，北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon，它为解决这些难题带来了创新...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...家本领，来挤开源赛道，突然发布了市面上最大的开源MoE模型。Hunyuan-Large，3890亿总参数，520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰，上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型，但腾讯...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

3天把Llama训成Mamba，性能不降，推理更快！

...尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。先来看一张其乐融融的图片（一眼AI）：右边的小羊驼代表Llama，而左边的蛇（Mamba）也是我们的老熟人了。至于...……更多

2024-09-06 10:01:00推理,更快,性能,模型,输出,训练

扩散模型训练方法一直错了！谢赛宁：Representatio

...」？他表示：「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言，表征也依然有用。基于此，他们提出了 REPA，即表征对齐技术，其能让「训练扩散 Transformer 变得比你想象的更简单。」Yann LeCun 也对他们的...……更多

2024-10-15 09:57:00模型,训练,方法,模型,训练,视觉

给小学数学题加句废话，OpenAI o1就翻车了，苹果论文质

苹果新论文：AI 大模型可能不会推理。AI 大模型（LLM）真的像我们理解的那样能「思考」或「推理」吗？最近，苹果的一篇论文探讨了这个问题，并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。这篇题为「GSM-Symb...……更多

2024-10-14 09:55:00数学题,推理,废话,苹果,数学,小学

zyphra推出zamba2-mini1.2b模型

...29日消息，Zyphra于8月27日发布博文，宣布推出Zamba2-mini1.2B模型，共有12亿参数，声称是端侧SOTA小语言模型，在4bit量化下内存占用低于700MB。IT之家注：SOTA全称为state-of-the-art，并不是特指某个具体的模型，而是指在该项研究任务中...……更多

2024-08-30 05:47:00模型,模型,数据,内存,性能,训练