模型,训练,数据,大小,研究,误差头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Scaling Law百度最早提出！OpenAI/Claud

...统团队。他们探讨了深度学习中训练集大小、计算规模和模型精度之间的关系，并且通过大规模实证研究揭示了深度学习泛化误差和模型大小的缩放规律，还在图像和音频上进行了测试。只不过他们使用的是 LSTM，而不是Transforme...……更多

2024-11-28 09:57:00模型,训练,数据,大小,研究,误差

遗憾不?百度早研究过Scaling Law,Anthropi

...Scaling Law 的相关研究，并且通过实证研究验证了深度学习模型的泛化误差和模型大小随着训练集规模的增长而呈现出可预测的幂律 scaling 关系。只是，他们当时用的是 LSTM，而非 Transformer，也没有将相关发现命名为「Scaling Law」...……更多

2024-11-28 10:00:00灵感,遗憾,研究,模型,学习,曲线

Nature封面：AI训AI 越训越傻

...等学校机构的研究人员最新发现，使用合成数据训练，大模型可能会崩溃。其研究成果被选为最新的Nature封面。直接一个：GARBAGE OUT！要知道，现在绝大部分科技公司的大模型都在用合成数据来缓解“数据荒”。这下无疑是整个...……更多

2024-07-28 07:29:00封面,模型,误差,数据,训练,生成

类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究

视频生成模型虽然可以生成一些看似符合常识的视频，但被证实目前还无法理解物理规律！自从 Sora 横空出世，业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示，基于文本提示生...……更多

2024-11-09 09:59:00模型,豆包,系统性,字节,规律,团队

科研人员取得量子机器学习研究新进展

...新进展，首次证明了量子数据的纠缠程度对量子机器学习模型预测误差的影响表现出双重效应。相关研究成果近日在线发表在国际学术期刊《自然·通讯》上。论文通讯作者罗勇介绍，量子纠缠是实现量子计算优势的关键资源。...……更多

2024-05-16 17:28:00新进,量子,科研,机器,人员,研究

AI探索宇宙结构新突破！超精准场级模拟，半秒完成冷暗物质仿真

...进行编码的样式参数。研究人员在六维N-body相空间上训练模型，将粒子速度预测为模型位移输出的时间导数，显著提高了训练效率和模型准确性。最终，模拟器在测试数据（训练期间未见过的各种宇宙学和红移）上实现了良好的...……更多

2024-09-20 13:34:00暗物质,仿真,宇宙,突破,结构,粒子

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...模态不可学习样本，以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器，MEM方法有效地误导模型，降低其对隐私数据的学习能力，并在不同模型间展现出强大的可迁移性。多模态对比学习（如CLIP）...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

1-bit大模型还能再突破！新一代BitNet架构启用4位激

...et系列的原班人马推出了新一代架构：BitNet a4.8，为1 bit大模型启用了4位激活值，支持3 bit KV cache，效率再突破。量化到1 bit的LLM还能再突破？这次，他们对激活值下手了！近日，BitNet系列的原班人马推出了新一代架构：BitNet a4.8...……更多

2024-12-06 09:55:00架构,激活,新一代,模型,突破,激活

万字技术干货！LLM工程师必读量化指南，可视化图解揭秘大模型

...量化」的基本概念和分支方法进行了全方位总结。大语言模型（LLM）通常过于庞大，无法在消费级硬件上运行。这些模型的参数可能超过数十亿，通常需要显存较大的GPU来加速推理过程。因此，越来越多的研究开始关注如何缩小...……更多

2024-08-01 09:38:00干货,可视化,模型,工程师,指南,工程

信号表征指数级强、内存节省35%，量子隐式表征网络

...结果也证实了 QIREN 的确表现出超越信号表示任务上 SOTA 模型的优异性能，在参数量更少的情况下，拟合误差最多减少 35%。图 1 中展示了本文的核心思想和主要结论。相关论文已经被机器学习领域最权威的会议之一 ICML 2024 接收...……更多

2024-06-27 09:24:00量子,信号,内存,指数,网络,量子

清华提出时间序列大模型：面向通用时序分析的生成式Transf

【新智元导读】大模型在语言、图像领域取得了巨大成功，时间序列作为多个行业的重要数据类型，时序领域的大模型构建尚处于起步阶段。近期，清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练，获得...……更多

2024-07-22 09:44:00时间序列,时序,清华,序列,生成,模型

OpenAI发布最新技术研究，AI“黑盒”不再是难题！

...随着ChatGPT在法律、金融、营销等领域的广泛使用，确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性，我们根本无法验证其生成内容的准确性，这也就会出现输出“黑盒”的情况。为了...……更多

2024-07-18 09:47:00最新技术,难题,研究,技术,模型,小数

让机器人拥有人一样潜意识，英伟达1.5M小模型就能实现通用控

当机器人也有潜意识。大模型固然性能强大，但限制也颇多。如果想在端侧塞进 405B 这种级别的大模型，那真是小庙供不起大菩萨。近段时间，小模型正在逐渐赢得人们更多关注。这一趋势不仅出现在语言模型领域，也出现在...……更多

2024-11-01 09:28:00拥有人,英伟,潜意识,机器人,模型,机器

GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Tr

...Riley Goodside小哥，依然在用「Strawberry里有几个r」折磨大模型们，GPT-4o在无限次PUA后，已经被原地逼疯！相比之下，Claude坚决拒绝PUA，是个大聪明。而谷歌最近的论文也揭示了本质原因：LLM没有足够空间，来存储计数向量。Strawber...……更多

2024-09-09 13:36:00小哥,原地,外国,论文,小哥,研究者

1行代码改进大模型训练，Llama训练速度升至1.47倍，华

只要改一行代码，就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。...……更多

2024-11-28 09:58:00训练,模型,团队,速度,代码,华人

中国科学院大连化物所等开发出用于电池寿命预测的深度学习模型

...24.3434553）。据介绍，研究团队开发出了新型的深度学习模型，克服了传统方法对大量充电测试数据的依赖，为电池实时寿命预估提供了新思路，实现了锂电池寿命的端到端评估。该模型作为团队开发的第一代电池数字大脑 PBSRD...……更多

2024-09-04 09:49:00中国科学院,大连,中国,科学院,寿命,深度

王为磊：摸清海洋固碳“家底”

...者采访时说。不久前，王为磊联合国内外研究人员利用逆模型，首次描绘出海洋生物碳泵分布格局图，为海洋碳汇估算提供了新方法和新视角。这一成果在《自然》杂志发表后引发关注。国际学术成果影响力评价数据显示，论文...……更多

2024-03-28 02:22:00家底,海洋,海洋,模型,生物,研究

LLM训练通信量减少10000倍！全新分布式优化器，整合世间

...了1000到10000倍！如果可以使用世界上所有的算力来训练AI模型，会怎么样？近日，凭借发布了开源的Hermes 3（基于Llama 3.1）而引起广泛关注的Nous Research，再次宣布了一项重大突破——DisTrO（分布式互联网训练）。通过使用与架构...……更多

2024-09-10 13:39:00训练,分布式,世间,整合,全新,通信

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，M

【新智元导读】RNN模型在长上下文中表现不佳？近日，来自清华的研究团队对此进行了深入的实验分析，结果表明：不是RNN的锅。与Transformer相比，RNN模型的一大优势是应对长序列的能力。比如Mamba，内部状态大小始终保持不变...……更多

2024-11-28 12:03:00长上,清华,下文,团队,状态,作者

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安

在大算力和大数据让基于统计的 AI 模型真正变得强大且有用之前，基于规则的系统长期以来是语言模型的主导范式。顾名思义，基于规则的系统就是依赖人类编码的规则来执行决策。这种方式构建的 AI 虽然简单，但在某些特定...……更多

2024-11-07 09:54:00定律,机器人,模型,规则,机器,安全

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...而，构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外，高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日，由来自普林斯顿大学、格里菲斯大学等全球多地的华人国际科...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

非Transformer架构站起来了!首个纯无注意力大模型,

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

大模型是否有推理能力？DeepMind数月前的论文让AI社区

最近一段时间，随着 OpenAI o1 模型的推出，关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出，只要给模型一些干扰，最聪明的模型也会犯最简单的错误（参见《给小学数学题加句「...……更多

2024-10-23 12:05:00推理,模型,能力,论文,社区,模型

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

苹果最新杀入开源大模型战场，而且比其他公司更开放。推出7B模型，不仅效果与Llama 3 8B相当，而且一次性开源了全部训练过程和资源。要知道，不久前Nature杂志编辑Elizabeth Gibney还撰文批评：许多声称开源的AI模型，实际上在...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

马斯克承诺开源版大模型来了！Grok-1：3140亿参数迄

...之心开源社区有福了。说到做到，马斯克承诺的开源版大模型 Grok 终于来了！今天凌晨，马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家（MoE）模型‘Grok-1’，以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多

2024-03-18 11:51:00马斯,马斯克,权重,架构,模型,参数

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。大语言模型都卷起来了，模型越做越大，token越来越多，输出越来越长。那么问题来了，如何有效地评估大...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

DeepMind最新成果剑指量子力学，FermiNet或将破

....livescience.com/24509-light-wave-particle-duality-experiment.html在经典模型中，原子核位于中间，固定数量的电子绕着固定的轨道运行，如同太阳系一般严谨有序。但在量子系统中，电子等粒子完全没有这种精确的轨道，它们的位置是由「概...……更多

2024-09-05 09:51:00量子,力学,难题,成果,量子,方法