• 我的订阅
  • 头条热搜
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
...统团队。他们探讨了深度学习中训练集大小、计算规模和模型精度之间的关系,并且通过大规模实证研究揭示了深度学习泛化误差和模型大小的缩放规律,还在图像和音频上进行了测试。只不过他们使用的是 LSTM,而不是Transforme...……更多
遗憾不?百度早研究过Scaling Law,Anthropic CEO灵感都来自百度
...Scaling Law 的相关研究,并且通过实证研究验证了深度学习模型的泛化误差和模型大小随着训练集规模的增长而呈现出可预测的幂律 scaling 关系。只是,他们当时用的是 LSTM,而非 Transformer,也没有将相关发现命名为「Scaling Law」...……更多
Nature封面:AI训AI 越训越傻
...等学校机构的研究人员最新发现,使用合成数据训练,大模型可能会崩溃。其研究成果被选为最新的Nature封面。直接一个:GARBAGE OUT!要知道,现在绝大部分科技公司的大模型都在用合成数据来缓解“数据荒”。这下无疑是整个...……更多
类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律!自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生...……更多
科研人员取得量子机器学习研究新进展
...新进展,首次证明了量子数据的纠缠程度对量子机器学习模型预测误差的影响表现出双重效应。相关研究成果近日在线发表在国际学术期刊《自然·通讯》上。论文通讯作者罗勇介绍,量子纠缠是实现量子计算优势的关键资源。...……更多
AI探索宇宙结构新突破!超精准场级模拟,半秒完成冷暗物质仿真
...进行编码的样式参数。研究人员在六维N-body相空间上训练模型,将粒子速度预测为模型位移输出的时间导数,显著提高了训练效率和模型准确性。最终,模拟器在测试数据(训练期间未见过的各种宇宙学和红移)上实现了良好的...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模型间展现出强大的可迁移性。多模态对比学习(如CLIP)...……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...et系列的原班人马推出了新一代架构:BitNet a4.8,为1 bit大模型启用了4位激活值,支持3 bit KV cache,效率再突破。量化到1 bit的LLM还能再突破?这次,他们对激活值下手了!近日,BitNet系列的原班人马推出了新一代架构:BitNet a4.8...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...量化」的基本概念和分支方法进行了全方位总结。大语言模型(LLM)通常过于庞大,无法在消费级硬件上运行。这些模型的参数可能超过数十亿,通常需要显存较大的GPU来加速推理过程。因此,越来越多的研究开始关注如何缩小...……更多
信号表征指数级强、内存节省35%,量子隐式表征网络
...结果也证实了 QIREN 的确表现出超越信号表示任务上 SOTA 模型的优异性能,在参数量更少的情况下,拟合误差最多减少 35%。图 1 中展示了本文的核心思想和主要结论。相关论文已经被机器学习领域最权威的会议之一 ICML 2024 接收...……更多
清华提出时间序列大模型:面向通用时序分析的生成式Transformer
【新智元导读】大模型在语言、图像领域取得了巨大成功,时间序列作为多个行业的重要数据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练,获得...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这也就会出现输出“黑盒”的情况。为了...……更多
让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了
当机器人也有潜意识。大模型固然性能强大,但限制也颇多。如果想在端侧塞进 405B 这种级别的大模型,那真是小庙供不起大菩萨。近段时间,小模型正在逐渐赢得人们更多关注。这一趋势不仅出现在语言模型领域,也出现在...……更多
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...Riley Goodside小哥,依然在用「Strawberry里有几个r」折磨大模型们,GPT-4o在无限次PUA后,已经被原地逼疯!相比之下,Claude坚决拒绝PUA,是个大聪明。而谷歌最近的论文也揭示了本质原因:LLM没有足够空间,来存储计数向量。Strawber...……更多
1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品
只要改一行代码,就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器Cautious Optimizers。在提速的同时,Cautious能够保证训练效果不出现损失,而且语言和视觉模型都适用。...……更多
中国科学院大连化物所等开发出用于电池寿命预测的深度学习模型
...24.3434553)。 据介绍,研究团队开发出了新型的深度学习模型,克服了传统方法对大量充电测试数据的依赖,为电池实时寿命预估提供了新思路,实现了锂电池寿命的端到端评估。该模型作为团队开发的第一代电池数字大脑 PBSRD...……更多
王为磊:摸清海洋固碳“家底”
...者采访时说。不久前,王为磊联合国内外研究人员利用逆模型,首次描绘出海洋生物碳泵分布格局图,为海洋碳汇估算提供了新方法和新视角。这一成果在《自然》杂志发表后引发关注。国际学术成果影响力评价数据显示,论文...……更多
LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI
...了1000到10000倍!如果可以使用世界上所有的算力来训练AI模型,会怎么样?近日,凭借发布了开源的Hermes 3(基于Llama 3.1)而引起广泛关注的Nous Research,再次宣布了一项重大突破——DisTrO(分布式互联网训练)。通过使用与架构...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅。与Transformer相比,RNN模型的一大优势是应对长序列的能力。比如Mamba,内部状态大小始终保持不变...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...而,构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外,高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日,由来自普林斯顿大学、格里菲斯大学等全球多地的华人国际科...……更多
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
在大算力和大数据让基于统计的 AI 模型真正变得强大且有用之前,基于规则的系统长期以来是语言模型的主导范式。顾名思义,基于规则的系统就是依赖人类编码的规则来执行决策。这种方式构建的 AI 虽然简单,但在某些特定...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
苹果最新杀入开源大模型战场,而且比其他公司更开放。推出7B模型,不仅效果与Llama 3 8B相当,而且一次性开源了全部训练过程和资源。要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:许多声称开源的AI模型,实际上在...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
最近一段时间,随着 OpenAI o1 模型的推出,关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出,只要给模型一些干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...之心开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多
DeepMind最新成果剑指量子力学,FermiNet或将破解近百年计算难题
....livescience.com/24509-light-wave-particle-duality-experiment.html在经典模型中,原子核位于中间,固定数量的电子绕着固定的轨道运行,如同太阳系一般严谨有序。但在量子系统中,电子等粒子完全没有这种精确的轨道,它们的位置是由「概...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多
从炒菜到缝针!斯坦福炒虾团队打造自主「AI达芬奇」,苦练神指当外科医生
...这项工作中,达芬奇的运动学数据可能并不可靠。他们的模型基于ACT,一种基于Transformer的架构。团队提出了一种策略设计,仅将图形作为输入,并输出相对姿态轨迹如果这种方法成功,那么包含近似运动学的大型临床数据存储...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...【新智元导读】Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。开源绝对是AI...……更多
更多关于科技的资讯:
春晚与淘宝,如何成为“最佳搭档”的?
作者:剑秋申遗后的春晚,正在变得更年轻? 在辞旧迎新的除夕夜,春节联欢晚会这个持续了43年的文化盛宴,在其与老搭档淘宝7年后第四次携手之际
2025-02-03 07:17:00
2024年全新上市车型销量榜:比亚迪秦L第一 一年狂卖228818辆
快科技2月2日消息,易车榜根据终端销量数据,整理了2024年上市的全新车型销量Top20榜单。具体来看,比亚迪秦L为去年上市的全新车型销冠车型
2025-02-02 23:10:00
苹果宣布开源Swift Build:拓展开发者生态建设
快科技2月2日消息,据报道,苹果宣布其将开源用于构建Xcode开发环境的工具引擎Swift Build。为开发者提供更加灵活和强大的工具支持
2025-02-02 23:40:00
阿西莫夫三定律 还适用于今天的AI吗
1942年,伟大的科幻作家艾萨克·阿西莫夫(Isaac Asimov)在他的短篇小说《转圈圈》(Runaround)中首次提出了“机器人三定律”
2025-02-02 23:40:00
想买YU7 先看看这台14000公里的创始版SU7现在咋样了
各位买新能源车的时候,会考虑二手车么?反正脖子哥我是有点心动的,二手新能源大部分年份都很近,里程数很低,而且一看价格全是骨折价
2025-02-03 01:10:00
“新冰箱吸不住高价买的冰箱贴”,气疯有囤积癖的年轻人
原标题:为什么新出的冰箱,吸不住冰箱贴了?作者:梁婷婷囤满食物的冰箱,在爸妈眼里自带一种年味儿,但一代人有一代人的“囤积癖”
2025-02-03 03:03:00
电动车主分享高速服务区充电小妙招:过个通道立马不用排队等桩
快科技2月2日消息,随着新能源汽车保有量的增多,每年春运期间都会出现服务区充电排队的情况。日前,有电动车车主分享了一个高速服务区充电小妙招
2025-02-02 12:40:00
《哪吒》导演饺子:试过外包给国际团队制作 但效果不理想
快科技2月2日消息,据网络平台最新数据,截至2月2日11时12分,2025春节档总票房(含预售)破64亿元。《哪吒之魔童闹海》《唐探1900》《封神第二部
2025-02-02 12:40:00
最便宜的50系列显卡终于来了!RTX 5060 Ti/5060将于3月上市:最高16GB大显存
快科技2月2日消息,RTX 5090D(国内特供版)、RTX 5080已于1月30日(大年初二)正式在国内上市。虽然性能顶级
2025-02-02 12:40:00
DeepSeek-R1大模型登陆腾讯云:一键部署 3分钟调用
快科技2月2日消息,据腾讯云官微发文,DeepSeek-R1大模型一键部署至腾讯云「HAI」上,开发者仅需3分钟就能接入调用
2025-02-02 13:10:00
Intel下一代移动、桌面CPU官宣!Panther Lake 2025年下半年推出 Nova Lake 2026年见
快科技2月2日消息,尽管2024年第四季度财报表现不佳,但Intel的制造工艺、产品并未停歇,各项工作依然在积极推进。被外界寄予厚望
2025-02-02 14:10:00
华为三折叠即将走向世界!Mate XT非凡大师获阿联酋认证
快科技2月2日消息,华为Mate XT三折叠手机近日通过了阿联酋TDRA的官方认证,型号为GRL-LX9,注册编号为ER41137/25
2025-02-02 15:10:00
最快的N卡和最快的A卡跑DeepSeek谁更快:RTX 5090比RX 7900 XTX快一倍
快科技2月2日消息,最快的N卡和最快的A卡跑DeepSeek谁更快?最新消息显示,RTX 5090在DeepSeek R上的推理性能比AMD的 RX 7900 XTX快得多
2025-02-02 15:10:00
玩家被耍!整个欧洲的RTX 5090、5080公版卡发售前就被黄牛机器人抢空了
快科技2月2日消息,RTX 5090、5080已于1月30日正式上市,但极度缺货,想以官价买到几乎不可能。除了供应短缺之外
2025-02-02 15:40:00
2024年中国外贸总值破43万亿,人民日报金社平夸赞喜临门
2025年开年,中国外贸传来振奋人心的好消息:2024年外贸总值突破43.85万亿元,同比增长5%。人民日报署名金社平发文《从外贸看中国经济韧性》
2025-02-02 15:49:00