新作,速度,训练,学习,模型,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

【新智元导读】在NLP领域，研究者们已经充分认识并认可了表征学习的重要性，那么视觉领域的生成模型呢？最近，谢赛宁团队发表的一篇研究就拿出了非常有力的证据：Representation matters！扩散模型如何突破瓶颈？成本高又难...……更多

2024-10-23 09:55:00新作,速度,训练,学习,模型,训练

图灵奖得主Yoshua Bengio新作：Were RNNs

...更多详情，可以参见机器之心之前的报道：《Bengio 等人新作：注意力可被视为 RNN，新模型媲美 Transformer，但超级省内存》简化 LSTM 和 GRU在这一部分，研究者通过简化和移除各种门中的若干隐藏状态依赖关系，证明 GRU 和 LSTM 可...……更多

2024-10-15 09:56:00图灵奖,图灵,得主,新作,序列,训练

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来，大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而， LLM 的训练和推理成本高昂，人们一直在尝试通过各种优化方法来降低成本。本文来自上海算...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

RNN回归！Bengio新作大道至简与Transformer

【新智元导读】近日，深度学习三巨头之一的Yoshua Bengio，带领团队推出了全新的RNN架构，以大道至简的思想与Transformer一较高下。在Transformer统治的AI时代之下，散落在世界各地的「RNN神教」信徒，一直相信并期待着RNN回归的那...……更多

2024-10-26 09:53:00高下,新作,大道,门控,模型,训练

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transfo...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

NeurIPS 2024 | FaceChain团队新作，开

...器学习顶级国际会议 NeurIPS 2024 接收了一篇人脸表征学习新作， \"TopoFR: A Closer Look at Topology Alignment on Face Recognition\"，让我们一睹为快。论文链接：https://arxiv……更多

2024-10-18 09:46:00人脸,拓扑,新作,模型,团队,人脸

AI首次实时生成视频！尤洋团队新作，网友：这是新纪元

一水发自凹非寺量子位 | 公众号 QbitAI尤洋团队新作，首个基于DiT的实时视频生成方法来了！先来直观感受一下效果（右侧为新方法）：这是团队在Open-Sora上，使用5个4s（192帧）480p分辨率视频进行的测试。新方法名为Pyramid Atten...……更多

2024-06-29 09:30:00新纪元,新作,实时,生成,团队,这是

让人工智能模型训练提速10倍以上

...人工智能文字生成视频大模型Sora核心组件DiT相比，训练速度提升10倍以上，再次刷新SoTA最佳图像生成质量和学习速度。近日，相关成果公布于预印本服务器arXiv。2024年初，美国OpenAI公司发布Sora模型，其通过计算机视觉技术模拟...……更多

2024-04-03 07:20:00人工智能,提速,人工,模型,训练,智能

谷歌在AI赛道加速

...练 AI 模型的新研究，Google 声称，该研究将大大提高训练速度和能效，比其他方法的性能高出 13 倍，能效高出 10 倍。随着有关 AI 数据中心对环境影响的讨论日益升温，新的 JEST 训练方法的出现可谓恰逢其时。DeepMind 的方法被称...……更多

2024-07-11 09:47:00赛道,训练,方法,数据,模型,学习

AI大模型有望再扩1000倍！剑桥耶鲁康奈尔：PNN是变革关

...盾在于内存和处理单元的分离，而且两者之间的数据传输速度较低。由于看到了这些性能限制，研究人员对可替代当前AI系统的其他计算平台重新产生了兴趣，例如光学、光子学和模拟电子学。论文将这些非常规计算平台统称为P...……更多

2024-07-15 09:33:00康奈尔,康奈,耶鲁,剑桥,变革,模型

Yandex推出开源大语言模型训练工具，称可节省高达20%的

...用的最有效工具，与FSDP相比，根据架构和参数数量，其速度最多可提高26%。通过使用YaFSDP缩短大型语言模型的训练时间，可以节省高达20%的图形处理器资源。Yandex公司高级开发人员、YaFSDP开发团队成员米哈伊尔·赫鲁晓夫（Mikhai...……更多

2024-06-18 16:13:00处理器,图形,模型,高达,训练,语言

类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究

...运动由其初始帧决定：匀速直线运动：一个球水平移动，速度保持恒定，用于说明惯性定律。完美弹性碰撞：两个具有不同大小和速度的球水平相向运动并发生碰撞，体现了能量与动量守恒定律。抛物线运动：一个带有初始...……更多

2024-11-09 09:59:00模型,豆包,系统性,字节,规律,团队

清华团队提出新型光计算架构，光训练速度提升1个数量级

...电计算，在完成相同计算的前提下，光计算能够以更快的速度和更低的能耗，来实现相关神经网络。这意味着，光计算以其算力高和能耗低的优势作为智能计算的“潜力股”，为后摩尔时代带来新的希望。推理和训练是 AI 大模...……更多

2024-08-09 09:57:00量级,清华,架构,个数,团队,速度

有望改写AI未来！NVIDIA全新nGPT使训练速度暴增20

...进行表示学习，能够显著提升大型语言模型（LLM）的训练速度，最高可达20倍，同时保持了模型的精度。nGPT架构的核心在于将所有向量，包括嵌入、多层感知机（MLP）、注意力矩阵和隐藏状态，归一化为单位范数。这种归一化处...……更多

2024-10-20 15:52:00速度,训练,全新,模型,球面,上下文

人工智能开启气象预测新纪元

...相比，基于AI的模拟器能给出类似的天气预测结果，而且速度更快。【科技创新世界潮】◎本报记者刘霞10多年前，当美国加州理工学院气候科学家塔佩奥·施奈德首次对云如何形成进行建模时，需要煞费苦心地调整描述水滴、...……更多

2024-04-02 02:08:00人工智能,新纪元,气象,人工,智能,模型

扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶A

...型在RTX 4090上训练了12天，并且可以在RTX 3090上以约10 FPS的速度运行。不过该方法在模拟世界模型时，在部分场景下仍然会失效。强化学习和世界模型我们可以把环境看作是一个复杂的系统，智能体在这个系统中通过执行动作来探...……更多

2024-11-19 09:49:00模型,训练,小时,学习,世界,模型

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

...统的 RLHF、DPO 和 KTO 都有显著的性能提升，特别是在训练速度、内存占用和任务表现等方面。以下是实验结果的主要亮点：任务表现：在多个语言理解任务和生成任务中，UNA 的表现优于 RLHF 和 DPO。例如，在 Huggingface 的 Open LLM Lea...……更多

2024-10-10 09:56:00框架,优势,统一,综合,模型,奖励

文心大模型4.0 Turbo来了！百度推出文心快码2.5，已

...助手Baidu Comate升级至2.5版本，开发、业务迭代及企业落地速度大幅提升，并拥有了全新的中文名“文心快码”，正式加入百度“文心大家族”。据百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰介绍，文心一...……更多

2024-07-01 09:21:00文心,快码,程序员,模型,程序,文心

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\\\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24

...迭代反向传播的技术相比，编辑时间显著减少。对于推理速度，修改模型参数的方法保持一致的速度，因为它们不会改变原始的推理pipeline。T-Patcher由于神经元的积累而减慢了推理速度。在基于检索的方法中，GRACE由于其独特的...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

...训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。自从 ResNet 提出后，残差连接已成为深度学习模型的基础组成部分。其主要作用是 —— 缓解梯度消失问题，使得网络的训练更加稳定。但是，现有残...……更多

2024-11-08 09:47:00残差,豆包,收敛,字节,模型,团队

扩散模型训练方法一直错了！谢赛宁：Representatio

...模型训练的效率和效果。相比于原生模型，REPA 能将收敛速度提升 17.5 倍以上。在生成质量方面，在使用带引导间隔（guidance interval）的无分类器引导时，新方法取得了 FID=1.42 的当前最佳结果。 REPA：用于表征对齐的正则化REPrese...……更多

2024-10-15 09:57:00模型,训练,方法,模型,训练,视觉

Scaling Law百度最早提出！OpenAI/Claud

...据大小也存在Scaling（缩放）关系，通常模型大小的增长速度比数据大小的增长速度慢。具体来说，结合以往工作，团队将注意力集中在准确估计学习曲线和模型大小的缩放趋势上。按照一般测量方法，是选择最先进的SOTA模型，...……更多

2024-11-28 09:57:00模型,训练,数据,大小,研究,误差

美欧亚三洲开发者联手,全球首个组团训练的大模型,全流程开源

...的训练过程，这里给出了训练过程中损失、困惑度、训练速度等信息训练细节与数据集INTELLECT-1 基于 Llama-3 架构，它包含：42 层，隐藏维度为 4,096 32 个注意力头序列长度为 8,192 词表大小为 128,256模型在经过精心筛选的 1 万亿 tok...……更多

2024-12-03 13:34:00三洲,欧亚,开发者,模型,流程,训练

惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 20

...错误的方向优化；而sleep操作，也会明显降低模型训练的速度。甚至有人提到，该实习生可能修改了自己的预训练模型，因为模型参数是用ckpt文件保存的，其他人训练时会加载这个注入恶意代码的ckpt文件，因此也会导致模型训...……更多

2024-12-05 09:47:00实习生,下巴,字节,实习,论文,模型

小模型正在成为AI界的新宠

...fa Suleyman）预测，仅在未来三年内，大模型规模以惊人的速度继续扩张，将增长 1000 倍。一方面，模型的参数量与其能够处理和学习的复杂性直接相关。模型容量越大，往往意味着性能越好。随着模型容量增加到数万亿个参数，...……更多

2024-06-24 09:42:00新宠,模型,正在,模型,参数,训练

大模型新趋势之MoE：现状、挑战及研究方向

...或使用部分专家模型，减少不必要的计算，提升模型计算速度并降低算力需求。研究表明，与稠密模型相比，MoE+指令调优仅使用1/3算力就能提升大模型性能约45%，缩短训练时间2，且参数规模越大，效果越好。MoE不是一种全新的...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

Meta版慢思考来了！田渊栋团队整合快慢思考，能走迷宫推箱子

Meta版慢思考也来了。田渊栋团队带来新作Dualformer，把快慢思考无缝结合，性能提升还成本更低。能解决迷宫、推箱子等复杂问题。通过让模型在推理轨迹和最终答案上进行训练，再基于特定策略丢掉部分轨迹，Dualformer模型可...……更多

2024-10-18 09:51:00推箱子,快慢,迷宫,整合,团队,推理

谷歌DeepMind展示大模型Genie，能从零制作类似超级

...2D 平台游戏。但游戏的帧数惨不忍睹，只能以每秒一帧的速度运行，而大多数现代游戏通常是每秒 30 到 60 帧。“这是一项很酷的成果。”加拿大阿尔伯塔大学的人工智能研究员马修·古兹戴尔（Matthew Guzdial）说。他曾在几年前...……更多

2024-03-02 10:19:00马里,马里奥,模型,制作,视频,生成

LLM训练通信量减少10000倍！全新分布式优化器，整合世间

...的方法基本不会导致模型性能下降，同时DisTrO-AdamW在收敛速度方面，也与标准的AdamW+All-Reduce相当。分布式互联网训练一般来说，训练大规模神经网络涉及到大量的通信开销。比如做数据并行的时候，不同的训练数据在不同的硬...……更多

2024-09-10 13:39:00训练,分布式,世间,整合,全新,通信

AI探索宇宙结构新突破！超精准场级模拟，半秒完成冷暗物质仿真

...）的一种实现，其损失函数建模了时间相关的粒子坐标和速度之间的特定关系。在这项工作中，研究人员提出了一个用于大规模结构的场级模拟器，捕获宇宙学依赖性和宇宙结构形成的时间演化。模拟器将线性位移场映射到特...……更多

2024-09-20 13:34:00暗物质,仿真,宇宙,突破,结构,粒子

page 1/2667 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

琼海信创公共服务平台服务基地揭牌

南海网1月9日消息（记者苏桂除）1月9日，数字琼海·信创启航：信创公共服务平台服务体系发布及成果展示新闻发布会在琼海举行

2025-01-09 17:55:00

周鸿祎宣布将拍穿越剧在线招女一号演女皇帝：要求40岁以下气

快科技1月9日消息，今日，360创始人周鸿祎宣布将拍一部穿越剧，内容在60集左右，是部真正的短剧。周鸿祎还想做成国内第一部AI短剧

2025-01-09 18:20:00

特斯拉车主陷入维修困境：官方维修太贵找第三方修影响车辆质保

快科技1月9日消息，据报道，近期有部分特斯拉车主反映称，官方门店维修费用偏高，且车主们没有多少选择空间。特斯拉车主介绍

2025-01-09 18:20:00

科学家发现超级地球K2-360b：密度相当于铅、1年比地球1

快科技1月9日消息，由日本、欧洲研究人员领导的国际团队，在距离地球约750光年的类太阳恒星K2-360周围发现多行星系统

2025-01-09 18:20:00

产品销售责任纠纷！疯狂小杨哥及三只羊被起诉

快科技1月9日消息，天眼查司法案件信息显示，近日，张庆杨（小杨哥）、合肥三只羊网络科技有限公司、杭州玖到家贸易有限公司新增一则开庭公告

2025-01-09 18:20:00

DXO公布OPPO Find X8系列电池性能：标准版超越P

快科技1月9日消息，DXOMARK公布了OPPO Find X8系列的电池性能得分，X8和X8 Pro分别获得了156分和155分

2025-01-09 18:20:00

降低入门门槛！奇瑞蔚来换电联盟合作车型曝光

快科技1月9日消息，奇瑞星途与蔚来汽车合作的换电车型预计将于今年第三季度上市，这将是蔚来换电联盟的首款车型。此次合作旨在通过车电分离模式提升品牌价值

2025-01-09 18:20:00

美国洛杉矶多地山火蔓延：好莱坞招牌被烧名人豪宅变平地

快科技1月9日消息，据报道，美国加州洛杉矶县多地山火持续蔓延，不仅众多名人豪宅化为乌有，就连象征好莱坞文化的标志性招牌“Hollywood”也在这场浩劫中遭受重创

2025-01-09 18:20:00

2025年手机购新国补：单价不超6000元、最高补贴500元

文｜罗曾手机首次进入“国补”范围，政策细节进一步明晰。1月8日，国家发展改革委、财政部发布《关于2025年加力扩围实施大规模设备更新和消费品以旧换新政策的通知》

2025-01-09 18:40:00

清华学霸女流谈嫁给初中学历YJJ：他很优秀只是没走学校这条

近日，拥有“学历天花板”之称的游戏主播@女流接受了三联生活周刊的采访，分享了自己从清华高材生到游戏主播的职业选择历程，以及她对婚姻生活的看法

2025-01-09 18:50:00

联手锐龙9000系列！雷克沙发布NM1090 PRO SSD

快科技1月9日消息，在CES 2025展会上，雷克沙推出Lexar Professional NM1090 PRO PCIe Gen5x4 NVMe固态硬盘

2025-01-09 18:50:00

吉利集团注册‘莲花’商标！路特斯正式更名为莲花跑车

快科技1月9日消息，就在今天，吉利集团成功注册莲花商标，路特斯正式改名为莲花跑车。此前，莲花集团CEO冯擎峰宣布，经过五年的不懈努力

2025-01-09 18:50:00

何小鹏：公司招了很多60岁以上员工制造业需要有足够经验的人

快科技1月9日消息，近日，小鹏汽车何小鹏在谈及“35岁现象”表示，今年小鹏汽车招进来好几个60岁以上员工。他们做培训、管理

2025-01-09 18:50:00

技术先进还便宜中国插混车增速大幅高于增程式

快科技1月9日消息，根据乘联会数据，2024年12月新能源乘用车批发销量达到151.2万辆，同比增长35.6%，环比增长5

2025-01-09 18:50:00

NVIDIA进军桌面CPU！黄仁勋：我们有多项计划

快科技1月9日消息，在CES 2025展会上，黄仁勋发布了名为Project DIGITS的新一代个人AI超级计算机，搭载了与联发科共同设计的超级芯片“GB10”

2025-01-09 18:50:00

头条订阅服务