我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

有望改写AI未来！NVIDIA全新nGPT使训练速度暴增20倍

类别：科技发布时间：2024-10-20 15:52:00 来源：浅语科技

快科技10月20日消息，据媒体报道，NVIDIA的最新研究可能彻底改变AI的未来，其研究团队提出了一种名为归一化Transformer（nGPT）的新型神经网络架构。

这一架构在超球面（hypersphere）上进行表示学习，能够显著提升大型语言模型（LLM）的训练速度，最高可达20倍，同时保持了模型的精度。

nGPT架构的核心在于将所有向量，包括嵌入、多层感知机（MLP）、注意力矩阵和隐藏状态，归一化为单位范数。

这种归一化处理使得输入的token在超球面表面上移动，每一层模型都通过位移来贡献最终的输出预测。

实验结果表明，nGPT在训练时所需的步骤比标准Transformer模型减少了4到20倍，具体加速效果取决于序列长度。

例如，在1k上下文中，训练速度提高了4倍；在4k上下文中，提高了10倍；而在8k上下文中，更是提高了20倍。

研究人员指出，nGPT的优化路径从超球面上的点开始，通过位移来贡献最终的输出预测，其中位移量由MLP和注意力模块定义。

这种方法不仅提高了训练速度，还增强了模型的稳定性。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：黑白

文章内容举报

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-10-20 20:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于速度,训练,全新,模型,球面,上下文的资讯：

亚马逊连甩6款大模型！推出3nm AI训练芯片，最强AI服务

... Nova！ Nova语言模型有四款：（1）Micro：纯文本模型，128k上下文窗口，延迟最低，响应速度最快。（2）Lite

2024-12-05 09:47:00

阿里云百炼上线Qwen2.5-Turbo模型，可支持100万

...的Qwen2.5-Turbo已在阿里云百炼上线，该模型支持100万超长上下文，相当于100万个英文单词或150万个汉字

2024-11-21 09:48:00

让人工智能模型训练提速10倍以上

...致训练成本飙升。“简单来说，就像做阅读理解时忽视了上下文的语义关系，导致生成图像中经常出现偏差需要反复修正，大幅增加了训练成本。”程明明说。如何降低训练成本、提高训练效率？研

2024-04-03 07:20:00

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...层，相比 Mamba 可将 KV 缓存减少 32 倍。例如，在 256K 令牌上下文环境中，MixCon 仍能保持较小的 KV 缓存优势（如表 1 所示）

2024-10-16 13:34:00

Mamba再次挑战霸主Transformer！首个通用Mam

...有效地捕获其关系。这种通过比较文本中每个token来理解上下文的方式，需要更多的计算能力和内存来处理不断增长的上下文窗口。如果资源没有相应扩展，推理速度会变慢，最终无法处理超

2024-08-14 09:43:00

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...LM 中，显式记忆是继隐式记忆（模型参数）和工作记忆（上下文键值）之后的第三种记忆形式。具体而言，本文引入了一种新的记忆格式，即显式记忆，其特点是写入成本和读取成本相对较

2024-07-11 09:33:00

阿里云重磅升级全栈AI体系，一文看懂云栖大会技术发布

...，实现模型计算效率的重大突破。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展（Scaling）的未来趋势而设计

2025-09-24 13:30:00

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

...于NSA(Natively Sparse Attention，原生稀疏注意力)。据DeepSeek，上下文建模对于下一代语言模型至关重要

2025-02-19 18:43:00

真香！智谱大模型，有了首个免费的API

...应用的底层逻辑。新一代大语言模型继续保持多模态、长上下文等方面的性能优势，又因为速度和效率的大幅提升获得了更多开发者的青睐。在实际应用场景中，新模型适用于处理高频次、相对简单

2024-08-28 09:43:00

更多关于科技的资讯：

新春走基层｜港口老司机“秀”新操作

2月16日，秦港股份九公司集控中心操作员曹宏璐在工作中。河北日报记者张辉摄2月16日，农历除夕。下午2时30分许，随着“航旭鑫海”轮进入秦皇岛港902泊位

2026-02-17 08:53:00

1.3亿人春节首次体验AI购物，千问一跃成为国民级AI助手

2月17日大年初一凌晨，千问发布的数据显示，春节活动期间，全国超过1.3亿人第一次体验AI购物，说了50亿次“千问帮我”

2026-02-17 10:22:00

这一年，杭产机器人忙着进化忙着上岗

宇树机器人化身武林高手亮相春晚“这才一年，太震惊了！”昨晚的央视春晚上，宇树机器人和河南塔沟武术学校带来的《武BOT》一亮相

2026-02-17 07:17:00

新春走基层｜总台春晚这条“骐骥驰骋”红色羊绒围巾出自河北品牌

见习记者于歆2026年总台春晚舞台上部分演员及嘉宾佩戴的“骐骥驰骋”红色羊绒围巾，出自河北品牌！由邢台市清河县的河北红太集团生产

2026-02-17 01:36:00

阿里发布千问3.5，性能媲美Gemini 3， Token价

2月16日除夕当天，阿里巴巴开源全新一代大模型千问Qwen3.5-Plus，性能媲美Gemini 3 Pro，登顶全球最强开源模型

2026-02-16 17:34:00

海信冰箱联手央视《探班春晚》用真空保鲜科技“锁住年味”

鲁网2月16日讯2月16日，作为央视新闻新媒体《探班春晚》的独家家电合作伙伴，海信冰箱携真空保鲜科技亮相“春晚会客厅”

2026-02-16 18:47:00

余杭文化“新三样”扬帆驶向全球文化蓝海

《长安三万里·梦回大唐》获金鸡虚拟现实电影季“年度最佳艺术表现奖”。后亚运时代，杭州如何将因赛会集聚的国际目光，转化为持续的城市发展动能

2026-02-16 11:33:00

北京亦庄与它石智航达成战略合作！共建产业新高地

2026年伊始，具身智能产业持续加速发展。2月14日，北京亦庄与它石智航达成战略合作，双方将在具身智能关键技术攻关、应用落地和产业生态建设方面展开合作

2026-02-16 08:21:00

【网络中国节·春节】解锁数字文旅新体验厦门科技企业“电子年

厦门网讯（厦门日报记者林露虹）马年春节假期，厦门科技企业的“电子年货”火热上线。在厦门过年，市民和游客可以请AI当导游

2026-02-16 08:40:00

AI购物是大模型走向千家万户的“第一块试验田”

自2025年夏季，京东、美团、阿里等数字平台企业相继开启围绕即时零售市场的激烈争夺。这场“闪购大战”，初期以各方投入“天价补贴”争抢流量而引发社会广泛关注

2026-02-16 08:53:00

一键撰联赋吉年 “马踏新程”春节系列评论（二）

马年新春，光景别样。打开手机AI小程序，输入姓名、爱好与新年心愿，一键可生成专属春联。AI深度融入日常生活，无所不在。拥抱AI

2026-02-16 07:39:00

青岛市南：智聚成势着力打造“一人成军”OPC生态社区群落

鲁网2月15日讯在人工智能加速重构产业组织形态的背景下，“一人即公司”（OPC）正成为全球创新创业的新范式。2026年2月12日

2026-02-15 20:48:00

2026年春节自驾安全指南：平安回家路，这些要点必看！扫码

2026-02-15 22:14:00

石家庄市栾城区妇联举办美妆技能培训

河北新闻网讯（王秀平、李明发）近日，石家庄市栾城区妇联联合妆颜美化妆培训学校，精心举办了一场干货满满的美妆技能培训活动

2026-02-15 19:16:00

英科医疗开年首展登录迪拜WHX展会，“中国智造”医疗解决方案

2月9日至12日，全球领先的医疗护理产品供应商英科医疗携三大事业部创新成果亮相阿拉伯国际医疗器械展览会（World Health Expo Dubai）

2026-02-15 13:50:00

头条订阅服务

有望改写AI未来！NVIDIA全新nGPT使训练速度暴增20倍