• 我的订阅
  • 科技

有望改写AI未来!NVIDIA全新nGPT使训练速度暴增20倍

类别:科技 发布时间:2024-10-20 15:52:00 来源:浅语科技

快科技10月20日消息,据媒体报道,NVIDIA的最新研究可能彻底改变AI的未来,其研究团队提出了一种名为归一化Transformer(nGPT)的新型神经网络架构。

这一架构在超球面(hypersphere)上进行表示学习,能够显著提升大型语言模型(LLM)的训练速度,最高可达20倍,同时保持了模型的精度。

nGPT架构的核心在于将所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,归一化为单位范数。

这种归一化处理使得输入的token在超球面表面上移动,每一层模型都通过位移来贡献最终的输出预测。

实验结果表明,nGPT在训练时所需的步骤比标准Transformer模型减少了4到20倍,具体加速效果取决于序列长度。

例如,在1k上下文中,训练速度提高了4倍;在4k上下文中,提高了10倍;而在8k上下文中,更是提高了20倍。

研究人员指出,nGPT的优化路径从超球面上的点开始,通过位移来贡献最终的输出预测,其中位移量由MLP和注意力模块定义。

这种方法不仅提高了训练速度,还增强了模型的稳定性。

有望改写AI未来!NVIDIA全新nGPT使训练速度暴增20倍

【本文结束】如需转载请务必注明出处:快科技

责任编辑:黑白

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-20 20:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

亚马逊连甩6款大模型!推出3nm AI训练芯片,最强AI服务器算力爆表
... Nova! Nova语言模型有四款:(1)Micro:纯文本模型,128k上下文窗口,延迟最低,响应速度最快。(2)Lite
2024-12-05 09:47:00
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
...的Qwen2.5-Turbo已在阿里云百炼上线,该模型支持100万超长上下文,相当于100万个英文单词或150万个汉字
2024-11-21 09:48:00
...致训练成本飙升。“简单来说,就像做阅读理解时忽视了上下文的语义关系,导致生成图像中经常出现偏差需要反复修正,大幅增加了训练成本。”程明明说。如何降低训练成本、提高训练效率?研
2024-04-03 07:20:00
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...层,相比 Mamba 可将 KV 缓存减少 32 倍。例如,在 256K 令牌上下文环境中,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)
2024-10-16 13:34:00
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...有效地捕获其关系。这种通过比较文本中每个token来理解上下文的方式,需要更多的计算能力和内存来处理不断增长的上下文窗口。如果资源没有相应扩展,推理速度会变慢,最终无法处理超
2024-08-14 09:43:00
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...LM 中,显式记忆是继隐式记忆(模型参数)和工作记忆(上下文键值)之后的第三种记忆形式。 具体而言,本文引入了一种新的记忆格式,即显式记忆,其特点是写入成本和读取成本相对较
2024-07-11 09:33:00
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...,实现模型计算效率的重大突破。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计
2025-09-24 13:30:00
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要
2025-02-19 18:43:00
真香!智谱大模型,有了首个免费的API
...应用的底层逻辑。新一代大语言模型继续保持多模态、长上下文等方面的性能优势,又因为速度和效率的大幅提升获得了更多开发者的青睐。在实际应用场景中,新模型适用于处理高频次、相对简单
2024-08-28 09:43:00
更多关于科技的资讯:
2026 EIM 西南电子智能制造大会圆满举办
2026年1月16日,由深圳市终端电子制造产业协会、广东省电子学会SMT专委会主办,华友(重庆)企业管理咨询有限公司、EIM西南电子智能制造服务中心承办的“2026 EIM 西南
2026-01-20 11:02:00
AI赋能千行百业一线故事(二十):全程可追溯,鸡蛋有了“数字身份证”
全程可追溯,鸡蛋有了“数字身份证”——AI赋能千行百业一线故事(二十)1月16日,在邯郸百瑞可蛋品供应链管理有限公司数字蛋品交易服务中心
2026-01-20 08:20:00
山东移动以AI赋能零售,开启24小时智慧经营新时代
深夜,济宁“润佳便利店”却依旧亮着灯光,为百姓提供服务,成为一道温暖的风景线。一名刚下夜班的年轻人扫码推门,从货架间挑选饮品与零食
2026-01-20 09:48:00
任丘“链齿云”推动四百余家企业组团发展
1月14日,在任丘市的河北冀超龙传动机械公司,工作人员在“链齿云”数字化赋能平台查看公司订单。河北日报记者 戴绍志摄河北日报讯(记者戴绍志)任丘市积极探索数字化转型新路径
2026-01-20 08:18:00
张家口算力资源引来AI微短剧行业新秀
1月12日,张家口数字文创产业基地,北动漫(河北)网络科技有限公司员工在讨论人工智能项目细节。 河北日报记者 耿辉摄1月8日
2026-01-20 08:22:00
厦门网讯(厦门日报记者 李晓平)昨日,《2025胡润中国人工智能企业50强》榜单发布,聚焦全球AI(人工智能)产业创新浪潮中的中国标杆企业
2026-01-20 08:07:00
“最早来杭州是1998年,那时我还是个博士生。”白马湖畔,北京航空航天大学杭州创新研究院院长王俊的回忆闸门打开,叙述充满画面感
2026-01-20 07:09:00
中国网1月20日讯 据国家安全部消息,近期,境外一家购物中心的户外大型数字广告牌突然异常,引发业界对公共场所数字显示屏等公共数字设备潜在风险的重视
2026-01-20 07:31:00
董佳琳摘要:随着数字技术的广泛应用,数字经济已成为推动金融行业转型升级的核心引擎,尤其在金融科技创新方面,数字经济为其提供了持续的内生动力
2026-01-20 06:52:00
2026年米兰冬奥会的脚步越来越近,绍兴乾雍纺织有限公司总经理萧兴水期待着米兰来的消息。“这次咱们中国队赛时制服面料全部用数码打印而成
2026-01-19 23:33:00
河北新闻网讯(任蕊)“以前插接一根四分钢丝绳,费时费力。现在用上自制装置,效率翻番!”1月11日,在开滦股份吕家坨矿负950五采回风石门掘进现场
2026-01-19 20:15:00
一家皖企跻身胡润中国人工智能企业10强榜
大皖新闻讯 1月19日,胡润研究院发布《2025胡润中国人工智能企业50强》排行榜,中国科大校友陈天石创立的寒武纪蝉联榜首
2026-01-19 22:42:00
河北新闻网讯(田坤)近日,在开滦集团钱家营矿业公司(简称“开滦钱矿公司”)机采科检修车间,一台自主研发的“液压钻车负载敏感阀试验台装置”成功完成首次测试
2026-01-19 20:03:00
河北新闻网讯(闫丽颖、罗俊明)近日,开滦股份范各庄矿顺利完成井下排水泵房的智能化改造,传统人工巡检模式被远程集中监控替代
2026-01-19 20:04:00
安克与飞书联合发布“安克AI录音豆” 录音可在飞书中被AI调用
2026年1月19日,安克创新与飞书联合发布了最新AI硬件——安克AI录音豆,飞书提供了该产品的软件AI适配与服务。这款产品以极轻的"磁吸纽扣”形态实现无感随身佩戴
2026-01-19 17:13:00