• 我的订阅
  • 科技

摩尔线程新方法优化AI交互:显存节省最多82%

类别:科技 发布时间:2025-03-04 19:41:00 来源:浅语科技

摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。

摩尔线程新方法优化AI交互:显存节省最多82%

近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。

然而,长时间的交互暴露出两大显著问题:

首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销;

其次,尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的GPU内存需求,导致推理批处理规模受限,同时GPU利用率低下。

摩尔线程新方法优化AI交互:显存节省最多82%

为此,摩尔线程提出了Round Attention,以解决这些问题。

首先,摩尔线程提出以轮次为分析单元研究Attention规律:

Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。

其次,摩尔线程提出了Round Attention推理流水线;

基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与attention计算,减少attention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。

这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。

摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。

测试显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。

摩尔线程新方法优化AI交互:显存节省最多82%

摩尔线程新方法优化AI交互:显存节省最多82%

【本文结束】如需转载请务必注明出处:快科技

责任编辑:上方文Q

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-03-04 23:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

国产GPU为底座,摩尔线程首个千卡智算中心落地
12月19日,观察者网了解到,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京举办,这宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地
2023-12-20 09:46:00
芯片战场丨瞄准大模型 摩尔线程首个千卡智算中心落地
...需求,国内GPU企业正加码算力基础设施建设。12月19日,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心落地。据其介绍,这是国内首个以国产全功能GPU为底
2023-12-20 10:52:00
完美运行DeepSeek-R1 671B:摩尔线程MTT S4000通过中国信通院AI芯片和大模型适配验证
...标准化体系,并开展适配验证工作。经中国信通院检测,摩尔线程自主研发的训推一体计算卡MTT S4000,在推理场景下与DeepSeek-R1 671B大模型的适配结果
2025-05-07 20:11:00
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
...万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也
2024-07-09 09:47:00
摩尔线程发布“智娱摩方”游戏电脑
6月30日消息,摩尔线程今日推出了旗下名为“智娱摩方”的电脑主机,宣称“注重游戏领域”,目前已经开启预售,单机售价为8999元,搭配显示器、键鼠、耳机、摄像头的“皇帝版”售价为1
2023-06-30 22:31:00
摩尔线程MTT S80发布一年有多大长进
在去年11月,摩尔线程推出了国内首款游戏显卡MTTS80,搭载他们家的第二颗全功能GPU“春晓”,这颗GPU的硬件规格可是相当之高的
2023-10-30 09:39:00
摩尔线程mtts80国产3a游戏实测
...但随着技术的快速发展,国产显卡逐渐崭露头角。其中,摩尔线程MTTS80备受关注,它的性能究竟如何?本文将对摩尔线程MTTS80国产显卡进行四款3A游戏的实测,带您探究其实际表
2023-10-01 21:24:00
国产摩尔线程显卡399元开售!4GB显存、支持4K
摩尔线程(MOORETHREADS)MTTS30国产显卡现已上架京东商场,首发价格399元,需50元定金。商店地址>
2024-02-23 08:49:00
摩尔线程发布智算加速卡MTT S4000
12月19日消息,今天,摩尔线程发布了全新智算加速卡MTTS4000,训推兼顾专为大模型打造,单卡支持48GB显存。据介绍
2023-12-19 22:05:00
更多关于科技的资讯:
全国首个万兆家庭云电竞PC在济南交付 开启云端游戏新场景
鲁网10月16日讯2025年10月13日,山东济南中铁逸都小区迎来全国通信与云游戏领域的一项重大突破——山东联通产互、济南联通联合华为完成全国首台万兆家庭云电竞PC的正式交付与开通
2025-10-16 11:58:00
□南京日报/紫金山新闻记者曹丽珍近期,金融机构2026年度秋季校园招聘大幕(以下简称秋招)开启。当前,金融行业数字化转型正在加速推进
2025-10-16 07:38:00
南报网讯(通讯员宁数轩记者马道军)10月15日,记者从市数据局了解到,由南京大数据集团牵头建设运营的南京数据要素创新中心——“宁数服”近日成功入选首批“江苏省数据产业公共示范平台”名单
2025-10-16 07:39:00
南报网讯(记者王国俊)10月13日,中国联通、中国移动、中国电信三大电信运营商相继官宣eSIM手机商用试验获批。昨天记者从南京相关运营商获悉
2025-10-16 07:39:00
千米产线“擀面皮” 火红钢坯变钢卷
以 “高智绿” 三重发力筑牢南京钢铁产业根基,探访梅钢热轧厂——千米产线“擀面皮” 火红钢坯变钢卷梅钢热轧产线厂房外景
2025-10-15 08:08:00
南报网讯(记者朱旖旎通讯员汪维)近日,栖霞区人工智能产业链新联会正式成立。这是我市首家聚焦于人工智能产业链的新联会,旨在搭建政企沟通桥梁
2025-10-15 08:08:00
厦门网讯(厦门日报记者 林露虹)10月16日—19日,2025厦门国际时尚周将在厦门中山路、鼓浪屿等文旅地标举行。本届时尚周以“自在发生”为主题
2025-10-15 08:21:00
河北日报讯(记者刘光昱)10月14日,为期3天的2025第十四届中国创新创业大赛新一代信息技术领域全国赛在雄安会展中心开赛
2025-10-15 08:24:00
“正大杯”2025年全球大学生就业创业实战大赛全国总决赛首轮赛事圆满收官
10月11日至13日,"正大杯"2025年全球大学生就业创业实战大赛全国总决赛首轮赛事在北京圆满举办。本届大赛以"创未来
2025-10-15 09:08:00
兴业银行“消保大模型智审平台”获评AIIA“2025年度人工智能金融专项优秀案例”
东南网龙岩10月14日讯(通讯员 肖夏玲)近日,在中国人工智能产业发展联盟(以下简称AIIA)、工业和信息化部新闻宣传中心
2025-10-15 09:40:00
京东11.11开场, 海外用户大件也包邮,收货更快更省
10月14日,京东11.11惊喜开放日在京举行。身处海外的华人用户,只需通过京东 APP 进入全球售平台,即可同步享受 “又好又便宜” 的购物体验
2025-10-15 09:45:00
锐志机械圆满收官PACK EXPO拉斯维加斯:聚焦纸袋包装的可持续发展
锐志机械圆满完成于9月29日至10月1日在拉斯维加斯举办的 PACK EXPO 参展工作。作为全球具有影响力的包装行业盛会之一
2025-10-15 10:08:00
百世软件推AI商品智能管理功能:一键上架,助力卖家高效出海
10月14日,百世集团旗下百世软件正式宣布,其面向海外市场的核心产品千易软件全新上线AI商品智能管理功能。该功能深度融合AI技术
2025-10-15 10:39:00
政府点单 企业接单 郑州航空港发布首批45个招商场景清单
大河网讯 近日,郑州航空港正式发布《郑州航空港区2025年第一批招商场景清单》,围绕十大产业集群系统性开放45个具体发展场景
2025-10-15 11:02:00
中国移动咪咕多部短剧获奖,闪耀2025视听中国马栏山微短剧之夜
2025年10月14日,“2025视听中国马栏山微短剧之夜”在湖南圆满落幕。此次活动由中国网络视听协会、湖南省广播电视局
2025-10-15 11:09:00