• 我的订阅
  • 科技

摩尔线程新方法优化AI交互:显存节省最多82%

类别:科技 发布时间:2025-03-04 19:41:00 来源:浅语科技

摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。

摩尔线程新方法优化AI交互:显存节省最多82%

近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。

然而,长时间的交互暴露出两大显著问题:

首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销;

其次,尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的GPU内存需求,导致推理批处理规模受限,同时GPU利用率低下。

摩尔线程新方法优化AI交互:显存节省最多82%

为此,摩尔线程提出了Round Attention,以解决这些问题。

首先,摩尔线程提出以轮次为分析单元研究Attention规律:

Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。

其次,摩尔线程提出了Round Attention推理流水线;

基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与attention计算,减少attention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。

这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。

摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。

测试显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。

摩尔线程新方法优化AI交互:显存节省最多82%

摩尔线程新方法优化AI交互:显存节省最多82%

【本文结束】如需转载请务必注明出处:快科技

责任编辑:上方文Q

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-03-04 23:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

国产GPU为底座,摩尔线程首个千卡智算中心落地
12月19日,观察者网了解到,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京举办,这宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地
2023-12-20 09:46:00
芯片战场丨瞄准大模型 摩尔线程首个千卡智算中心落地
...需求,国内GPU企业正加码算力基础设施建设。12月19日,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心落地。据其介绍,这是国内首个以国产全功能GPU为底
2023-12-20 10:52:00
完美运行DeepSeek-R1 671B:摩尔线程MTT S4000通过中国信通院AI芯片和大模型适配验证
...标准化体系,并开展适配验证工作。经中国信通院检测,摩尔线程自主研发的训推一体计算卡MTT S4000,在推理场景下与DeepSeek-R1 671B大模型的适配结果
2025-05-07 20:11:00
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
...万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也
2024-07-09 09:47:00
摩尔线程发布“智娱摩方”游戏电脑
6月30日消息,摩尔线程今日推出了旗下名为“智娱摩方”的电脑主机,宣称“注重游戏领域”,目前已经开启预售,单机售价为8999元,搭配显示器、键鼠、耳机、摄像头的“皇帝版”售价为1
2023-06-30 22:31:00
摩尔线程MTT S80发布一年有多大长进
在去年11月,摩尔线程推出了国内首款游戏显卡MTTS80,搭载他们家的第二颗全功能GPU“春晓”,这颗GPU的硬件规格可是相当之高的
2023-10-30 09:39:00
摩尔线程mtts80国产3a游戏实测
...但随着技术的快速发展,国产显卡逐渐崭露头角。其中,摩尔线程MTTS80备受关注,它的性能究竟如何?本文将对摩尔线程MTTS80国产显卡进行四款3A游戏的实测,带您探究其实际表
2023-10-01 21:24:00
国产摩尔线程显卡399元开售!4GB显存、支持4K
摩尔线程(MOORETHREADS)MTTS30国产显卡现已上架京东商场,首发价格399元,需50元定金。商店地址>
2024-02-23 08:49:00
摩尔线程发布智算加速卡MTT S4000
12月19日消息,今天,摩尔线程发布了全新智算加速卡MTTS4000,训推兼顾专为大模型打造,单卡支持48GB显存。据介绍
2023-12-19 22:05:00
更多关于科技的资讯:
当煤价下行的寒意与成本上涨的压力双重叠加,煤炭行业正经历一场前所未有的经营大考。如何在市场波动中稳住经营基本盘?怎样在双线挤压下答好逆势增长“优”答卷
2026-01-25 07:32:00
零的突破!云知声中标全国首个省级医保大模型项目,打通医保治理现代化“最后一公里”
2026年开年,智慧医保领域迎来里程碑式突破——云知声智能科技股份有限公司成功中标全国首个省级医保垂直大模型项目“江苏省医保垂直大模型及智能体应用项目”
2026-01-24 17:26:00
香港大学中国商业学院2026年专业研究生文凭课程火热招生中
香港大学中国商业学院2026年专业研究生文凭课程全面启动招生!课程涵盖人工智能、创新管理、增长营销、财务金融、人力资源等前沿及核心商管领域
2026-01-24 17:27:00
当哲思遇见科技:华为阅读携手周国平,探讨如何在独处中沉淀自我
在信息纷扰、节奏加速的时代,何处寻得一方宁静,让思想深度扎根?华为阅读联合北京广播电视台纪实科教频道《我们读书吧》第二季
2026-01-24 17:29:00
1月8日,深圳市精锋医疗科技股份有限公司(以下简称精锋医疗)在香港联合交易所主板成功挂牌上市,成为2026年深圳IPO“第一股”
2026-01-24 17:29:00
赋能普惠,引领向善:龙环汇丰实践获公益节大奖肯定
1月22日,第十五届公益节暨2025ESG影响力年会在北京盛大开幕。本届大会以“15年,共益新篇章”为主题,回顾中国公益事业十五年发展历程
2026-01-24 17:30:00
鸿蒙 6“智感握姿” 让交互体验更“近”一步
你是否也经历过这样“手忙脚乱”的时刻:出差途中单手提包,电话突然响起,另一只手紧紧攥着手机,大拇指却怎么也够不到那段长长的滑动接听条
2026-01-24 17:27:00
蚌埠这场脑机接口大会,让“大脑连接未来”照进现实!
大皖新闻讯 1月23日至25日,安徽省脑机接口创新发展大会在蚌埠隆重启幕。为期三天的盛会汇聚了300余位来自高等院校、科研院所
2026-01-24 16:54:00
固体废物综合治理是生态文明建设的重要内容,也是推进美丽中国建设的关键环节。近日,国务院办公厅印发《固体废物综合治理行动计划》
2026-01-24 12:14:00
鲁网1月24日讯国家新一轮消费品以旧换新及数码智能产品购新补贴政策红利持续释放。作为通信行业标杆企业,山东移动济宁分公司积极响应国家号召
2026-01-24 14:00:00
提供16万多方生态空间 设立7亿元资本活水每日商报讯 眼下,“AI漫剧”正加速走入公众视野。作为人工智能时代下中国文化“新三样”(网文
2026-01-24 10:59:00
固安搭建AI智慧招商平台 30秒生成企业选址方案
1月20日,“立业固安”平台工作人员(中)通过平台向企业推荐合适的选址方案。 万 倩摄河北日报讯(记者刘英)30秒,生成一份定制化的选址方案
2026-01-24 08:19:00
近日,杭州德胜快速路(石德立交至明石路段)、秋石快速路(石德立交-石石立交)两项夜景照明提升工程顺利竣工。具体有哪些改变
2026-01-24 09:28:00
距离过年只剩大半个月时间,今年的年货你已经准备好了吗?本周日,100多个AI高手将集结在杭州东站的中国数谷·未来数智港
2026-01-24 10:29:00
来雄安,体验智能弹性绿波带
来雄安,体验智能弹性绿波带主要道路早晚高峰通行缩短15分钟近日,雄安新区容东片区乐民街的数字化道路上,车辆顺畅通行。 河北日报记者 刘光昱摄河北日报讯(见习记者康晓博)从雄安新区工信科技数据局获悉
2026-01-24 08:27:00