• 我的订阅
  • 科技

麻省理工学院联合metaai开发streamingllm框架

类别:科技 发布时间:2023-10-07 00:12:00 来源:浅语科技

10月6日消息,麻省理工学院联合MetaAI的研究人员日前开发了一款名为StreamingLLM的框架,为大语言模型可能遇到的RAM与泛化问题提出了一系列解决方案,号称能够“让语言模型处理无限长度的文本内容”。

麻省理工学院联合metaai开发streamingllm框架

▲图源GitHub

StreamingLLM的研究重点,是想解决实现流式语言模型(EfficientStreamingLanguageModels,ESLM)的障碍,特别是“长时间互动的多轮对话场景”中可能出现的问题。

研究人员指出,这种流式语言模型主要存在两大挑战:

第一个挑战:在解码阶段,获取token的键(Key)值(Value)状态会消耗大量的RAM。第二个挑战:目前流行的大语言模型,难以泛化适用“超过训练序列长度”的长文本。

IT之家注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近token的键值状态,确保RAM使用率和解码速度保持稳定,但若遇到“序列长度超过缓存大小”时,这个策略就会失效。

而当前流式语言模型最大的挑战是“如何不消耗过多RAM且不损害模型性能的前提下,处理长文本输入”。

StreamingLLM对此采取的策略是“运用注意力下沉现象”,研究人员观察到,在自回归语言模型中,无论特定token和语言模型本身的相关性如何,如果对代token分配了大量的注意力。这些获得高度注意力的token,就会表现出注意力下沉的现象,即便这些token在语义上不重要,但他们仍然获得模型强烈关注(即给予特定token内容大量注意力,从而获得模型大部分的关注,而这些特定token内容包含“下沉token的键值”,从而确保无论输入序列有多长,模型的注意力计算都能维持稳定)。

麻省理工学院联合metaai开发streamingllm框架

▲图源GitHub

StreamingLLM的重要贡献,在于其提出一个简单且高效的解决方案,使语言模型不需微调就可以处理无限长度的文本。从而解决当前语言模型在流式应用的困境。虽然未来流式语言模型势在必行,但由于RAM效率的限制,以及模型在处理长序列的性能问题,相关模型发展仍受到挑战。

经研究团队证实,StreamingLLM能够让Llama2、MPT、Falcon和Pythia可靠地处理高达400万token的文本,能够为流式语言模型提供更多部署方面的可能性。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-10-07 09:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

麻省理工的科学家可以让最流行的人工智能图像生成器提速30倍
...研究中详细介绍了他们的发现。该研究的共同主要作者、麻省理工学院电子工程和计算机科学博士生尹天伟(音译)在一份声明中说
2024-03-27 13:42:00
研究人员开发了设计量子传感器的通用框架
...)。DOI:10.22331/q-2024-07-30-1427来自北卡罗来纳州立大学和麻省理工学院的研究人员设计了一种利用量子传感器能力的协议
2024-08-06 09:42:00
当麻省理工脑机接口接入波士顿动力Spot后 会碰撞出怎样的火花?
近日麻省理工学院,由Nataliya Kos'myna教授领导的研究团队发表了一篇Ddog项目的论文,该论文的研究方向是通过脑机接口与波士顿动力Spot四足机器人产生关联
2024-01-08 11:51:00
麻省理工学院为收入低于20万美元的家庭提供部分或全额学费
麻省理工学院扩大了其经济援助计划,允许年收入低于 20 万美元的符合条件的本科生免学费入学,这标志着在目前 14 万美元的限额基础上又有了大幅提高。 这一新的限额涵盖了约 80%
2024-11-23 09:55:00
麻省理工学院确认:该校一中国博士生突然身亡,导师:他是位了不起的化学家
据媒体报道,美国麻省理工学院的化学系博士生辛天斯(音译)于当地时间11月15日突然离世,这一消息给学术界“带来了沉重的打击”。据一名自称是辛天斯同学的网友透露,原计划在当天下午出
2023-11-21 16:27:00
麻省理工学院的3D纳米级晶体管利用量子隧道设计绕过物理限制
...一些限制。 物理定律对性能和能效造成了瓶颈。 现在,麻省理工学院的一组工程师可能已经找到了一种方法,利用一种激进的新型晶体管设计,以狂野的量子方式突破这些限制。他们要解决的问
2024-11-07 09:58:00
麻省理工学院利用ai设计蛋白质结构助力医疗发展
麻省理工学院的研究人员开发了一种名为FrameDiff的AI工具,使用生成式人工智能设计新的蛋白质结构,目的是加速药物开发和改进基因治疗。据悉,新型蛋白质结构的设计仍然是蛋白质工
2023-07-14 22:04:00
麻省理工学院开发“PhotoGuard”技术
...,人们愈发难以仅凭肉眼分辨“哪些内容是AI伪造的”,麻省理工学院日前宣布了一项名为Photoguard的技术,经过Photoguard技术处理的图片难以直接被AI识别篡改
2023-07-25 15:30:00
据美国方面16日消息,麻省理工学院的一名教授15日晚在波士顿附近的家中遭枪击身亡,警方已展开调查。据披露,47岁的物理学家努诺·洛雷罗15日晚在马萨诸塞州布鲁克莱恩的家中遭到枪击
2025-12-17 11:31:00
更多关于科技的资讯:
元梦空间2026马上元梦嘉年华大会即将在蓉举办,开启元宇宙“虚实共生”新纪元
2026年2月3日,一场以“马上元梦·数字新生”为主题的元宇宙行业盛典——元梦空间2026马上元梦嘉年华大会,将在四川成都隆重举行
2026-01-31 08:57:00
零基础学烘焙,2026年1月郑州靠谱的蛋糕培训机构有哪些?
想在郑州学做蛋糕,却不知道选哪家?是零基础想扎实学技能,还是打算创业需要全流程支持?随着烘焙赛道越来越火,郑州的蛋糕培训机构也层出不穷
2026-01-31 08:59:00
定制钻戒哪个好?2026年高性价比国产培育钻品牌深度推荐指南
在当代珠宝消费语境中,“定制钻戒”早已不再只是婚礼场景的专属符号,而逐渐演变为一种承载情感、表达个性与彰显审美的生活方式
2026-01-31 08:59:00
定制钻戒哪个好?2026培育钻戒选购终极攻略:这些高性价比品牌别错过!
在“悦己消费”与“情感表达”日益成为主流的今天,钻戒早已超越传统婚庆符号的单一身份,演变为一种融合科技、美学与个人叙事的现代生活方式
2026-01-31 09:01:00
简单解压易分享 我市涌现一批线下拼豆店
记者体验拼豆。拼豆店里,小朋友认真地将一粒粒塑料豆摆到豆板上。 厦门网讯 (文/图 厦门日报记者 柯笛)马年将至,小马造型和新年主题的拼豆图纸在网上走红
2026-01-31 09:16:00
东南网1月31日讯(福建日报记者 张文奎 通讯员 林文昊) 近日,记者从福州新区集团获悉,该集团投资企业恒美光电迎来重大技术突破
2026-01-31 10:34:00
行业无解的“-57密码”,他用国产元件成功“破解”
日前,一汽大众长春整车制造部总装二车间车身线的LJU控制器在运行过程中突然集中批量报出各种故障代码,其中的变频过流“-57”故障占比达到60%
2026-01-30 23:24:00
当国产航母劈波斩浪,北斗系统指引八方,医疗核心系统的自主可控之路同样刻不容缓。因为,看病靠医生,也靠信息保障,“健康钥匙”掌握在自己手里
2026-01-31 06:41:00
1月16日,太原盒马鲜生茂业天地店在亲贤长风商圈开业。数据显示,盒马鲜生太原首店前三日客流达到13万,太原茂业天地客流量同比增长65%
2026-01-31 07:15:00
摘要:在数字经济背景下,营销数字化转型已成为企业提升市场竞争力的重要战略选择。通过引入数据技术、数字平台和智能工具,企业营销活动的运行逻辑正在发生深刻变化
2026-01-31 05:24:00
摘要:随着企业不动产(CRE)在企业资产结构和战略体系中的重要性不断提升,其管理目标已由单一的成本控制逐步转向价值创造与客户导向
2026-01-31 05:24:00
新春福利来袭!上纵览领顺丰福利券,燕赵家乡年味寄回家
新春将至年味漫卷街巷牵挂亦随团圆脚步愈发浓烈纵览新闻客户端携手顺丰速运重磅打造“年味传情,顺丰到家”新春寄递专属福利以实在优惠为每份心意添力即日起至3月3日打开纵览新闻客户端点击
2026-01-30 21:20:00
深耕快消品设计领域,北京博创设计以国际水准铸就品牌视觉力量
在国内高端品牌设计领域,北京博创设计公司(Bofly Design)凭借近二十年的深耕积淀,以专业的全链路服务能力、众多国际奖项背书及标杆级客户案例
2026-01-30 22:14:00
今天,我们需要一瓶什么样的酒?
多彩贵州网讯 作为一个普通消费者,走在超市琳琅满目的酒水区,或是滑动手机屏幕浏览五花八门的电商页面时,我们常常会停下来思考
2026-01-30 20:05:00
摘要:本文从家校社协同育人空间阻滞、文化断层问题出发,提出了以社区的微空间作为整合枢纽的设计思路。依靠功能复合化布局、地域文化元素的创新转化和VR/AR技术的虚实融合体验来创建起联系家庭
2026-01-30 17:40:00