• 我的订阅
  • 科技

麻省理工学院联合metaai开发streamingllm框架

类别:科技 发布时间:2023-10-07 00:12:00 来源:浅语科技

10月6日消息,麻省理工学院联合MetaAI的研究人员日前开发了一款名为StreamingLLM的框架,为大语言模型可能遇到的RAM与泛化问题提出了一系列解决方案,号称能够“让语言模型处理无限长度的文本内容”。

麻省理工学院联合metaai开发streamingllm框架

▲图源GitHub

StreamingLLM的研究重点,是想解决实现流式语言模型(EfficientStreamingLanguageModels,ESLM)的障碍,特别是“长时间互动的多轮对话场景”中可能出现的问题。

研究人员指出,这种流式语言模型主要存在两大挑战:

第一个挑战:在解码阶段,获取token的键(Key)值(Value)状态会消耗大量的RAM。第二个挑战:目前流行的大语言模型,难以泛化适用“超过训练序列长度”的长文本。

IT之家注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近token的键值状态,确保RAM使用率和解码速度保持稳定,但若遇到“序列长度超过缓存大小”时,这个策略就会失效。

而当前流式语言模型最大的挑战是“如何不消耗过多RAM且不损害模型性能的前提下,处理长文本输入”。

StreamingLLM对此采取的策略是“运用注意力下沉现象”,研究人员观察到,在自回归语言模型中,无论特定token和语言模型本身的相关性如何,如果对代token分配了大量的注意力。这些获得高度注意力的token,就会表现出注意力下沉的现象,即便这些token在语义上不重要,但他们仍然获得模型强烈关注(即给予特定token内容大量注意力,从而获得模型大部分的关注,而这些特定token内容包含“下沉token的键值”,从而确保无论输入序列有多长,模型的注意力计算都能维持稳定)。

麻省理工学院联合metaai开发streamingllm框架

▲图源GitHub

StreamingLLM的重要贡献,在于其提出一个简单且高效的解决方案,使语言模型不需微调就可以处理无限长度的文本。从而解决当前语言模型在流式应用的困境。虽然未来流式语言模型势在必行,但由于RAM效率的限制,以及模型在处理长序列的性能问题,相关模型发展仍受到挑战。

经研究团队证实,StreamingLLM能够让Llama2、MPT、Falcon和Pythia可靠地处理高达400万token的文本,能够为流式语言模型提供更多部署方面的可能性。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-10-07 09:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

麻省理工的科学家可以让最流行的人工智能图像生成器提速30倍
...研究中详细介绍了他们的发现。该研究的共同主要作者、麻省理工学院电子工程和计算机科学博士生尹天伟(音译)在一份声明中说
2024-03-27 13:42:00
研究人员开发了设计量子传感器的通用框架
...)。DOI:10.22331/q-2024-07-30-1427来自北卡罗来纳州立大学和麻省理工学院的研究人员设计了一种利用量子传感器能力的协议
2024-08-06 09:42:00
当麻省理工脑机接口接入波士顿动力Spot后 会碰撞出怎样的火花?
近日麻省理工学院,由Nataliya Kos'myna教授领导的研究团队发表了一篇Ddog项目的论文,该论文的研究方向是通过脑机接口与波士顿动力Spot四足机器人产生关联
2024-01-08 11:51:00
麻省理工学院为收入低于20万美元的家庭提供部分或全额学费
麻省理工学院扩大了其经济援助计划,允许年收入低于 20 万美元的符合条件的本科生免学费入学,这标志着在目前 14 万美元的限额基础上又有了大幅提高。 这一新的限额涵盖了约 80%
2024-11-23 09:55:00
麻省理工学院确认:该校一中国博士生突然身亡,导师:他是位了不起的化学家
据媒体报道,美国麻省理工学院的化学系博士生辛天斯(音译)于当地时间11月15日突然离世,这一消息给学术界“带来了沉重的打击”。据一名自称是辛天斯同学的网友透露,原计划在当天下午出
2023-11-21 16:27:00
麻省理工学院的3D纳米级晶体管利用量子隧道设计绕过物理限制
...一些限制。 物理定律对性能和能效造成了瓶颈。 现在,麻省理工学院的一组工程师可能已经找到了一种方法,利用一种激进的新型晶体管设计,以狂野的量子方式突破这些限制。他们要解决的问
2024-11-07 09:58:00
麻省理工学院利用ai设计蛋白质结构助力医疗发展
麻省理工学院的研究人员开发了一种名为FrameDiff的AI工具,使用生成式人工智能设计新的蛋白质结构,目的是加速药物开发和改进基因治疗。据悉,新型蛋白质结构的设计仍然是蛋白质工
2023-07-14 22:04:00
麻省理工学院开发“PhotoGuard”技术
...,人们愈发难以仅凭肉眼分辨“哪些内容是AI伪造的”,麻省理工学院日前宣布了一项名为Photoguard的技术,经过Photoguard技术处理的图片难以直接被AI识别篡改
2023-07-25 15:30:00
光子技术:计算领域的革命性变革
麻省理工学院校友创立的光明科技公司正在开创性地利用光进行数据处理和传输,以解决传统计算方法的局限性。(艺术家概念图。)来源:SciTechDaily.com由三位麻省理工学院校友
2024-03-18 10:48:00
更多关于科技的资讯:
量子位「MEET2026智能未来大会」启动!
我们正迈入一个由人工智能重塑一切的新时代。智能技术已经深刻渗透进生产和生活,跨越了软件、硬件、机器人等不同形态,从工具发展为能深度理解人类需求的智能伙伴
2025-09-20 05:23:00
纵览·9张|空间魔术师
壹 随着网购的便利化和生活节奏的加快,许多人在购物的同时,却忽视了归纳和“断舍离”。于是整理收纳师进入了大家视野,成为走俏的新职业
2025-09-20 08:02:00
iPhone17系列正式发售,多地门店排起长队,有黄牛加价500元收购Max 256G版本
北京时间9月19日,iPhone 17系列正式发售,线上抢购到首批货源的用户将陆续收到新机,官方零售店也于8:00提前开门营业供预约取货用户取货
2025-09-19 12:06:00
在杭州看见创新未来 第四届数贸会全景前瞻
第四届全球数字贸易博览会(以下简称“数贸会”)将于2025年9月25日至29日在杭州大会展中心举行。作为我国唯一以数字贸易为主题的国家级
2025-09-19 14:13:00
走向国际,INGS英树三度荣获IFSCC青睐
2025年9月15日至18日,第35届IFSCC国际化妆品科学大会以“THE FUTURE IS SCIENCE”为主题于法国戛纳盛大启幕
2025-09-19 14:16:00
国网高密市供电公司:物资仓库里的“绣花功夫”
大众网记者 宋学敏 通讯员 赵雯雯 贾聚光 潍坊报道9月19日,走进国网高密市供电公司物资供应分中心的物资仓库,整齐的货架
2025-09-19 14:23:00
研发投入年增超40%!Coosea酷赛智能凭什么敢在创新上“下血本”?
在智能制造与AI设备行业加速迭代的浪潮中,研发实力已成企业核心竞争力的关键。近日,Coosea酷赛智能披露的研发投入数据引发行业关注——其研发投入年增超40%
2025-09-19 14:51:00
喜茶「超级植物茶」上新一周年,差异化引领新茶饮产品趋势
9月19日,喜茶「超级植物茶」迎来上新一周年。据官方数据显示,「超级植物茶」全系列产品已售出超1亿杯,喜茶坚持采用新鲜的羽衣甘蓝每日现榨
2025-09-19 15:01:00
京东运动户外品类日开启 运动、健身、户外出游全场景好物立减12%
秋高气爽迎国庆,正是走出家门、拥抱自然的好时机。9月19日晚8点至20日,京东运动户外品类日正式开启,携手阿迪达斯、北面
2025-09-19 15:08:00
华为云杨友桂:数智化转型从来不是 \
9月19日,在华为全联接大会2025上,华为高级副总裁、华为云全球Marketing与销售服务总裁杨友桂介绍了华为云如何通过四大关键竞争力
2025-09-19 15:24:00
焕新家庭储鲜,澳柯玛多款行业领先冷柜亮相电博会
鲁网9月19日讯2025年9月19日至21日,中国国际消费电子博览会在青岛国际会展中心盛大举行。作为温度科技专家的澳柯玛
2025-09-19 15:25:00
当下,金融科技行业正站在新一轮周期的关键拐点。当金融科技领域历经市场的深度重塑,行业周期拐点下,平台该如何突围?辽宁自贸试验区(营口片区)桔子数字科技有限公司(简称“桔子数科”)以科技赋能为锚点
2025-09-19 15:28:00
“媒体+科技”构建融媒服务新生态 长城新媒体集团与腾讯签订战略合作协议
金秋时节,硕果盈枝。2025年9月16日,长城新媒体集团有限公司与深圳市腾讯计算机系统有限公司在2025全球数字生态大会期间签订战略合作协议
2025-09-19 15:34:00
做教育行业的“清流”,高途以人文和体育探索营销新范式
进入2025年,教育行业在调整期后逐步迎来品牌动作的复苏潮。在行业变革的深水区,品牌营销往往是透视品牌预期和行业趋势的风向标
2025-09-19 15:34:00
近年来,以网剧、网文、网游为代表的中国文化出海“新三样”,在国际市场取得亮眼表现。9月12日,在《文化纵横》杂志社举办的“迈向全球的当代中国文化产业”研讨会上
2025-09-19 15:34:00