• 我的订阅
  • 科技

Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

类别:科技 发布时间:2024-08-14 09:43:00 来源:新智元
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。

今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。

虽然之前,但仅针对编码;Falcon Mamba则是通用模型,能够处理各种文本生成任务。

它是继Falcon 180B、Falcon 40B和Falcon 2之后TII的第四个开放模型,与Falcon系列之前的型号不同,Falcon Mamba 7B完全采用SSLM架构而不是传统的Transformer架构。

Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

横空出世后,体现出了内存效率方面的显著优势,无需额外的内存需求即可生成大量文本。

如今,SSLM正在逐渐蚕食Transformer架构原本「大一统」的地位。

测评数据显示,Falcon Mamba 7B性能已经超越同尺寸级别的领先模型,例如Meta最新开源模型Llama 3.1 8B和Mistral 7B。

Falcon Mamba 7B将根据TII Falcon License 2.0发布,这是一个基于Apache 2.0的许可证,其中包括促进负责任地使用人工智能的使用政策。

Falcon Mamba 7B有什么特别之处?

虽然Transformer模型仍然主导着AI大模型领域,但研究人员指出,该架构在处理较长文本时可能会遇到困难。

Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。

这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句子中距离较远的单词,模型也能有效地捕获其关系。

这种通过比较文本中每个token来理解上下文的方式,需要更多的计算能力和内存来处理不断增长的上下文窗口。

如果资源没有相应扩展,推理速度会变慢,最终无法处理超过某个固定长度的文本。

为了解决这些难题,状态空间语言模型(SSLM)架构应运而生,该架构通过在处理单词时持续更新「状态」,已成为一种有前途的替代方案。它已经被一些组织部署,TII是最新的采用者。

这个全新的Falcon模型正是使用了CMU和普林斯顿大学的研究人员。

Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

论文地址:https://arxiv.org/pdf/2312.00752

该架构使用选择机制,使模型能够根据输入动态调整其参数。

通过这种方式,模型可以专注于或忽略特定输入,类似于Transformer中的注意力机制,但同时具备处理长文本序列(如整本书)的能力,而无需额外的内存或计算资源。

TII指出,这种方法使模型适用于企业级机器翻译、文本摘要、计算机视觉、音频处理以及估计和预测等任务。

首个通用大规模Mamba模型

上面提到,基于注意力机制的Transformer是当今所有最强大语言模型中占主导地位的架构。然而,由于计算和内存成本随着序列长度的增加而增加,注意力机制在处理长序列时存在根本限制。

各种替代架构,特别是SSLM,试图解决序列扩展限制,但性能不及最先进的Transformer。

Falcon Mamba模型在不损失性能的前提下,可以突破序列扩展限制。

Falcon Mamba基于去年12月提出的第一版Mamba架构,增加了RMS归一化层以确保在大规模训练中保持稳定性。

这种架构选择确保了Falcon Mamba模型:

- 可以在不增加任何内存存储的情况下处理任意长度的序列,特别是可以在单张A10 24GB GPU上运行;

- 无论上下文大小,生成新token所需的时间恒定。

模型训练

Falcon Mamba使用约5500GT(相当于5.5B token)的数据进行训练,主要由RefinedWeb数据组成,并添加了公共来源的高质量技术数据和代码数据。

在大部分训练中使用了恒定的学习率,随后进行了一个较短的学习率衰减阶段。

在最后阶段,还加入了一小部分高质量的精选数据,以进一步提升模型性能。

性能评估

使用lm-evaluation-harness包对新排行榜版本的所有基准测试进行模型评估,然后使用HuggingFace分数归一化处理评估结果。

如下图所示,Falcon Mamba 7B获得15.04的均分,超过Llama 3.1 8B 13.41分和Mistral 7B 14.50分。

Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

此外,还使用了lighteval对大语言模型排行榜第一版的基准测试进行评估。

可以看到,Falcon Mamba 7B仅次于Transformer架构的Falcon 2 11B,分数仍然超过Gemma、Llama、Mistral等同等规模的知名模型。

Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

处理大规模序列

理论上来说,SSM模型在处理大规模序列时具有效率优势。

为了验证模型的大规模序列处理能力,使用optimum-benchmark库,对Falcon Mamba和流行的Transformer模型在内存使用和生成吞吐量方面进行了比较。

为了公平比较,将所有Transformer模型的词汇大小调整为与Falcon Mamba一致,因为这对模型的内存需求有很大影响。

在查看结果之前,先讨论序列中提示词(预填充)和生成(解码)部分的区别。

预填充的细节对于SSM而言,比对于Transformer模型更为重要。

当Transformer生成下一个token时,它需要关注上下文中所有先前token的键和值,这意味着内存需求和生成时间都会随着上下文长度线性增长。

而SSM仅关注并存储其递归状态,因此在生成大规模序列时不需要额外的内存或时间。

Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

虽然这解释了SSM在解码阶段相对于Transformer的优势,但在预填充阶段需要使用新方法来充分利用SSM架构。

预填充的标准方法是并行处理整个提示词以充分利用GPU。这种方法在optimum-benchmark库中使用,我们称之为并行预填充。

并行预填充需要将提示词每个token的隐藏状态存储在内存中。对于Transformer,这额外的内存主要由存储的KV缓存占据。

对于SSM模型,不需要缓存,存储隐藏状态的内存成为唯一与提示词长度成比例的部分。

因此,内存需求将随提示词长度增长,SSM模型将失去处理任意长序列的能力,类似于Transformer。

并行预填充的替代方法是逐个处理token提示词,我们称之为顺序预填充。

类似于序列并行处理,它也可以大规模地处理提示词,而不是单个token,以更好地利用GPU。

虽然顺序预填充对Transformer意义不大,但它为SSM模型带来了处理任意长提示词的可能性。

考虑到这些观点,实验首先测试了可以在单个24GB A10 GPU上适应的最大序列长度。

其中,批大小固定为1,使用float32精度。

即使在并行预填充中,Falcon Mamba也能适应比Transformer更大的序列,而在顺序预填充中发挥了全部潜力,可以处理任意长度的提示词。

Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

接下来,在提示词长度为1,生成token数量最多为130k的情况下测量生成吞吐量,使用批大小为1,并在H100 GPU上进行。

结果如图所示。可以观察到,Falcon Mamba在生成所有token时保持恒定的吞吐量,且GPU峰值内存没有增加。

而对于Transformer模型,随着生成token数量的增加,峰值内存增加,生成速度变慢。

Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

如何使用?

Falcon Mamba架构将在HuggingFace transformers库的下一个版本(4.45.0以上)中提供。

使用Falcon Mamba 7B模型,需要安装最新版本的HuggingFace transformers,或从源代码安装库。

Falcon Mamba与HuggingFace提供的大多数API兼容,这些API已经比较熟悉,例如:

from transformers import AutoModelForCausalLM, AutoTokenizer model_id = "tiiuae/falcon-mamba-7b" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="auto", device_map="auto") inputs = tokenizer("Hello world, today", return_tensors="pt").to(0) output = model.generate(**inputs, max_new_tokens=100, do_sample=True) print(tokenizer.decode(Output[0], skip_special_tokens=True))

它还支持例如bitsandbytes库量化这样的功能,以便在GPU内存较小的情况下运行模型,例如:

此外,还推出了Falcon Mamba的指令微调版本,该版本经过额外50亿个token的监督微调(SFT),这种扩展训练提高了模型在执行指令任务时的精确性和有效性。

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig model_id = "tiiuae/falcon-mamba-7b" tokenizer = AutoTokenizer.from_pretrained(model_id) quantization_config = BitsAndBytesConfig(load_in_4bit=True) model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=quantization_config) inputs = tokenizer("Hello world, today", return_tensors="pt").to(0) output = model.generate(**inputs, max_new_tokens=100, do_sample=True) print(tokenizer.decode(output[0], skip_special_tokens=True))

可以通过演示体验该指令模型的功能,对于聊天模板,可以使用以下格式:

用户还可以直接使用基础模型和指令模型的4-bit转换版本,但要保证GPU与bitsandbytes库兼容,才能运行量化模型。

用户还可以通过torch.compile获得更快的推理速度,加载模型后,只需调用model = torch.compile(model)。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-14 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

RNN回归!Bengio新作大道至简与Transformer一较高下
...WKV、Mamba、xLSTM等RNN衍生模型接连出现,欲挑战Transformer之霸主地位。就在近日,又有重量级人物下场——深度学习三巨头之一的Yoshua Bengio
2024-10-26 09:53:00
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
OpenAI o1 的发布,再次给 AI 领域带来了一场地震。o1 能像人类一样「思考」复杂问题,拥有优秀的通用推理能力。在未经专门训练的情况下,o1 能够直接拿下数学奥赛金牌,
2024-10-21 09:55:00
8位数年薪!“最懂阿里大模型的人”带整个团队跳槽加入!字节跳动放大招?
...抢人早已是公司开辟新业务时惯用的手段。字节创始人张一鸣曾多次在公开场合提到“人才密度”的概念,在他看来,只要保证人才密度超过业务复杂度,那么在有效的激励措施下业务的成功是水到
2024-12-07 09:52:00
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...道路在当前的视觉生成领域,Diffusion 模型是毫无疑问的霸主。这种方法生成的图像质量较高,视频也越来越好。但另一方面
2024-11-27 13:32:00
搜索推荐系统中,重排模块的定位以及常见策略
...行干预。3. 用户体验精排和重排整体的排序逻辑还是基于模型预估的CTR,但是有时候完全按照CTR大小来进行排序的内容会比较极端,比如连续多坑都是同一种类型的商品或者内容,导致
2023-07-03 11:00:00
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...】TS-Reasoner是一个创新的多步推理框架,结合了大型语言模型的上下文学习和推理能力,通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估,有效提高了复杂时
2024-10-29 09:55:00
清华提出时间序列大模型:面向通用时序分析的生成式Transformer
【新智元导读】大模型在语言、图像领域取得了巨大成功,时间序列作为多个行业的重要数据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大
2024-07-22 09:44:00
在港投资AI 张一鸣的新副本
...马云、刘强东、黄峥相继退居二线后,字节跳动创始人张一鸣也选择在2021年5月20日这天宣布卸任字节跳动CEO。2年来,张一鸣的公开动作一直集中在教育公益上。媒体传他大部分时间
2023-06-08 17:46:00
出门问问发布大模型“序列猴子”,李志飞:做人类的CoPilot是大模型最好的工作
...搜狐科技编辑|潘琭玙4月20日,出门问问宣布内测探索大模型“序列猴子”。出门问问创始人兼CEO李志飞介绍,该名字灵感来源于数学家埃米尔·波雷尔在20世纪初提出的“无限猴子”定
2023-04-20 20:00:00
更多关于科技的资讯:
全民可感可玩可参与!2025北京机器人文化节落幕,昌平区打造沉浸式体验推动机器人产业场景融合
10月2日,由iCANX全球科学平台主办的“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇顺利落下帷幕
2025-10-10 14:59:00
合作再升级 阿维塔完成向华为115亿投资支付
阿维塔给华为打了34.5亿,这是第三笔投资款,算下来阿维塔前后一共给了115亿,现在这笔钱全付清了,这意味着阿维塔正式拿到了华为引望10%的股份
2025-10-10 12:16:00
记者10月9日获悉,国家发展改革委、市场监管总局近日发布《关于治理价格无序竞争维护良好市场价格秩序的公告》,提出在保护经营者自主定价权的前提下
2025-10-10 12:20:00
中新经纬10月10日电 题:京东为啥也要卖咖啡?作者 朱丹蓬 广东省食品安全保障促进会副会长、中国食品产业分析师随着消费者对“即买即得”需求的日益增长
2025-10-10 12:23:00
虎鲸文娱发布《2025国庆假期文娱消费报告》票房火热 大屏“圈粉”南报网讯(记者鲁舒婷)10月8日,虎鲸文娱发布的《2025国庆假期文娱消费报告》(以下简称《报告》)显示
2025-10-10 07:32:00
名创优品MINISO深耕IP战略:岭南骑楼店开业首日引爆Z世代消费热潮
2025年8月17日,名创优品MINISO LAND华南首店于广州北京路步行街正式开业。该店以百年岭南骑楼为空间载体,融合超过100个全球热门IP
2025-10-09 11:15:00
荣耀Magic8系列发布会官宣定档10月15日
10月9日,荣耀官方正式宣布,主题为“开新局・见未来”的荣耀 Magic8 系列暨 Magic OS10 发布会将于10 月15日正式举行
2025-10-09 11:30:00
局部降水量80毫米以上!10—14日烟台市将有持续连阴雨天气
齐鲁晚报·齐鲁壹点 周宣刚10月7日10时,烟台市气象局发布10—14日连阴雨天气预报和大风警报。受高空槽东移和暖湿气流输送北上的水汽影响
2025-10-09 11:31:00
权威发布, 福瑞达颐莲品牌价值评估突破120亿
2025年9月25日,在中国香料香精化妆品工业协会主办的“2025中国香妆品牌价值大会”上,福瑞达生物股份旗下颐莲品牌凭借卓越的市场表现与品牌影响力
2025-10-09 11:32:00
持续创新高!高德扫街榜上线23天用户超4亿
这个国庆黄金周,高德APP和高德扫街榜正在持续创新高——10月3日,高德扫街榜宣布:上线仅23天,累计用户超4亿。10月1日
2025-10-09 11:33:00
国庆中秋,大马再掀中餐热潮!“鱼你速度”树出海标杆!
国庆中秋双节期间,马来西亚再度掀起中餐热潮!以“鱼你在一起”为代表的中餐连锁品牌,在当地各大商圈持续引爆消费热情。“6个月
2025-10-09 11:34:00
开启商超智慧储鲜,澳柯玛新品冷柜让食材更鲜活
鲁网10月9日讯当社区团购爆单时冰柜塞不下?当生鲜进货量太大冻不透?当网红雪糕因串味被迫贱卖?针对这些让商超、饭馆等用户抓狂的痛点
2025-10-09 11:40:00
鸡排哥8天假期涨粉超40万,节前已成立工作室,10月9日休息一天
10月8日,江西景德镇鸡排哥在个人社交账号发布一则视频,向全国各地来到家乡景德镇游玩和打卡买鸡排的游客表示感谢。鸡排哥表示近期天气炎热
2025-10-09 12:09:00
大疆部分产品直降千元!消费者炸锅,官方回应
10月8日,大疆在官网提前挂出“双十一”促销信息,多款产品价格直降数百至上千元。此次降价幅度较大。从几百元到几千元不等
2025-10-09 13:45:00
单日游客最高突破6.9万人次 忠县橘若·忠州渡接住“泼天流量”
这个国庆假期,重庆忠县江畔的橘若·忠州渡结结实实地“火”出了圈,八天揽客30余万人次,游客单日最高接待量突破6.9万人次
2025-10-09 13:57:00