• 我的订阅
  • 科技

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

类别:科技 发布时间:2024-08-13 09:42:00 来源:新智元
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。

最近,提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。

绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。

然而,由于对图像的切分操作,不可避免会对目标、联通区域带来割裂,导致MLMMs对于微小或形状不规则的目标的辨识能力。这个现象在文档理解任务中,表现极为明显,由于文字端经常被中断。

针对这一挑战,华中科技大学和华南理工大学最近联合发布一个多模态大模型Mini-Monkey,使用了可插拔的多尺度自适应策略(MSAC)的轻量化多模态大模型。

Mini-Monkey自适应生成多尺度表示,允许模型从各种尺度中选择未分割的对象,其性能达到了2B多模态大模型的新SOTA。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

论文地址:https://arxiv.org/pdf/2408.02034

项目地址:https://github.com/Yuliang-Liu/Monkey

为了减轻MSAC带来的计算开销,我们提出了一种有效压缩图像令牌的尺度压缩机制(SCM)。

Mini-Monkey不仅在文档智能的多个任务上取得了领先的性能,在通用多模态模型理解任务上也取得了一致的性能的提升,取得了2B的SOTA性能。

在OCRBench上,Mini-Monkey获得了802分,优于GLM-4v-9B等更大参数量的模型。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图3方法框图:H-Attn代表高注意力权;L-Attn代表低注意权重;注意权重较低的令牌将被过滤;共享LLM层表示在SCM中使用LLM的块层

研究背景

多模态大型语言模型(MLMM)在近年了引起了很大的关注。研究人员正在积极探索将视觉编码器与LLM集成的有效方法。

一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已经取得了这些成就,但由于处理分辨率有限,以前的多模态大语言模型并没有很好地实现详细的场景理解。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图1切分在通用物体上引起的锯齿效应:(a)输入图像;(b)切分扩大分辨率策略;(c)有重叠的切分扩大分辨率策略;(d)多尺度适应性切分策略

研究者开始通过扩大图像的输入分辨率来解决这个问题。切分策略是最常用的方法之一。例如,Monkey,LLaVA 1.6,InternVL 1.5和LLama3-V等。

尽管多模态大型语言模型取得了重大进展,但由于切分策略,在详细场景理解方面仍然存在挑战。

对图像的切分操作不可避免地会分割物体和连接区域,从而削弱了MLLM识别小物体或不规则形状物体的能力,特别是在文档理解的背景下。

这种策略将引入两种类型的语义不连贯:

1. 如果一个对象或字符被分割,它可能无法被识别。例如,切分后的鼻子看起来非常像猴子,如图1(b)所示;

2. 如果对一个词或句子进行分词,会造成被分词的语义损害。例如,单词「Classrooms」可能被分为「Class」和「rooms」,这会对分割后的单词造成语义损害。

为简单起见,作者称这个问题为锯齿效应。一个非常直接的想法是采用重叠切分策略来解决这个问题,如图1(c)所示。

然而,作者发现重叠切分策略引入了某些幻觉,导致性能下降而不是提高。

方法思路

作者提出了Mini-Monkey,一个轻量级的多模态大型语言模型,旨在减轻切分策略引起的锯齿效应。方法框图如图2所示。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图2裁切在文字图像上引起的锯齿效应。

与直接切分输入图像的现有方法不同,Mini-Monkey采用了一种即插即用的方法称为多尺度自适应切分策略(MSAC)。

MSAC可以在不同尺度的特征之间进行有效的互补,如图1(d)所示。

多尺度自适应切分策略(MSAC)

MSAC先对这些网格进行分层操作,根据它们的纵横比将它们分成三组。作者将为每个图层选择一个宽高比。不同的分层为模型提供不同的信息。

详细层负责提供详细信息。它既限制了最大图像分辨率和最小图像分辨率,使图像尽可能大,使图像中的物体更清晰。由于使用了切分策略来剪裁图像,该层生成的图像可能存在语义不一致。

因此,作者利用自适应层与细节层协同,使模型能够从各种尺度中选择未分割的对象。自适应层将根据细节层自适应生成纵横比,确保细节层上的切分线与自适应层上的切分线不重叠,进而避免了同一个物体在不同层上被切分两次。这个过程确保了细节层和自适应层为模型提供了不同的语义信息和视觉特征。

尺度压缩机制

MSAC可能会引入一些额外的计算开销。因此,作者提出了一种尺度压缩机制(SCM),用于有计算开销限制的情况。SCM是一个不用训练并且无参数的机制,以减少计算开销。

作者选择自适应层的视觉Tokens、全局层的视觉Tokens和文本Tokens来关注细节层的视觉标记,进而生成注意力图,然后将注意力图Top K的视觉特征提取出来。

一个训练好的LLM可以根据输入问题有效地选择必要的视觉特征。因此,SCM利用LLM的第一层和第二层来选择视觉Tokens,而不生成任何额外的参数。

Mini-Monkey最强2B多模态大模型

作者在通用多模态理解和文档理解上测试了他们的方法,实验结果表明,Mini-Monkey在2B参数量的情况下,同时在通用多模态理解和文档理解上取得了最好的性能。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表1通用多模态理解上的结果

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表2文档理解上的结果

作者将提出的MSAC和现有的方法对比,第一行是动态切分的方法,第二行是固定分辨率切分的方法,第三行是有重叠的切分,第四行是多尺度策略S2。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表3与不同的切分策略进行对比

MSAC可以应用到不同的多模态架构上,稳定提点

同时作者也将MSAC应用到其他的方法进行对比,可以看到同时在通用多模态理解和文档理解任务上都有一致的提升。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表4将MSAC应用到不同的框架上

有效缓解由切分增大分辨率导致的「后遗症」

同时作者也提供了一些定性的分析,如图4所示。作者对切分到的位置进行提问,比如被切分到的「classrooms」和「school」。

可以看到,Mini-Monkey通过MSAC可以有效的缓解由切分增大分辨率导致的「后遗症」。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图4定性结果:(a)输入图像和Ground Truth;(b)采用重叠切分策略的结果,OSC表示重叠切分策略;(c)internv2-2b和internv2-26b的结果;(d)Mini-Monkey的结果

可视化对比

Mini-Monkey能准确的提取模糊的古籍里面的文字内容,而MiniCPM-V 2.6和InternVL2-2B都漏掉了比较多的文字,GPT4-O拒绝回答:

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(a)输入图片

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(b)Mimi-Monkey:准确识别出所有文字

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(c)MiniCPM-V 2.6:漏掉了很多文字。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(d)InternVL2-2B:漏掉了一整句比较模糊的文字

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(e)GPT-4o:拒绝回答

总结

使用切分扩大分辨率的方法经常分割对象和连接区域,这限制了对小的或不规则形状的对象和文本的识别,这个问题在轻量级的MLLM中尤为明显。

在这项研究中,作者提出了一个取得SOTA性能的2B多模态大模型Mini-Monkey,旨在解决现有切分策略的局限性,以提高MLLM处理高分辨率图像的能力。

Mini-Monkey采用了一种多尺度自适应切分策略(MSAC),生成多尺度表示,允许模型在不同尺度上选择未分割的对象,进而缓解了这个问题。

同时,作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的「后遗症」提供了一种简单有效的解决方案。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-13 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

《熊猫计划》欢乐解压,氛围轻松,专治假期后遗症
轻松解压喜剧《熊猫计划》今日发布“竹笋炒肉”小剧场,成龙本色出演Jackie Chan对上“黑粉”反派雇佣兵头目詹姆士(马铁摩饰),为保护熊猫呼呼上演了一出”道具战”。二人熊猫展
2024-10-18 22:51:00
...真。课题组童同教授介绍,该平台还支持多种视频格式和分辨率,满足不同用户的需求。闽台视听资料AI超高清视频增强与编辑云平台的发布标志着实验室的技术水平又向前迈进了一步。同时,基
2023-09-17 10:19:00
京东探索研究院院长、京东科技人工智能业务负责人何晓冬:让大模型在产业先跑起来
...图像领域,言犀图像大模型支持中文原生的文生图,超高分辨率图像生成,以及多风格图像定制,满足了产业级的应用需求。与此同时,基于言犀大模型+多模态能力,京东打造了系列AI产品,如
2024-07-31 11:48:00
华南理工建立眼科专用AI数据集,推动病理性近视自动筛查工具面世
...疾自动筛查诊断的巨大需求。医疗数据共享未来方向:多模态、多地区、多科室过去,该课题组公开的数据集以眼结构数据为主,主要涵盖眼底彩照
2024-02-27 10:05:00
...转自:云南日报本报讯(记者 李赛 周明佳) 9月22日,多模态人工智能前沿技术讲习班在昆明开班。讲习班由中国科学院自动化研究所研究员刘成林、华南理工大学教授金连文、云南大学信
2023-09-24 07:09:00
...理解剖、植入电极等,都属于风险较高的手术,且容易有后遗症,对一般科研任务来说并不适用。第二种无损方式在研究中比较常见,像脑电图、功能磁共振成像、正电子发射断层显像,它们的缺点
2024-05-30 01:57:00
CVPR最佳论文被生成式AI占领,清华武大华南农大上科校友获奖
...并得到最终反馈标签。之后,设计了一种基于ViT和T5X的多模态Transformer模型RAHF,使用三种预测器预测上述丰富的人类反馈信息:使用卷积层和上采样层预测失真和不匹
2024-06-21 09:21:00
ICRA 2025现场直击:戴盟全新视触觉传感器美国首秀即获业界盛赞!
...顶级学术会议。今年,戴盟机器人携新品全球首款多维高分辨率高频率视触觉传感器DM-Tac W、多维触觉感知五指灵巧手DM-Hand1参展ICRA
2025-05-27 13:07:00
...为主。侯珏介绍:“我们利用图像处理中的色彩分割、超分辨率等技术对云锦样本进行高清重建,构建了用于云锦的数据库,将云锦图像以及纹样所代表的寓意文字进行数字化,在展出方和公众之间
2024-01-11 00:04:00
更多关于科技的资讯:
济宁移动圆满完成邹城福特纵横跨年联谊活动通信保障
鲁网1月10日讯2025年12月31日,邹城福特纵横公园跨年联谊活动热闹启幕。济宁移动以专业保障护航欢乐时光,圆满完成此次活动通信支撑任务
2026-01-10 15:41:00
乌山时评|“晓风”再起 拂动人心
近日,一则令不少书友激动的消息传遍福州人的朋友圈——晓风书屋即将在鼓屏路旧址重启。为何“晓风”再起,依旧能拂动人心?要知道
2026-01-10 08:14:00
厦门网讯(厦门日报记者 何无痕)当前,招聘市场的“AI味”越来越浓。近日,记者调查发现,如今企业不再依赖传统的选才,开始尝试更智能
2026-01-10 08:30:00
@杭州人,你的信用能换钱了!
最近,杭州人的“信用幸福指数”又上涨了!信用消费专区在杭州市民卡App上线,用户凭钱江分就能享受信用消费折扣、体验低空文旅的乐趣
2026-01-10 09:19:00
新春雅集 财安相伴——邮储银行VIP客户插花暨金融反诈便民活动温馨启幕
近日,邮储银行高新区支行以花为媒、以情相连,精心举办“花漾时光·金融护航”VIP客户专属插花沙龙活动,活动将花艺美学体验
2026-01-10 09:51:00
中亦科技以 IT 运维筑牢半导体产业增长之基
最近,半导体行业的目光都聚焦在一条“疯狂”的曲线上:内存价格。这绝非一次简单的周期性波动。深层驱动力是以人工智能应用落地引发的“以存代算”技术范式革命
2026-01-10 09:51:00
1月8日,贵州省商务厅发布《关于发放家电产品以旧换新、数码和智能产品购新活动补贴券相关事项的公告》(下称《公告》),明确2026年贵州家电产品以旧换新
2026-01-09 23:02:00
人工智能、物联网与5G技术的成熟迭代,让智能家居家电产品从高端小众走向大众消费,成为现代家庭标配。近日,江苏省消费者权益保护委员会发布专项调查报告
2026-01-09 17:10:00
动漫周边衍生品热销
动漫周边行业作为文化产业的重要组成部分,近年来呈现出快速发展的态势。近日,记者走访位于北京王府井的一家大型动漫主题实体店发现
2026-01-09 17:10:00
“冻鲜互变”仍保鲜 保税区进口牛肉凭啥这么牛?
大河网讯 进口冰冻牛肉,由冻转鲜,再由鲜转冻……虽经多次变身,仍然“鲜”活诱人,这里的牛肉凭啥这么牛?1月8日,记者走进郑州新郑综合保税区首个生鲜产品加工项目——省重点项目南洋优鲜超级工厂
2026-01-09 17:18:00
《文旅短剧活力城市指数》年度报告日前发布,太原和重庆、大同、东莞等8座城市入选“最具创新价值城市”榜单。《文旅短剧活力城市指数》(简称《指数》)由中国人民大学新闻学院
2026-01-09 17:58:00
张宣科技:智维创新赋能氢冶金高效运行
河北新闻网讯(郭晓通、王杨、范俊慧)全球首例120万吨氢冶金示范工程一期项目高效运行,背后有着设备维护创新硬核支撑的努力
2026-01-09 18:13:00
贵定税务:“全链条服务”点亮眼镜零售行业“睛”彩路
多彩贵州网讯 “现在付款后消费者自己在手机上动动手指就能收到发票,节省了消费者的时间,也节约了我们的人力,税务部门的管理服务让我们经营更便捷了
2026-01-09 17:23:00
【劲牌故事荟 大家谈友好】“四个友好”引领劲牌构建健康可持续新生态
□谭金山(湖北省社科联“文安平”团队、宜昌市西陵区市场监管局)企业的发展如同时代浪潮中的一叶扁舟,既需乘风破浪,更需掌舵定向
2026-01-09 14:15:00
UU远程2026远程协助重磅升级:被控免登录、自定义验证码等率先上线
引言:网易UU远程2026年即将迎来远程协助升级三连,远程协助功能实现多场景全面升级近日,网易 UU 远程迎来 2026 年首次重磅版本更新
2026-01-09 14:18:00