• 我的订阅
  • 科技

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

类别:科技 发布时间:2024-08-13 09:42:00 来源:新智元
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。

最近,提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。

绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。

然而,由于对图像的切分操作,不可避免会对目标、联通区域带来割裂,导致MLMMs对于微小或形状不规则的目标的辨识能力。这个现象在文档理解任务中,表现极为明显,由于文字端经常被中断。

针对这一挑战,华中科技大学和华南理工大学最近联合发布一个多模态大模型Mini-Monkey,使用了可插拔的多尺度自适应策略(MSAC)的轻量化多模态大模型。

Mini-Monkey自适应生成多尺度表示,允许模型从各种尺度中选择未分割的对象,其性能达到了2B多模态大模型的新SOTA。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

论文地址:https://arxiv.org/pdf/2408.02034

项目地址:https://github.com/Yuliang-Liu/Monkey

为了减轻MSAC带来的计算开销,我们提出了一种有效压缩图像令牌的尺度压缩机制(SCM)。

Mini-Monkey不仅在文档智能的多个任务上取得了领先的性能,在通用多模态模型理解任务上也取得了一致的性能的提升,取得了2B的SOTA性能。

在OCRBench上,Mini-Monkey获得了802分,优于GLM-4v-9B等更大参数量的模型。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图3方法框图:H-Attn代表高注意力权;L-Attn代表低注意权重;注意权重较低的令牌将被过滤;共享LLM层表示在SCM中使用LLM的块层

研究背景

多模态大型语言模型(MLMM)在近年了引起了很大的关注。研究人员正在积极探索将视觉编码器与LLM集成的有效方法。

一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已经取得了这些成就,但由于处理分辨率有限,以前的多模态大语言模型并没有很好地实现详细的场景理解。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图1切分在通用物体上引起的锯齿效应:(a)输入图像;(b)切分扩大分辨率策略;(c)有重叠的切分扩大分辨率策略;(d)多尺度适应性切分策略

研究者开始通过扩大图像的输入分辨率来解决这个问题。切分策略是最常用的方法之一。例如,Monkey,LLaVA 1.6,InternVL 1.5和LLama3-V等。

尽管多模态大型语言模型取得了重大进展,但由于切分策略,在详细场景理解方面仍然存在挑战。

对图像的切分操作不可避免地会分割物体和连接区域,从而削弱了MLLM识别小物体或不规则形状物体的能力,特别是在文档理解的背景下。

这种策略将引入两种类型的语义不连贯:

1. 如果一个对象或字符被分割,它可能无法被识别。例如,切分后的鼻子看起来非常像猴子,如图1(b)所示;

2. 如果对一个词或句子进行分词,会造成被分词的语义损害。例如,单词「Classrooms」可能被分为「Class」和「rooms」,这会对分割后的单词造成语义损害。

为简单起见,作者称这个问题为锯齿效应。一个非常直接的想法是采用重叠切分策略来解决这个问题,如图1(c)所示。

然而,作者发现重叠切分策略引入了某些幻觉,导致性能下降而不是提高。

方法思路

作者提出了Mini-Monkey,一个轻量级的多模态大型语言模型,旨在减轻切分策略引起的锯齿效应。方法框图如图2所示。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图2裁切在文字图像上引起的锯齿效应。

与直接切分输入图像的现有方法不同,Mini-Monkey采用了一种即插即用的方法称为多尺度自适应切分策略(MSAC)。

MSAC可以在不同尺度的特征之间进行有效的互补,如图1(d)所示。

多尺度自适应切分策略(MSAC)

MSAC先对这些网格进行分层操作,根据它们的纵横比将它们分成三组。作者将为每个图层选择一个宽高比。不同的分层为模型提供不同的信息。

详细层负责提供详细信息。它既限制了最大图像分辨率和最小图像分辨率,使图像尽可能大,使图像中的物体更清晰。由于使用了切分策略来剪裁图像,该层生成的图像可能存在语义不一致。

因此,作者利用自适应层与细节层协同,使模型能够从各种尺度中选择未分割的对象。自适应层将根据细节层自适应生成纵横比,确保细节层上的切分线与自适应层上的切分线不重叠,进而避免了同一个物体在不同层上被切分两次。这个过程确保了细节层和自适应层为模型提供了不同的语义信息和视觉特征。

尺度压缩机制

MSAC可能会引入一些额外的计算开销。因此,作者提出了一种尺度压缩机制(SCM),用于有计算开销限制的情况。SCM是一个不用训练并且无参数的机制,以减少计算开销。

作者选择自适应层的视觉Tokens、全局层的视觉Tokens和文本Tokens来关注细节层的视觉标记,进而生成注意力图,然后将注意力图Top K的视觉特征提取出来。

一个训练好的LLM可以根据输入问题有效地选择必要的视觉特征。因此,SCM利用LLM的第一层和第二层来选择视觉Tokens,而不生成任何额外的参数。

Mini-Monkey最强2B多模态大模型

作者在通用多模态理解和文档理解上测试了他们的方法,实验结果表明,Mini-Monkey在2B参数量的情况下,同时在通用多模态理解和文档理解上取得了最好的性能。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表1通用多模态理解上的结果

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表2文档理解上的结果

作者将提出的MSAC和现有的方法对比,第一行是动态切分的方法,第二行是固定分辨率切分的方法,第三行是有重叠的切分,第四行是多尺度策略S2。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表3与不同的切分策略进行对比

MSAC可以应用到不同的多模态架构上,稳定提点

同时作者也将MSAC应用到其他的方法进行对比,可以看到同时在通用多模态理解和文档理解任务上都有一致的提升。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表4将MSAC应用到不同的框架上

有效缓解由切分增大分辨率导致的「后遗症」

同时作者也提供了一些定性的分析,如图4所示。作者对切分到的位置进行提问,比如被切分到的「classrooms」和「school」。

可以看到,Mini-Monkey通过MSAC可以有效的缓解由切分增大分辨率导致的「后遗症」。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图4定性结果:(a)输入图像和Ground Truth;(b)采用重叠切分策略的结果,OSC表示重叠切分策略;(c)internv2-2b和internv2-26b的结果;(d)Mini-Monkey的结果

可视化对比

Mini-Monkey能准确的提取模糊的古籍里面的文字内容,而MiniCPM-V 2.6和InternVL2-2B都漏掉了比较多的文字,GPT4-O拒绝回答:

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(a)输入图片

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(b)Mimi-Monkey:准确识别出所有文字

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(c)MiniCPM-V 2.6:漏掉了很多文字。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(d)InternVL2-2B:漏掉了一整句比较模糊的文字

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(e)GPT-4o:拒绝回答

总结

使用切分扩大分辨率的方法经常分割对象和连接区域,这限制了对小的或不规则形状的对象和文本的识别,这个问题在轻量级的MLLM中尤为明显。

在这项研究中,作者提出了一个取得SOTA性能的2B多模态大模型Mini-Monkey,旨在解决现有切分策略的局限性,以提高MLLM处理高分辨率图像的能力。

Mini-Monkey采用了一种多尺度自适应切分策略(MSAC),生成多尺度表示,允许模型在不同尺度上选择未分割的对象,进而缓解了这个问题。

同时,作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的「后遗症」提供了一种简单有效的解决方案。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-13 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

《熊猫计划》欢乐解压,氛围轻松,专治假期后遗症
轻松解压喜剧《熊猫计划》今日发布“竹笋炒肉”小剧场,成龙本色出演Jackie Chan对上“黑粉”反派雇佣兵头目詹姆士(马铁摩饰),为保护熊猫呼呼上演了一出”道具战”。二人熊猫展
2024-10-18 22:51:00
...真。课题组童同教授介绍,该平台还支持多种视频格式和分辨率,满足不同用户的需求。闽台视听资料AI超高清视频增强与编辑云平台的发布标志着实验室的技术水平又向前迈进了一步。同时,基
2023-09-17 10:19:00
京东探索研究院院长、京东科技人工智能业务负责人何晓冬:让大模型在产业先跑起来
...图像领域,言犀图像大模型支持中文原生的文生图,超高分辨率图像生成,以及多风格图像定制,满足了产业级的应用需求。与此同时,基于言犀大模型+多模态能力,京东打造了系列AI产品,如
2024-07-31 11:48:00
华南理工建立眼科专用AI数据集,推动病理性近视自动筛查工具面世
...疾自动筛查诊断的巨大需求。医疗数据共享未来方向:多模态、多地区、多科室过去,该课题组公开的数据集以眼结构数据为主,主要涵盖眼底彩照
2024-02-27 10:05:00
...转自:云南日报本报讯(记者 李赛 周明佳) 9月22日,多模态人工智能前沿技术讲习班在昆明开班。讲习班由中国科学院自动化研究所研究员刘成林、华南理工大学教授金连文、云南大学信
2023-09-24 07:09:00
...理解剖、植入电极等,都属于风险较高的手术,且容易有后遗症,对一般科研任务来说并不适用。第二种无损方式在研究中比较常见,像脑电图、功能磁共振成像、正电子发射断层显像,它们的缺点
2024-05-30 01:57:00
CVPR最佳论文被生成式AI占领,清华武大华南农大上科校友获奖
...并得到最终反馈标签。之后,设计了一种基于ViT和T5X的多模态Transformer模型RAHF,使用三种预测器预测上述丰富的人类反馈信息:使用卷积层和上采样层预测失真和不匹
2024-06-21 09:21:00
...为主。侯珏介绍:“我们利用图像处理中的色彩分割、超分辨率等技术对云锦样本进行高清重建,构建了用于云锦的数据库,将云锦图像以及纹样所代表的寓意文字进行数字化,在展出方和公众之间
2024-01-11 00:04:00
ICRA 2025现场直击:戴盟全新视触觉传感器美国首秀即获业界盛赞!
...顶级学术会议。今年,戴盟机器人携新品全球首款多维高分辨率高频率视触觉传感器DM-Tac W、多维触觉感知五指灵巧手DM-Hand1参展ICRA
2025-05-27 13:07:00
更多关于科技的资讯:
智能洗车机罢工 自主维修解难题
9月10日,太原公交电车分公司二车队在智能洗车机出现故障后,通过自主采购配件维修,仅花费几十元便解决问题。据悉,该车队智能洗车机已投用近两年
2025-09-13 18:36:00
南报网讯(记者徐宁)省委网信办9日公布最新一批通过国家生成式人工智能服务备案的大模型名单,全省新增10款已完成备案的生成式人工智能服务
2025-09-13 09:56:00
廊坊企业携钢结构全生命周期数字建造管理平台亮相服贸会
河北新闻网讯(周双双)焊枪游走于构件之间,长约1.8米的机械臂带着配套设备,按照预定程序完成现场焊接作业……9月10日
2025-09-13 07:37:00
从园区降碳到聚变研发,新奥积极推动人工智能与能源行业深度融合
河北新闻网讯(张新)近日,国家发展改革委、国家能源局联合印发《关于推进“人工智能+”能源高质量发展的实施意见》,明确提出推动人工智能技术在电网
2025-09-13 07:38:00
中新经纬9月12日电 题:新茶饮出海,何以“全球通”?作者 文志宏 连锁经营产业专家、和弘咨询总经理随着越来越多新茶饮企业步入“万店时代”
2025-09-12 14:36:00
9月11日,中新经纬在2025年服贸会现场探展发现,北京联通为了解决外籍来宾入境支付难和通信难的两大痛点,推出创新产品“畅游通”和“幂方卡”
2025-09-12 14:39:00
中新经纬9月12日电 题:新茶饮出海靠“链”功作者 朱丹蓬 广东省食品安全保障促进会副会长、中国食品产业分析师当喜茶带着现代中国茶文化的魅力走向全球
2025-09-12 14:39:00
汪昌莲日前,高德地图宣布推出首个基于用户行为产生的榜单“高德扫街榜”,构建全新的线下服务信用体系,以全力支持线下餐饮、酒店
2025-09-12 14:40:00
中新经纬9月12日电 题:新茶饮出海,有口味更要有文化味作者 江瀚 盘古智库高级研究员近年来,新茶饮市场出现集体出海热
2025-09-12 14:40:00
聚焦2025服贸会:奇富科技信贷超级智能体升维之路
以“数智领航,服贸焕新”为主题的2025年中国国际服务贸易交易会正在北京召开。在服贸会第七届中国金融科技论坛上,奇富科技展示了其在国家“人工智能+”行动战略指引下
2025-09-12 15:25:00
外媒:中国“国潮”消费正影响国际奢侈品市场
英国《金融时报》报道截图中国高端黄金珠宝品牌老铺黄金近期在国内外市场表现突出,受到全球市场关注。多家外媒认为,近年来中国“国潮”消费趋势正在逐渐影响国际奢侈品市场
2025-09-12 15:25:00
大众网记者 郑健 潍坊报道在潍坊昌邑的产业版图上,一批“隐形冠军”正以惊人的专注力改写行业格局:三力本诺的避蚊胺产量全球领先
2025-09-12 15:29:00
东南网9月12日报道(福建日报记者 廖丽萍)我国钢铁生产需要进口铁矿石,但国际铁矿石市场价格波动频繁,对生产成本管控与盈利稳定性带来了巨大挑战
2025-09-12 15:36:00
安徽黄山烟草:以数智之力 筑安全之基
近年来,安徽省黄山市烟草专卖局(公司)聚焦安全管理现代化目标,深度构建“数智化+安全管理”风险防控体系,以“技术创新突破瓶颈+场景应用落地实效”双轮驱动
2025-09-12 15:42:00
Lux Nutrition健康论坛开幕,聚焦麦角硫因新应用
加拿大保健创新企业 Lux Nutrition 在2025年7月29日在加拿大温哥华 Vancouver Terminal City Club 酒店盛大举行麦角硫因论坛
2025-09-12 15:44:00