• 我的订阅
  • 科技

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

类别:科技 发布时间:2024-08-13 09:42:00 来源:新智元
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。

最近,提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。

绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。

然而,由于对图像的切分操作,不可避免会对目标、联通区域带来割裂,导致MLMMs对于微小或形状不规则的目标的辨识能力。这个现象在文档理解任务中,表现极为明显,由于文字端经常被中断。

针对这一挑战,华中科技大学和华南理工大学最近联合发布一个多模态大模型Mini-Monkey,使用了可插拔的多尺度自适应策略(MSAC)的轻量化多模态大模型。

Mini-Monkey自适应生成多尺度表示,允许模型从各种尺度中选择未分割的对象,其性能达到了2B多模态大模型的新SOTA。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

论文地址:https://arxiv.org/pdf/2408.02034

项目地址:https://github.com/Yuliang-Liu/Monkey

为了减轻MSAC带来的计算开销,我们提出了一种有效压缩图像令牌的尺度压缩机制(SCM)。

Mini-Monkey不仅在文档智能的多个任务上取得了领先的性能,在通用多模态模型理解任务上也取得了一致的性能的提升,取得了2B的SOTA性能。

在OCRBench上,Mini-Monkey获得了802分,优于GLM-4v-9B等更大参数量的模型。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图3方法框图:H-Attn代表高注意力权;L-Attn代表低注意权重;注意权重较低的令牌将被过滤;共享LLM层表示在SCM中使用LLM的块层

研究背景

多模态大型语言模型(MLMM)在近年了引起了很大的关注。研究人员正在积极探索将视觉编码器与LLM集成的有效方法。

一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已经取得了这些成就,但由于处理分辨率有限,以前的多模态大语言模型并没有很好地实现详细的场景理解。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图1切分在通用物体上引起的锯齿效应:(a)输入图像;(b)切分扩大分辨率策略;(c)有重叠的切分扩大分辨率策略;(d)多尺度适应性切分策略

研究者开始通过扩大图像的输入分辨率来解决这个问题。切分策略是最常用的方法之一。例如,Monkey,LLaVA 1.6,InternVL 1.5和LLama3-V等。

尽管多模态大型语言模型取得了重大进展,但由于切分策略,在详细场景理解方面仍然存在挑战。

对图像的切分操作不可避免地会分割物体和连接区域,从而削弱了MLLM识别小物体或不规则形状物体的能力,特别是在文档理解的背景下。

这种策略将引入两种类型的语义不连贯:

1. 如果一个对象或字符被分割,它可能无法被识别。例如,切分后的鼻子看起来非常像猴子,如图1(b)所示;

2. 如果对一个词或句子进行分词,会造成被分词的语义损害。例如,单词「Classrooms」可能被分为「Class」和「rooms」,这会对分割后的单词造成语义损害。

为简单起见,作者称这个问题为锯齿效应。一个非常直接的想法是采用重叠切分策略来解决这个问题,如图1(c)所示。

然而,作者发现重叠切分策略引入了某些幻觉,导致性能下降而不是提高。

方法思路

作者提出了Mini-Monkey,一个轻量级的多模态大型语言模型,旨在减轻切分策略引起的锯齿效应。方法框图如图2所示。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图2裁切在文字图像上引起的锯齿效应。

与直接切分输入图像的现有方法不同,Mini-Monkey采用了一种即插即用的方法称为多尺度自适应切分策略(MSAC)。

MSAC可以在不同尺度的特征之间进行有效的互补,如图1(d)所示。

多尺度自适应切分策略(MSAC)

MSAC先对这些网格进行分层操作,根据它们的纵横比将它们分成三组。作者将为每个图层选择一个宽高比。不同的分层为模型提供不同的信息。

详细层负责提供详细信息。它既限制了最大图像分辨率和最小图像分辨率,使图像尽可能大,使图像中的物体更清晰。由于使用了切分策略来剪裁图像,该层生成的图像可能存在语义不一致。

因此,作者利用自适应层与细节层协同,使模型能够从各种尺度中选择未分割的对象。自适应层将根据细节层自适应生成纵横比,确保细节层上的切分线与自适应层上的切分线不重叠,进而避免了同一个物体在不同层上被切分两次。这个过程确保了细节层和自适应层为模型提供了不同的语义信息和视觉特征。

尺度压缩机制

MSAC可能会引入一些额外的计算开销。因此,作者提出了一种尺度压缩机制(SCM),用于有计算开销限制的情况。SCM是一个不用训练并且无参数的机制,以减少计算开销。

作者选择自适应层的视觉Tokens、全局层的视觉Tokens和文本Tokens来关注细节层的视觉标记,进而生成注意力图,然后将注意力图Top K的视觉特征提取出来。

一个训练好的LLM可以根据输入问题有效地选择必要的视觉特征。因此,SCM利用LLM的第一层和第二层来选择视觉Tokens,而不生成任何额外的参数。

Mini-Monkey最强2B多模态大模型

作者在通用多模态理解和文档理解上测试了他们的方法,实验结果表明,Mini-Monkey在2B参数量的情况下,同时在通用多模态理解和文档理解上取得了最好的性能。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表1通用多模态理解上的结果

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表2文档理解上的结果

作者将提出的MSAC和现有的方法对比,第一行是动态切分的方法,第二行是固定分辨率切分的方法,第三行是有重叠的切分,第四行是多尺度策略S2。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表3与不同的切分策略进行对比

MSAC可以应用到不同的多模态架构上,稳定提点

同时作者也将MSAC应用到其他的方法进行对比,可以看到同时在通用多模态理解和文档理解任务上都有一致的提升。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

表4将MSAC应用到不同的框架上

有效缓解由切分增大分辨率导致的「后遗症」

同时作者也提供了一些定性的分析,如图4所示。作者对切分到的位置进行提问,比如被切分到的「classrooms」和「school」。

可以看到,Mini-Monkey通过MSAC可以有效的缓解由切分增大分辨率导致的「后遗症」。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

图4定性结果:(a)输入图像和Ground Truth;(b)采用重叠切分策略的结果,OSC表示重叠切分策略;(c)internv2-2b和internv2-26b的结果;(d)Mini-Monkey的结果

可视化对比

Mini-Monkey能准确的提取模糊的古籍里面的文字内容,而MiniCPM-V 2.6和InternVL2-2B都漏掉了比较多的文字,GPT4-O拒绝回答:

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(a)输入图片

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(b)Mimi-Monkey:准确识别出所有文字

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(c)MiniCPM-V 2.6:漏掉了很多文字。

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(d)InternVL2-2B:漏掉了一整句比较模糊的文字

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

(e)GPT-4o:拒绝回答

总结

使用切分扩大分辨率的方法经常分割对象和连接区域,这限制了对小的或不规则形状的对象和文本的识别,这个问题在轻量级的MLLM中尤为明显。

在这项研究中,作者提出了一个取得SOTA性能的2B多模态大模型Mini-Monkey,旨在解决现有切分策略的局限性,以提高MLLM处理高分辨率图像的能力。

Mini-Monkey采用了一种多尺度自适应切分策略(MSAC),生成多尺度表示,允许模型在不同尺度上选择未分割的对象,进而缓解了这个问题。

同时,作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的「后遗症」提供了一种简单有效的解决方案。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-13 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

《熊猫计划》欢乐解压,氛围轻松,专治假期后遗症
轻松解压喜剧《熊猫计划》今日发布“竹笋炒肉”小剧场,成龙本色出演Jackie Chan对上“黑粉”反派雇佣兵头目詹姆士(马铁摩饰),为保护熊猫呼呼上演了一出”道具战”。二人熊猫展
2024-10-18 22:51:00
...真。课题组童同教授介绍,该平台还支持多种视频格式和分辨率,满足不同用户的需求。闽台视听资料AI超高清视频增强与编辑云平台的发布标志着实验室的技术水平又向前迈进了一步。同时,基
2023-09-17 10:19:00
京东探索研究院院长、京东科技人工智能业务负责人何晓冬:让大模型在产业先跑起来
...图像领域,言犀图像大模型支持中文原生的文生图,超高分辨率图像生成,以及多风格图像定制,满足了产业级的应用需求。与此同时,基于言犀大模型+多模态能力,京东打造了系列AI产品,如
2024-07-31 11:48:00
华南理工建立眼科专用AI数据集,推动病理性近视自动筛查工具面世
...疾自动筛查诊断的巨大需求。医疗数据共享未来方向:多模态、多地区、多科室过去,该课题组公开的数据集以眼结构数据为主,主要涵盖眼底彩照
2024-02-27 10:05:00
...转自:云南日报本报讯(记者 李赛 周明佳) 9月22日,多模态人工智能前沿技术讲习班在昆明开班。讲习班由中国科学院自动化研究所研究员刘成林、华南理工大学教授金连文、云南大学信
2023-09-24 07:09:00
...理解剖、植入电极等,都属于风险较高的手术,且容易有后遗症,对一般科研任务来说并不适用。第二种无损方式在研究中比较常见,像脑电图、功能磁共振成像、正电子发射断层显像,它们的缺点
2024-05-30 01:57:00
CVPR最佳论文被生成式AI占领,清华武大华南农大上科校友获奖
...并得到最终反馈标签。之后,设计了一种基于ViT和T5X的多模态Transformer模型RAHF,使用三种预测器预测上述丰富的人类反馈信息:使用卷积层和上采样层预测失真和不匹
2024-06-21 09:21:00
ICRA 2025现场直击:戴盟全新视触觉传感器美国首秀即获业界盛赞!
...顶级学术会议。今年,戴盟机器人携新品全球首款多维高分辨率高频率视触觉传感器DM-Tac W、多维触觉感知五指灵巧手DM-Hand1参展ICRA
2025-05-27 13:07:00
...为主。侯珏介绍:“我们利用图像处理中的色彩分割、超分辨率等技术对云锦样本进行高清重建,构建了用于云锦的数据库,将云锦图像以及纹样所代表的寓意文字进行数字化,在展出方和公众之间
2024-01-11 00:04:00
更多关于科技的资讯:
鲁网12月17日讯(记者 杜方奇)在工业互联网与安全生产深度融合的背景下,枣庄联通积极响应国家推动制造业智能化、绿色化发展的号召
2025-12-18 10:08:00
dynabook效能之选TECRA A45-M:AMD锐龙芯赋能办公精英
在商务办公的疆场中,一台兼具稳定性能、可靠品质与高效体验的笔记本,是精英们破局攻坚的核心装备。dynabook作为深耕商务领域数十年的专业品牌
2025-12-18 10:08:00
厦门网讯(厦门日报记者 李晓平)昨日,市工信局党组成员、副局长上官峰做客市政府网在线访谈,深入介绍了我市人工智能产业的发展态势
2025-12-18 08:58:00
固安加速“屏”实力出圈
12月10日,固安县汉旗电子科技有限公司员工进行生产数据传输作业。固安县推动显示产业做强做精通过“龙头引领+全链配套+区域协同”三维驱动实现产业向生态集群跨越式发展为县域经济高质量发展注入强劲动能12月10日
2025-12-18 07:56:00
吴俊邑 海南师范大学体育学院摘要:随着素质教育的深入推进,高校体育教学面临着提升教学质量、激发学生运动兴趣的重要任务。趣味化教学模式作为打破传统体育教学枯燥性的有效手段
2025-12-18 06:38:00
崔福荣摘要:进度控制在国际工程项目管理中具有至关重要的作用,直接影响项目的工期、成本和合同履行效率。随着全球化和国际项目的增多
2025-12-18 06:38:00
云路协同杭州日报讯 钱塘区的清晨,吉利钱塘基地焊装车间里数百台机械臂精准舞动,不到两分钟就有一台智能新车下线;桐庐的乡村道路上
2025-12-18 06:53:00
“一人独角兽” 不再遥远!3个月,500份申请,27位“超级个体”入驻杭州日报讯 胡政涛带着一台电脑和他的项目,走进了杭州东站旁的融信中心13层
2025-12-18 06:53:00
发展新质生产力 推进新型工业化中国煤科太原研究院12月17日发布消息,该院自主研发的智能矿用干式除尘系统在宁夏煤业10余个矿井投用
2025-12-18 07:16:00
近日,在江苏常州220千伏淦西变电站与220千伏永和变电站,国网常州供电公司二次检修人员利用自主研发的“变电站站间电流互感器一次通流同步测试仪”
2025-12-17 23:18:00
AI 工具赋能品牌:开启全新增长引擎
因为Deepseek的流行,2025年被称作中国AI智能体元年。在这股AI浪潮之下,许多品牌建设者是既兴奋又焦虑,兴奋的是新变革意味着新机遇
2025-12-17 08:09:00
2025“平安财萌杯”全国总决赛在深落幕,携手11万大学生共赴财商成长之约
近日,2025“平安财萌杯”大学生财经素养大赛全国总决赛在深圳平安金融中心圆满举行。本届大赛自8月启动以来,共吸引了来自清华大学
2025-12-17 08:39:00
鲁网12月16日讯近日,经过数月的精心筹备,建行泰安分行营业部成功举办首场“商叶云贷”专题直播推介会。本次活动精准覆盖全市19000户烟草零售商户
2025-12-17 09:24:00
东南网12月17日报道(福建日报记者 黄星榕)买了乐高等大型积木却没有时间和耐心拼装,想吃家常菜却苦于时间不够、厨艺不精
2025-12-17 14:02:00
《威图可再生能源行业解决方案》发布:严苛环境下的设备应用指南
从零下45℃的严寒到零上50℃的炙烤,从沙漠风沙到海上盐雾……在能源转型的浪潮席卷全球之际,中国可再生能源产业正以令人瞩目的速度发展
2025-12-17 14:11:00