• 我的订阅
  • 科技

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

类别:科技 发布时间:2024-06-21 09:21:00 来源:新智元

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

新智元报道

编辑:LRST

【新智元导读】现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据,存在成本和质量问题。Calibrated Self-Rewarding(CSR)框架通过自我增强学习,利用模型自身输出构造更可靠的偏好数据,结合视觉约束提高学习效率和准确性。

多模态大模型展现出了多种多样的能力,这些能力都通过SFT和预训练从庞大的训练数据集中学习。

但是模态之间的简单对齐可能会使得模型存在幻觉,细粒度图像感知能力差等各种问题。

已有的多模态大模型对齐方案一般采用DPO,POVID等偏好优化方法,或是蒸馏 GPT-4等昂贵闭源模型的方式来提升模型能力。

这些方法大多需要外源模型数据,这些数据构造存在很多问题,一是需要昂贵的价格,二是缺乏质量和多样性的保证。

再者说,这真的适合需要提升模型本身的分布偏好吗?

在Calibrated Self-Rewarding Vision Language Models文中,通过模型自身输出概率证明了,外来模型构造的偏好数据可能不适合用于模型的偏好学习,相较于模型自身的response,外源模型所构造的数据模型自己说出的概率很小,简单来说对于偏好数据中的负样本模型并不会犯一样的错误,对于偏好数据中的正样本模型也不会讲出那么好的response。

这种偏好数据用于偏好学习可能会引入模型自身分布的偏差导致其他错误,同时因为模型自身说同样话的概率低,用这样的数据来偏好学习增强模型收益很小。

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

同时传统纯文本大模型领域的Self-rewarding范式存在一定缺陷。

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

在此前self rewarding提供reward的模型是模型自身,当模型自身无法准确分辨偏好、所具有的知识不够强大的时候,它所提供的反馈可能不够精准或者没用导致所更新的模型的分布无法向着目标分布更新。

为了解决上述问题,来自UNC ,芝加哥大学,UMD和罗格斯大学的研究团队提出了Calibrated Self-Rewarding(CSR),多模态大模型的自我增强因为会存在一个真实图像的参照,这会使得self-rewarding的过程更加可靠。

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

论文地址: https://arxiv.org/pdf/2405.14622

项目地址:https://github.com/YiyangZhou/CSR

项目页面:https://dongjie-cheng.github.io/CSR.html

整个Calibrated Self-Rewarding(CSR)框架如下:

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

1. 通过模型本身在beam search过程中的输出构造偏好数据对,过程中的奖励来自于校准的自我奖励:LVLM对于每句话的自我生成概率 + 结合视觉约束奖励,用于奖励校准。

2. 基于每一轮构造的偏好数据在线通过DPO迭代学习。

实验

CSR相较于数据驱动的偏好学习对齐方法和模型自我反馈的方法均有较大提升。

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

更值得注意的是,在CSR多轮在线迭代过程中,模型能逐步提升自我能力!可以看到在多个轮次中以LLaVA-1.5为例,模型在多个benchmark上的均分逐步提升。

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

同时也可以看到特别是幻觉,在多轮迭代中是逐步减少的:

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

同时CSR也适用于其他模型,例如Vila:

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

那么在Calibrated Self-Rewarding(CSR)的过程中究竟发生了什么呢?通过可视化经过CSR迭代前后模型自身的正样本和负样本输出可以发现,经过多轮CSR学习后,模型自身说出的回复会有更高的分数:这代表模型的response更加符合图像信息;同时负样本和正样本的gap更小:这说明模型所输出的负样本倾向于正样本,模型的误差和性能下界提升。

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

通过可视化attention可以看到,CSR能使得LVLM更加偏重于视觉模型,同时能缓解文本attention中存在的上下文依赖问题。

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-21 12:45:19

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

平安产险在ICDAR2025国际多模态理解竞赛中强势夺冠,连续4年荣获国际顶尖赛事冠军!
...世界顶级赛事中,平安产险(参赛团队名称PA-VCG)在“多模态文档推理理解”这一高复杂度任务中,凭借领先的大模型技术体系与卓越的多模态理解能力,从全球众多顶尖科研机构与知名科
2025-06-17 17:47:00
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...也出现了大模型独角兽智谱AI的身影。36氪获悉,近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和
2024-03-14 15:12:00
...国AI产业规划的路线图,就是通过大量堆砌算力,建立多模态通用大模型。同时,其压制中国AI发展的思路,也是通过限制芯片这一算力的核心而来。 但经过两年发展,美国限制措施并没有取
2024-12-30 06:40:00
全球顶尖人工智能科学家加盟 阿里AI To C业务布局再提速
...出任阿里集团副总裁,向吴嘉汇报,负责AI To C业务的多模态基础模型及Agents相关基础研究与应用解决方案。近期
2025-02-08 18:48:00
国际首个,我国团队开发糖尿病诊疗多模态大模型 DeepDR-LLM
...构建了全球首个面向糖尿病诊疗的视觉-大语言模型的多模态集成智能系统 DeepDR-LLM,成果于 2024 年 7 月 19 日在 Nature Medicine 发表(题为
2024-07-26 09:27:00
AIGC+机器人=具身智能?硅谷最酷的两个男人不谋而合 A股预演“下个浪潮”
...潮将是“具身智能”,他也公布了Nvidia VIMA,这是一个多模态具身人工智能系统,能够在视觉文本提示的指导下执行复杂的任务。反映在A股二级市场上,今日,相关标的强势上涨,
2023-05-18 19:00:00
200余位顶尖学者和产业专家共议人工智能热点问题
...源研究院院长王仲远介绍了智源研究院在语言大模型、多模态大模型、具身大模型和生物计算大模型的前沿探索和研究进展,以及大模型全栈开源技术基座的迭代升级与版图布局。王仲远表示,未来
2024-06-14 22:21:00
创新工场李开复:AI 2.0已至,将诞生新平台并重写所有应用
...的重大突破之后,AI 已经来到从 1.0 迈入 2.0 的拐点。多模态、巨型数据集的飞速发展,AI 优化目标函数及训练模型的技术方法将大幅精进
2023-03-14 11:08:00
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷
2024-09-12 09:45:00
更多关于科技的资讯:
精度对标国际,多领域监测更高效 —— 奥鼎智通全新伽马能谱仪面世!
近日,国内高精度射线监测领域迎来重大突破— 奥鼎智通(北京)科技有限公司正式发布全新一代伽马能谱仪。这款凝聚企业多年研发心血的设备
2025-09-17 10:58:00
2025CSCO患教专场:构建以患者为中心的肿瘤诊疗新生态
齐鲁晚报·齐鲁壹点 贺照阳2025年9月10日至14日,由中国临床肿瘤学会(CSCO)和北京市希思科临床肿瘤学研究基金会共同主办的第28届CSCO学术年会在山东济南盛大开幕
2025-09-17 11:04:00
蚂蚁集团首批接入跨境统一网关 境外钱包入华扩至31个
9月17日,在中国人民银行、中国支付清算协会指导下,蚂蚁集团旗下支付宝和蚂蚁国际成为第一批参与跨境二维码统一网关业务试点的机构
2025-09-17 11:04:00
微信聊天可发实况图?官方客服回应
9月16日,不少网友在社交平台透露称微信聊天可发实况图了。有媒体咨询微信客服得知,此功能暂时仅支持iOS客户端,客户端版本号要求8
2025-09-17 11:42:00
编者按:在安丘,有这样一群“专精特新”企业,像埃尔派粉体、蓝想科技、三顺智能等,他们“专注细分、嵌入龙头”,成为各个行业的“单打冠军”
2025-09-17 12:01:00
近日,一种被称为“牙齿文身”的新兴服务在齿科领域悄然走红,年轻人纷纷在牙冠上刻下“发财”“上岸”等字样,将口腔变成了“赛博许愿池”
2025-09-17 12:28:00
长白时评评论员 久泰平本来已划分好座舱等级并按等级售了票,却还要在旅客值机选座时加一道“锁”,让旅客付费或花费积分开“锁”……近年来
2025-09-17 14:17:00
世界经济论坛认证!梅特勒托利多常州工厂跻身 “全球灯塔工厂”,客户导向成核心亮点
2025年9月16日,世界经济论坛正式宣布,梅特勒托利多中国常州太湖路工厂凭借"以客户为中心"的卓越实践,获评"全球灯塔工厂"称号
2025-09-17 14:25:00
2025腾讯全球数字生态大会:腾讯云互联网行业“云+AI”全栈产品,加速行业AI应用落地
9月16日,2025腾讯全球数字生态大会在深圳国际会展中心举行。互联网AI应用专场上,腾讯云全面展示了AI技术在智能办公
2025-09-17 14:25:00
“Fun² Mobility趣倍出行”——春风动力×中国美术学院校企合作正式启动
2025年9月16日,全球知名动力运动品牌春风动力(CFMOTO)携手中国美术学院,正式启动校企合作——“Fun² Mobility 趣倍出行”项目
2025-09-17 14:25:00
腾讯发布“城市智媒计划”,助力地方文化加速数字化建设
9月16日,在2025腾讯全球数字生态大会上,腾讯云、腾讯新闻、腾讯音乐娱乐集团(以下简称“TME”)联合正式发布“腾讯城市智媒计划”(以下简称“智媒计划”)
2025-09-17 14:25:00
“灵”的不止一套!2025华为坤灵秋季新品发布会
华为坤灵“4+10+N”中小企业智能化方案正式发布,以一站式场景化方案助力中小企业打通迈向智能世界的“最后一公里”,全面助力中小企业跃升智能化。图文来源:华为坤灵
2025-09-17 14:37:00
知原药业再次荣登CCTV6电影频道!闪耀荧屏,点亮品牌之光
江苏知原药业股份有限公司(以下简称“知原药业”)是国内专注皮肤健康领域的领先企业,知原药业与CCTV6电影频道在7月初达成重要合作
2025-09-17 14:45:00
直击2025岳麓大会|图灵学院:锚定AI技术热点,驱动教学内容升级
2025 互联网岳麓大会于湘江新区盛大启幕,作为聚焦 “AI领航数字经济” 的行业盛会,大会汇聚了政企学研各界力量,共探AI的核心路径
2025-09-17 14:55:00
中科闻歌与腾讯云深化战略合作,加速人工智能技术在各行业落地应用
9月16日,2025腾讯全球数字生态大会在深圳宝安国际会展中心举办。会上,北京中科闻歌科技股份有限公司(以下简称“中科闻歌”)宣布与腾讯云深化战略合作
2025-09-17 14:55:00