• 我的订阅
  • 科技

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

类别:科技 发布时间:2024-11-28 09:59:00 来源:机器之心Pro

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。

然而,CLIP 的文本处理能力被广为诟病,难以充分理解长文本和复杂的知识表达。随着大语言模型的发展,新的可能性逐渐显现:LLM 可以引入更丰富的开放时间知识、更强的文本理解力,极大提升 CLIP 的多模态表示学习能力。

在此背景下,来自同济大学和微软的研究团队提出了 LLM2CLIP。这一创新方法将 LLM 作为 CLIP 的强力 「私教」,以少量数据的高效微调为 CLIP 注入开放世界知识,让它能真正构建一个的跨模态空间。在零样本检索任务上,CLIP 也达成了前所未有的性能提升。

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

论文标题:LLM2CLIP: POWERFUL LANGUAGE MODEL UNLOCKS RICHER VISUAL REPRESENTATION 论文链接:https://arxiv.org/pdf/2411.04997 代码仓库:https://github.com/microsoft/LLM2CLIP 模型下载:https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c

在实际应用中,LLM2CLIP 的效果得到了广泛认可,迅速吸引了社区的关注和支持。

HuggingFace 一周内的下载量就破了两万,GitHub 也突破了 200+ stars!

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

值得注意的是, LLM2CLIP 可以让完全用英文训练的 CLIP 模型,在中文检索任务中超越中文 CLIP。

此外,LLM2CLIP 也能够在多模态大模型(如 LLaVA)的训练中显著提升复杂视觉推理的表现。

代码与模型均已公开,欢迎访问 https://aka.ms/llm2clip 了解详情和试用。

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

LLM2CLIP 目前已被 NeurIPS 2024 Workshop: Self-Supervised Learning - Theory and Practice 接收。

研究背景

CLIP 的横空出世标志着视觉与语言领域的一次革命。不同于传统的视觉模型(如 ImageNet 预训练的 ResNet 和 ViT)依赖简单的分类标签,CLIP 基于图文对的对比学习,通过自然语言的描述获得了更丰富的视觉特征,更加符合人类对于视觉信号的定义。

这种监督信号不仅仅是一个标签,而是一个富有层次的信息集合,从而让 CLIP 拥有更加细腻的视觉理解能力,适应零样本分类、检测、分割等多种任务。可以说,CLIP 的成功奠基于自然语言的监督,是一种新时代的 「ImageNet 预训练」。

虽然 CLIP 在视觉表示学习中取得了成功,但其在处理长文本和复杂描述上存在明显限制。而大语言模型(LLM)例如 GPT-4 和 Llama,通过预训练掌握了丰富的开放世界知识,拥有更强的文本理解和生成能力。

将 LLM 的这些能力引入到 CLIP 中,可以大大拓宽 CLIP 的性能上限,增强其处理长文本、复杂知识的能力。借助 LLM 的知识扩展,CLIP 在图文对齐任务中的学习效率也得以提升。

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

原始的 LLM 无法给 CLIP 带来有意义的监督

事实上,将 LLM 与 CLIP 结合看似简单粗暴,实际并非易事。直接将 LLM 集成到 CLIP 中会引发「灾难」,CLIP 无法产生有效的表示。

这是由于 LLM 的文本理解能力隐藏在内部,它的输出特征空间并不具备很好的特征可分性。

于是,该团队设计了一个图像 caption 到 caption 的检索实验,使用 COCO 数据集上同一张图像的两个不同 caption 互相作为正样本进行文本检索。

他们发现原生的 llama3 8B 甚至无法找到十分匹配的 caption,例如 plane 和 bat 的距离更近,但是离 airplane 的距离更远,这有点离谱了,因此它只取得了 18.4% 的召回率。

显然,这样的输出空间无法给 CLIP 的 vision encoder 一个有意义的监督,LLM 无法帮助 CLIP 的进行有意义的特征学习。

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

图像描述对比微调是融合 LLM 与 CLIP 的秘诀

从上述观察,研究团队意识到必须对提升 LLM 输出空间对图像表述的可分性,才有可能取得突破。

为了让 LLM 能够让相似的 caption 接近,让不同图像的 caption 远离,他们设计了一个新的图像描述对比微调——Caption-Contrastive(CC)finetuning。

该团队对训练集中每张图像都标注了两个以上 caption,再采用同一个图像的 caption 作为正样本,不同图像的 caption 作为负样本来进行对比学习,来提升 LLM 对于不同画面的描述的区分度。

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

实验证明,这个设计可以轻易的提升上述 caption2caption 检索的准确率,从上述 cases 也可以看出召回的例子开始变得有意义。

高效训练范式 LLM2CLIP

让 SOTA 更加 SOTA

LLM2CLIP 这一高效的训练范式具体是怎么生效的呢?

首先,要先使用少量数据对 LLM 进行微调,增强文本特征更具区分力,进而作为 CLIP 视觉编码器的强力 「教师」。这种设计让 LLM 中的文本理解力被有效提取,CLIP 在各种跨模态任务中获得显著性能提升。

实验结果表明,LLM2CLIP 甚至能在不增加大规模训练数据的情况下,将当前 SOTA 的 CLIP 性能提升超过 16%。

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

英文训练,中文超越,CLIP 的语言能力再拓展

一个令人惊喜的发现是,LLM2CLIP 的开放世界知识不仅提升了 CLIP 在英文任务中的表现,还能赋予其多语言理解能力。

尽管 LLM2CLIP 仅在英文数据上进行了训练,但在中文图文检索任务上却超越了中文 CLIP 模型。这一突破让 CLIP 不仅在英文数据上达到领先水平,同时在跨语言任务中也展现了前所未有的优势。

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

提升多模态大模型的复杂视觉推理性能

LLM2CLIP 的优势还不止于此。当该团队将 LLM2CLIP 应用于多模态大模型 LLaVA 的训练时,显著提升了 LLaVA 在复杂视觉推理任务中的表现。

LLaVA 的视觉编码器通过 LLM2CLIP 微调后的 CLIP 增强了对细节和语义的理解能力,使其在视觉问答、场景描述等任务中取得了全面的性能提升。

总之,该团队希望通过 LLM2CLIP 技术,推动大模型的能力反哺多模态社区,同时为基础模型的预训练方法带来新的突破。

LLM2CLIP 的目标是让现有的预训练基础模型更加强大,为多模态研究提供更高效的工具。

除了完整的训练代码,他们也逐步发布了经过 LLM2CLIP 微调的主流跨模态基础模型,期待这些模型能被应用到更多有价值的场景中,挖掘出更丰富的能力。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-28 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均
2024-09-20 13:35:00
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码
2024-09-24 13:36:00
Gemini引领多模态AI热潮,产业发展有望加速
12月11日,多模态AI概念股继续活跃,苏州科达(603660.SH)三连板。截至当日中午收盘,因赛集团(300781
2023-12-11 15:01:00
...中国科学院自动化研究所所长徐波在发布“紫东太初”全模态大模型时,展示了该模型的新“能耐”。作为“紫东太初”1.0的升级版,“紫东太初”全模态大模型具备全模态理解能力、生成能力
2023-06-26 01:45:00
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
... AI 发起挑战的高规格赛事落下了帷幕!这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政
2024-08-01 09:34:00
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低
2024-08-02 09:55:00
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design
2024-11-26 09:46:00
紫东.太初再进化,揭秘全模态大模型的想象力
...在演讲中介绍了基于昇腾AI与昇思MindSpore AI框架打造的全模态大模型紫东.太初2.0,并首次提出全模态多任务统一生成式学习框架
2023-05-12 06:00:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音
2024-11-23 09:43:00
更多关于科技的资讯:
全民可感可玩可参与!2025北京机器人文化节落幕,昌平区打造沉浸式体验推动机器人产业场景融合
10月2日,由iCANX全球科学平台主办的“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇顺利落下帷幕
2025-10-10 14:59:00
合作再升级 阿维塔完成向华为115亿投资支付
阿维塔给华为打了34.5亿,这是第三笔投资款,算下来阿维塔前后一共给了115亿,现在这笔钱全付清了,这意味着阿维塔正式拿到了华为引望10%的股份
2025-10-10 12:16:00
记者10月9日获悉,国家发展改革委、市场监管总局近日发布《关于治理价格无序竞争维护良好市场价格秩序的公告》,提出在保护经营者自主定价权的前提下
2025-10-10 12:20:00
中新经纬10月10日电 题:京东为啥也要卖咖啡?作者 朱丹蓬 广东省食品安全保障促进会副会长、中国食品产业分析师随着消费者对“即买即得”需求的日益增长
2025-10-10 12:23:00
虎鲸文娱发布《2025国庆假期文娱消费报告》票房火热 大屏“圈粉”南报网讯(记者鲁舒婷)10月8日,虎鲸文娱发布的《2025国庆假期文娱消费报告》(以下简称《报告》)显示
2025-10-10 07:32:00
名创优品MINISO深耕IP战略:岭南骑楼店开业首日引爆Z世代消费热潮
2025年8月17日,名创优品MINISO LAND华南首店于广州北京路步行街正式开业。该店以百年岭南骑楼为空间载体,融合超过100个全球热门IP
2025-10-09 11:15:00
荣耀Magic8系列发布会官宣定档10月15日
10月9日,荣耀官方正式宣布,主题为“开新局・见未来”的荣耀 Magic8 系列暨 Magic OS10 发布会将于10 月15日正式举行
2025-10-09 11:30:00
局部降水量80毫米以上!10—14日烟台市将有持续连阴雨天气
齐鲁晚报·齐鲁壹点 周宣刚10月7日10时,烟台市气象局发布10—14日连阴雨天气预报和大风警报。受高空槽东移和暖湿气流输送北上的水汽影响
2025-10-09 11:31:00
权威发布, 福瑞达颐莲品牌价值评估突破120亿
2025年9月25日,在中国香料香精化妆品工业协会主办的“2025中国香妆品牌价值大会”上,福瑞达生物股份旗下颐莲品牌凭借卓越的市场表现与品牌影响力
2025-10-09 11:32:00
持续创新高!高德扫街榜上线23天用户超4亿
这个国庆黄金周,高德APP和高德扫街榜正在持续创新高——10月3日,高德扫街榜宣布:上线仅23天,累计用户超4亿。10月1日
2025-10-09 11:33:00
国庆中秋,大马再掀中餐热潮!“鱼你速度”树出海标杆!
国庆中秋双节期间,马来西亚再度掀起中餐热潮!以“鱼你在一起”为代表的中餐连锁品牌,在当地各大商圈持续引爆消费热情。“6个月
2025-10-09 11:34:00
开启商超智慧储鲜,澳柯玛新品冷柜让食材更鲜活
鲁网10月9日讯当社区团购爆单时冰柜塞不下?当生鲜进货量太大冻不透?当网红雪糕因串味被迫贱卖?针对这些让商超、饭馆等用户抓狂的痛点
2025-10-09 11:40:00
鸡排哥8天假期涨粉超40万,节前已成立工作室,10月9日休息一天
10月8日,江西景德镇鸡排哥在个人社交账号发布一则视频,向全国各地来到家乡景德镇游玩和打卡买鸡排的游客表示感谢。鸡排哥表示近期天气炎热
2025-10-09 12:09:00
大疆部分产品直降千元!消费者炸锅,官方回应
10月8日,大疆在官网提前挂出“双十一”促销信息,多款产品价格直降数百至上千元。此次降价幅度较大。从几百元到几千元不等
2025-10-09 13:45:00
单日游客最高突破6.9万人次 忠县橘若·忠州渡接住“泼天流量”
这个国庆假期,重庆忠县江畔的橘若·忠州渡结结实实地“火”出了圈,八天揽客30余万人次,游客单日最高接待量突破6.9万人次
2025-10-09 13:57:00