• 我的订阅
  • 科技

迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强

类别:科技 发布时间:2023-10-17 16:31:00 来源:学术头条

上个月,ChatGPT 正式具备了图像与语音识别能力。

本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。

迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强

然而,在视觉语言模型的角逐中,谷歌也不甘示弱。

近日,Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型(VLM)——PaLI-3,该模型与相似的体积大 10 倍的模型相比具有显著竞争力。

研究人员使用分类目标预训练的视觉变换器(ViT)模型与对比性预训练的模型(SigLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能,特别是在定位和文本理解方面。

相关研究论文以“PaLI-3 Vision Language Models: Smaller, Faster, Stronger”为题,已发表到预印本网站 arXiv 上。

迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强

研究团队认为,仅有 50 亿参数的 PaLI-3 重新点燃了关于复杂 VLM 核心组成部分的研究,可能推动新一代规模更大的模型的发展。

更高分辨率的多模态学习

最近,大型视觉语言模型在其更大的模型中使用预训练的图像编码器,其中一些使用监督分类进行预训练(如PaLI,PaLI-X,Flamingo,PaLM-E),一些使用预训练的CLIP编码器(如BLIPv2,CrossTVR,ChatBridge,还有一些使用自定义多模态预训练(如 BEiT3,CoCa,SimVLM)。

本次研究的训练方法包括三个主要组成部分:在网络规模的图像文本数据上进行图像编码器的对比性预训练,改进的 PaLI 多模态训练数据混合以及以更高分辨率进行训练。

在单模态预训练阶段,图像编码器在 Web 上的图像文本配对上采用 SigLIP 训练协议进行对比预训练。研究人员采用了一种基于模型的过滤方法,保留了大约 40% 的配对。图像编码器在 224×224 的分辨率下进行训练。文本编码器-解码器是一个 3B UL2 模型,按照混合去噪程序进行训练。

在多模态训练阶段,研究人员将图像编码器与文本编码器-解码器结合在一起,形成了 PaLI 模型。这个模型针对多模态任务进行训练,保持图像编码器的冻结状态,使用原生分辨率(224×224)。

迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强

主要的数据混合来自 WebLI 数据集,经过筛选和使用特定的训练目标。其他元素包括多语言字幕、OCR 处理、跨语言 VQA 和 VQG、物体感知 VQA 以及物体检测。虽然没有包括来自视频的任务或数据,但由于强大的图像编码器,PaLI-3 在这些基准上仍然具有竞争力。此外,通过向 WebLI 添加了包含稠密文本和网络图像(如海报或文档)的 PDF 文档,以及支持 100 多种语言的文本,文档和图像理解能力得到了进一步的提高。

在提高分辨率阶段,研究通过对整个模型进行微调(解冻图像编码器)并使用逐渐增加分辨率的短期课程来提高 PaLI-3 的分辨率,保持在 812×812 和 1064×1064 分辨率处的检查点。数据混合主要集中在涉及视觉定位文本和物体检测的部分。

提升图像理解与文本定位任务

首先,研究人员在 PaLI 框架内进行了对不同的 ViT 模型的有控制的比较。结果发现,虽然 SigLIP 模型的少样本线性分类性能较差,但当在 PaLI-3 中使用时,SigLIP 模型在"简单"任务(如字幕和问答)上提供了适度的性能提升,并在更"复杂"的场景文本和空间理解任务(如 TextVQA 和 RefCOCO 变体)上提供了大幅提升。

迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强

随后,研究又在视觉定位文本理解任务中评估了 PaLI-3,这些数据集中的图像涉及自然图像、插图、文档和用户界面等各种领域。PaLI-3 在绝大多数字幕和 VQA 基准上,无论是否有外部 OCR 输入,都取得了最先进的性能。唯一的例外是 AI2D 和 ChartQA,它们不仅需要理解,还需要对图表进行强大的推理能力。对于这两个基准,PaLI-3 稍微落后于 PaLI-X。

另外,研究人员还扩展了 PaLI-3 的功能,使其能够通过语言类似的输出来预测分割遮罩。实验结果表明,对于这种类型的定位任务,对比预训练要比分类预训练更为有效。完整的 PaLI-3 模型能够在指代表达分割方面稍微优于最先进的方法。

在自然图像理解部分,研究对 PaLI-3 在通用视觉语言理解任务上进行了评估,包括 COCO 字幕和 VQAv2,尽管与最近的 SOTA 模型相比,PaLI-3 的规模要小得多,但在这些基准上表现非常出色。

迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强

在视频字幕和问答部分,研究人员在 4 个视频字幕基准上对 PaLI-3 模型进行了微调和评估:MSR-VTT、VATEX、ActivityNet Captions 和 Spoken Moments in Time。然后,对 3 个视频问题解答基准进行了同样的测试:NExT-QA、MSR-VTT-QA 和 ActivityNet-QA。尽管没有使用视频数据进行预训练,PaLI-3 仍然以较小的模型规模取得了出色的视频质量保证结果。

总而言之,在本研究中,研究人员深入研究了 VLM 中图像编码器的预训练,特别是 PaLI 类型的模型。研究首次明确比较了分类预训练和图像文本(对比性)预训练这两种方法,发现后者可以带来更好和更高效的 VLM,特别是在定位和文本理解任务方面。

另外,研究人员在论文中指出:“这只是 VLM 的一个小方面,我们希望这项研究和其结果能够激励对 VLM 训练的众多其他方面进行深入探讨。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-10-17 18:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...lama 3-V 70B相媲美。NVLM-X1.0还有一个优势:训练和推理速度更快。开源的多模态大型语言模型,如LLaVA-OneVision 72B和InternVL-2-Llama3-76B
2024-09-24 13:36:00
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...也进一步推动AI普惠风。 一、智谱“清影”上线:速度更快、更为可控、画面更连贯速度上,智谱生成式视频模型的推理速度提升了6倍,生成6s视频只需花费30s,这意味着更快的创作
2024-07-27 10:00:00
AI PC是噱头还是更快的马车?
...tra5125H包含7个。而且,这一代核显还支持AV1硬编码,可以更快速地输出高质量、高压缩率的视频。凭借领先的编解码能力
2024-03-28 13:00:00
商汤如何玩转大模型+大算力?详解“日日新SenseNova”大模型体系的关键招
...SenseNova”大模型体系开放API和MaaS服务,该板块有望迎来更快增长。1956年,人工智能这个词和粒子对撞机同时发明出来
2023-04-14 14:00:00
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...的 7B MLLM (e.g., LLaVA1.5 和 SPHINX),但我们优先使用更小更快的 Mamba-2.7B 来平衡机器人模型的效率
2024-06-21 09:52:00
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...PT-4o。GPT-4o 将文本、音频和视觉集成到一个模型中,提供更快的响应时间、更好的推理能力以及在非英语语言中的更佳表现
2024-10-21 10:03:00
多说几句,机器人学得更快
...人类相比。“以语言形式存在的额外信息可以帮助机器人更快学习使用工具。”研究合作者、普林斯顿大学智能机器人运动实验室负责人Anirudha Majumdar表示。在机器人训练过
2023-01-04 06:00:00
英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练
...上升空间。理论上只要堆更多的芯片,运算的结果自然会更快。英特尔AI产品高级主管Jordan Plawner对媒体表示
2023-06-28 07:00:00
oppo首个端侧应用70亿参数大模型findx7系列
...式的视觉模型,在保障用户隐私安全的情况下,带来响应更快、处理能力更强、生成质量更高的本地AI体验。” 得益于完整的端侧应用的AndesGPT70亿参数大语言模型,FindX
2023-12-28 10:13:00
更多关于科技的资讯:
中亦科技荣膺华为云“2025年度擎帆奖”
2026年1月23日,华为云“同心·共行·致远”北京伙伴大会盛大召开。会上,中亦科技凭借在数据库联合解决方案创新及行业纵深拓展中的卓越表现
2026-02-05 21:33:00
归母净利润预增123% 科沃斯:用专注与具象解码科技
东经120.721093,北纬31.213668,这个坐标点正因一家上市公司的到来,变得充满生机与活力——2月4日16时左右
2026-02-05 19:22:00
合肥年货节设立萌宠专区,把宠物友好写进购物清单
大皖新闻讯 2月5日,2026年第十六届合肥年货节盛大启幕,国内外500余家企业齐聚合肥滨湖国际会展中心。大皖新闻记者发现
2026-02-05 19:59:00
北京海淀开展坚果炒货食品专项检查
近日,北京市海淀区市场监管局开展坚果炒货食品专项检查。本次重点检查产品的生产日期、保质期、生产厂家等信息是否标注清晰,是否存在过期、变质等问题。中国消费者报记者董芳忠摄影报道
2026-02-05 14:37:00
马上元梦 数字新生|元梦空间绘蓝图 马上元梦嘉年华大会蓉城圆满落幕
2026年2月3日,由元梦空间文化传播(成都)有限公司、元界乐享智联(深圳)科技有限公司、全球元宇宙酒店集团、大湾区企业家联合会联合主办的 “马上元梦数字新生——元梦空间2026马上元梦嘉年华大会”在成都温江皇冠假日酒店盛大举行
2026-02-05 15:08:00
第57次《中国互联网络发展状况统计报告》今天发布。报告显示,截至2025年12月,我国网民规模达11.25亿人,互联网普及率突破80%
2026-02-05 15:21:00
2026年1月以来,一款名为OpenClaw(曾用名Clawdbot、Moltbot)的智能体项目在国际开源社区迅速走红
2026-02-05 15:47:00
中国消费者报南京讯(记者桑雪骐)2月4日,苏州奥体中心体育场灯光璀璨,追觅科技与央视携手打造的“敢梦敢为•追觅之夜”演唱会正式举行
2026-02-05 14:37:00
史上首次!米兰冬奥基于阿里千问打造奥运官方大模型
2月5日,米兰冬奥会开幕在即,国际奥委会主席柯丝蒂·考文垂在国际转播中心举行的活动中宣布,国际奥委会已基于阿里千问大模型打造了奥运史上首个官方大模型
2026-02-05 13:40:00
华商观察丨智能儿童手表席卷全球 安全与隐私红灯亮起
智能儿童手表的全球普及浪潮,正伴随技术迭代与家长安全需求快速推进,成为数字时代儿童生活的标志性设备。据 Global Growth Insights 2025 年 12 月发布的行业报告显示
2026-02-05 11:29:00
All in AI, 重塑保险!中国太保首届科技创新大会燃动申城
鲁网2月5日讯当人工智能成为驱动产业变革的核心引擎,保险行业正迎来从传统模式向数智化跨越的关键拐点。1月30日,中国太保以“All in AI
2026-02-05 11:06:00
2026微信小程序开发服务商推荐:技术与服务双维筛选指南
据2025年中国电子商务协会发布的《小程序生态发展白皮书》显示,当年微信小程序交易规模突破8.3万亿元,同比增长41.2%
2026-02-05 08:12:00
义乌世界杯订单生产进入“冲刺期”
2026年美加墨足球世界杯将在6月启幕。从2025年5月开始,义乌市场上的世界杯订单就陆续而至,如今,球迷服装等世界杯相关体育用品的销售和生产已经进入“冲刺期”
2026-02-05 08:19:00
厦门网讯 (厦门日报记者 李晓平)在商业航天产业化浪潮与国产航空装备升级的双重驱动下,一场关于“星辰大海”的产业竞逐正在上演
2026-02-05 08:30:00
10米/秒,全球最快!杭州造出超高速人形机器人
超高速人形机器人Bolt 镜识科技供图2月2日傍晚,镜识科技发布旗下首款全尺寸人形机器人Bolt。“滴答”一声,红色的人形机器人已冲出10米开外
2026-02-05 08:49:00