我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更快、更强

类别：科技发布时间：2023-10-17 16:31:00 来源：学术头条

上个月，ChatGPT 正式具备了图像与语音识别能力。

本月初，微软更是公布了 166 页的多模态版 GPT-4V 的相关文档，详细探讨了 GPT-4V 的功能和使用情况，这一举动引起了业界的广泛关注。

然而，在视觉语言模型的角逐中，谷歌也不甘示弱。

近日，Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型（VLM）——PaLI-3，该模型与相似的体积大 10 倍的模型相比具有显著竞争力。

研究人员使用分类目标预训练的视觉变换器（ViT）模型与对比性预训练的模型（SigLIP）进行了比较，结果发现，PaLI-3 虽然在标准图像分类基准上略微表现不佳，但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能，特别是在定位和文本理解方面。

相关研究论文以“PaLI-3 Vision Language Models: Smaller, Faster, Stronger”为题，已发表到预印本网站 arXiv 上。

研究团队认为，仅有 50 亿参数的 PaLI-3 重新点燃了关于复杂 VLM 核心组成部分的研究，可能推动新一代规模更大的模型的发展。

更高分辨率的多模态学习

最近，大型视觉语言模型在其更大的模型中使用预训练的图像编码器，其中一些使用监督分类进行预训练（如PaLI，PaLI-X，Flamingo，PaLM-E），一些使用预训练的CLIP编码器（如BLIPv2，CrossTVR，ChatBridge，还有一些使用自定义多模态预训练（如 BEiT3，CoCa，SimVLM）。

本次研究的训练方法包括三个主要组成部分：在网络规模的图像文本数据上进行图像编码器的对比性预训练，改进的 PaLI 多模态训练数据混合以及以更高分辨率进行训练。

在单模态预训练阶段，图像编码器在 Web 上的图像文本配对上采用 SigLIP 训练协议进行对比预训练。研究人员采用了一种基于模型的过滤方法，保留了大约 40% 的配对。图像编码器在 224×224 的分辨率下进行训练。文本编码器-解码器是一个 3B UL2 模型，按照混合去噪程序进行训练。

在多模态训练阶段，研究人员将图像编码器与文本编码器-解码器结合在一起，形成了 PaLI 模型。这个模型针对多模态任务进行训练，保持图像编码器的冻结状态，使用原生分辨率（224×224）。

主要的数据混合来自 WebLI 数据集，经过筛选和使用特定的训练目标。其他元素包括多语言字幕、OCR 处理、跨语言 VQA 和 VQG、物体感知 VQA 以及物体检测。虽然没有包括来自视频的任务或数据，但由于强大的图像编码器，PaLI-3 在这些基准上仍然具有竞争力。此外，通过向 WebLI 添加了包含稠密文本和网络图像（如海报或文档）的 PDF 文档，以及支持 100 多种语言的文本，文档和图像理解能力得到了进一步的提高。

在提高分辨率阶段，研究通过对整个模型进行微调（解冻图像编码器）并使用逐渐增加分辨率的短期课程来提高 PaLI-3 的分辨率，保持在 812×812 和 1064×1064 分辨率处的检查点。数据混合主要集中在涉及视觉定位文本和物体检测的部分。

提升图像理解与文本定位任务

首先，研究人员在 PaLI 框架内进行了对不同的 ViT 模型的有控制的比较。结果发现，虽然 SigLIP 模型的少样本线性分类性能较差，但当在 PaLI-3 中使用时，SigLIP 模型在"简单"任务（如字幕和问答）上提供了适度的性能提升，并在更"复杂"的场景文本和空间理解任务（如 TextVQA 和 RefCOCO 变体）上提供了大幅提升。

随后，研究又在视觉定位文本理解任务中评估了 PaLI-3，这些数据集中的图像涉及自然图像、插图、文档和用户界面等各种领域。PaLI-3 在绝大多数字幕和 VQA 基准上，无论是否有外部 OCR 输入，都取得了最先进的性能。唯一的例外是 AI2D 和 ChartQA，它们不仅需要理解，还需要对图表进行强大的推理能力。对于这两个基准，PaLI-3 稍微落后于 PaLI-X。

另外，研究人员还扩展了 PaLI-3 的功能，使其能够通过语言类似的输出来预测分割遮罩。实验结果表明，对于这种类型的定位任务，对比预训练要比分类预训练更为有效。完整的 PaLI-3 模型能够在指代表达分割方面稍微优于最先进的方法。

在自然图像理解部分，研究对 PaLI-3 在通用视觉语言理解任务上进行了评估，包括 COCO 字幕和 VQAv2，尽管与最近的 SOTA 模型相比，PaLI-3 的规模要小得多，但在这些基准上表现非常出色。

在视频字幕和问答部分，研究人员在 4 个视频字幕基准上对 PaLI-3 模型进行了微调和评估：MSR-VTT、VATEX、ActivityNet Captions 和 Spoken Moments in Time。然后，对 3 个视频问题解答基准进行了同样的测试：NExT-QA、MSR-VTT-QA 和 ActivityNet-QA。尽管没有使用视频数据进行预训练，PaLI-3 仍然以较小的模型规模取得了出色的视频质量保证结果。

总而言之，在本研究中，研究人员深入研究了 VLM 中图像编码器的预训练，特别是 PaLI 类型的模型。研究首次明确比较了分类预训练和图像文本（对比性）预训练这两种方法，发现后者可以带来更好和更高效的 VLM，特别是在定位和文本理解任务方面。

另外，研究人员在论文中指出：“这只是 VLM 的一个小方面，我们希望这项研究和其结果能够激励对 VLM 训练的众多其他方面进行深入探讨。”

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-10-17 18:45:06

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于更快,模型,视觉,语言,训练,模型的资讯：

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

...lama 3-V 70B相媲美。NVLM-X1.0还有一个优势：训练和推理速度更快。开源的多模态大型语言模型，如LLaVA-OneVision 72B和InternVL-2-Llama3-76B

2024-09-24 13:36:00

更快、更强、更可控：智谱“起舞弄清影”，视频生成卷出新高度！

...也进一步推动AI普惠风。一、智谱“清影”上线：速度更快、更为可控、画面更连贯速度上，智谱生成式视频模型的推理速度提升了6倍，生成6s视频只需花费30s，这意味着更快的创作

2024-07-27 10:00:00

AI PC是噱头还是更快的马车？

...tra5125H包含7个。而且，这一代核显还支持AV1硬编码，可以更快速地输出高质量、高压缩率的视频。凭借领先的编解码能力

2024-03-28 13:00:00

商汤如何玩转大模型+大算力？详解“日日新SenseNova”

...SenseNova”大模型体系开放API和MaaS服务，该板块有望迎来更快增长。1956年，人工智能这个词和粒子对撞机同时发明出来

2023-04-14 14:00:00

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...的 7B MLLM （e.g., LLaVA1.5 和 SPHINX），但我们优先使用更小更快的 Mamba-2.7B 来平衡机器人模型的效率

2024-06-21 09:52:00

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附

...PT-4o。GPT-4o 将文本、音频和视觉集成到一个模型中，提供更快的响应时间、更好的推理能力以及在非英语语言中的更佳表现

2024-10-21 10:03:00

多说几句，机器人学得更快

...人类相比。“以语言形式存在的额外信息可以帮助机器人更快学习使用工具。”研究合作者、普林斯顿大学智能机器人运动实验室负责人Anirudha Majumdar表示。在机器人训练过

2023-01-04 06:00:00

英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-

...上升空间。理论上只要堆更多的芯片，运算的结果自然会更快。英特尔AI产品高级主管Jordan Plawner对媒体表示

2023-06-28 07:00:00

oppo首个端侧应用70亿参数大模型findx7系列

...式的视觉模型，在保障用户隐私安全的情况下，带来响应更快、处理能力更强、生成质量更高的本地AI体验。” 得益于完整的端侧应用的AndesGPT70亿参数大语言模型，FindX

2023-12-28 10:13:00

更多关于科技的资讯：

千问数据：春节活动期间全国超1.3亿人第一次体验AI购物

中新经纬2月17日电千问App数据显示，春节活动期间，全国超过1.3亿人第一次体验AI购物，说了50亿次“千问帮我”

2026-02-17 14:16:00

新春走基层｜港口老司机“秀”新操作

2月16日，秦港股份九公司集控中心操作员曹宏璐在工作中。河北日报记者张辉摄2月16日，农历除夕。下午2时30分许，随着“航旭鑫海”轮进入秦皇岛港902泊位

2026-02-17 08:53:00

1.3亿人春节首次体验AI购物，千问一跃成为国民级AI助手

2月17日大年初一凌晨，千问发布的数据显示，春节活动期间，全国超过1.3亿人第一次体验AI购物，说了50亿次“千问帮我”

2026-02-17 10:22:00

这一年，杭产机器人忙着进化忙着上岗

宇树机器人化身武林高手亮相春晚“这才一年，太震惊了！”昨晚的央视春晚上，宇树机器人和河南塔沟武术学校带来的《武BOT》一亮相

2026-02-17 07:17:00

新春走基层｜总台春晚这条“骐骥驰骋”红色羊绒围巾出自河北品牌

见习记者于歆2026年总台春晚舞台上部分演员及嘉宾佩戴的“骐骥驰骋”红色羊绒围巾，出自河北品牌！由邢台市清河县的河北红太集团生产

2026-02-17 01:36:00

阿里发布千问3.5，性能媲美Gemini 3， Token价

2月16日除夕当天，阿里巴巴开源全新一代大模型千问Qwen3.5-Plus，性能媲美Gemini 3 Pro，登顶全球最强开源模型

2026-02-16 17:34:00

海信冰箱联手央视《探班春晚》用真空保鲜科技“锁住年味”

鲁网2月16日讯2月16日，作为央视新闻新媒体《探班春晚》的独家家电合作伙伴，海信冰箱携真空保鲜科技亮相“春晚会客厅”

2026-02-16 18:47:00

余杭文化“新三样”扬帆驶向全球文化蓝海

《长安三万里·梦回大唐》获金鸡虚拟现实电影季“年度最佳艺术表现奖”。后亚运时代，杭州如何将因赛会集聚的国际目光，转化为持续的城市发展动能

2026-02-16 11:33:00

北京亦庄与它石智航达成战略合作！共建产业新高地

2026年伊始，具身智能产业持续加速发展。2月14日，北京亦庄与它石智航达成战略合作，双方将在具身智能关键技术攻关、应用落地和产业生态建设方面展开合作

2026-02-16 08:21:00

【网络中国节·春节】解锁数字文旅新体验厦门科技企业“电子年

厦门网讯（厦门日报记者林露虹）马年春节假期，厦门科技企业的“电子年货”火热上线。在厦门过年，市民和游客可以请AI当导游

2026-02-16 08:40:00

AI购物是大模型走向千家万户的“第一块试验田”

自2025年夏季，京东、美团、阿里等数字平台企业相继开启围绕即时零售市场的激烈争夺。这场“闪购大战”，初期以各方投入“天价补贴”争抢流量而引发社会广泛关注

2026-02-16 08:53:00

一键撰联赋吉年 “马踏新程”春节系列评论（二）

马年新春，光景别样。打开手机AI小程序，输入姓名、爱好与新年心愿，一键可生成专属春联。AI深度融入日常生活，无所不在。拥抱AI

2026-02-16 07:39:00

青岛市南：智聚成势着力打造“一人成军”OPC生态社区群落

鲁网2月15日讯在人工智能加速重构产业组织形态的背景下，“一人即公司”（OPC）正成为全球创新创业的新范式。2026年2月12日

2026-02-15 20:48:00

2026年春节自驾安全指南：平安回家路，这些要点必看！扫码

2026-02-15 22:14:00

石家庄市栾城区妇联举办美妆技能培训

河北新闻网讯（王秀平、李明发）近日，石家庄市栾城区妇联联合妆颜美化妆培训学校，精心举办了一场干货满满的美妆技能培训活动

2026-02-15 19:16:00

头条订阅服务

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更快、更强