• 我的订阅
  • 科技

llava-1.6与gpt-4vmp面硬刚的性能,一起来看看

类别:科技 发布时间:2024-02-10 21:04:00 来源:浅语科技

碾压谷歌的Gemini Pro和阿里的Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研究者共同发布了多模态大模型LLaVa(Large Language and Vision Assistant)的1.6版本。与GPT-4V只提供API接口的闭源经营理念不同,LLaVA1.6的代码、模型与训练数据全开源,且在标准评测数据集上跑出了较为亮眼的成绩。一、LLaVA1.6:卷上加卷LLaVA是一种端到端训练的大型多模态模型,又被称为“大型语言和视觉助手”。LLaVa-1.6是微软LLaVa系列的第三个迭代版本。升级后的LLaVa-1.6可谓buff叠满:SOTA级别的性能,低训练花销,多模态的内容生成能力和再一次将开源大模型卷上了新高度。根据LLaVa-1.6官网的标准评测数据集,该模型的表现超越了Qwen-VL-Plus、CogVLM和Yi-VL等一众模型,在大部分数据集上的表现都优于Gemini Pro,在Math-Vista、MMB-ENG等部分数据集上的表现甚至胜于GPT-4V,成为了开源模型中的“性能王者“。

llava-1.6与gpt-4vmp面硬刚的性能,一起来看看

图片来源:LLaVA-1.6官网的标准评测数据在不拘泥于单一模态的内容生成,具有Text-to-Text和Image-to-Text两种模式的同时,LLaVa-1.6的过人之处还在于更低的训练数据成本。LLaVA-1.6能用32个GPU在一天之内完成训练,仅需1.3M条训练数据,其计算和训练数据比其他模型小100到1000倍。除了通过对话式AI生成文本外,LLaVA-1.6还可以识别图片信息并转化成文字答案。升级后的LLaVa-1.6对输入图像的分辨率提升到原来的4倍以上,使得模型能够抓住图片的更多细节。目前支持的图像分辨率有672x672、336x1344以及1344x336三种。LLaVA模型架构基于大量的图像-文本配对的数据集,将预训练的CLIP视觉编码器与大型语言模型(Vicuna)通过映射矩阵相连接,来实现视觉和语言特征的匹配。根据该模型的研发团队成员Haotian Liu在X平台的介绍,此增强版本建立在其前身的简约设计和数据效率基础上,并通过改进视觉指令数据集和SGLang,提升了“推理、OCR等方面的性能”,意味着人类向AGI(通用人工智能)探索的道路上又迈进了一步。

llava-1.6与gpt-4vmp面硬刚的性能,一起来看看

LLaVA-1.6的研发团队成员Haotian Liu在X平台发文原文 二、更适合中国人体质的GPT-4V在奋力追平GPT-4V的同时,LLaVa-1.6也展现出强大的零样本中文能力。LLaVa-1.6不需要额外训练便具备杰出的中文理解和运用能力,其在中文多模态场景下表现优异,使得用户不必学习复杂的“prompt”便可以轻松上手,这对于执行“免费(限制文本长度、使用次数等)+付费会员”制的文心一言们而言无疑提出了新的挑战。笔者在对LLaVa-1.6模型的demo进行尝试时发现,LLaVa-1.6对古诗词等具有中文语言特色的文本内容理解也较为到位,且能给出中上水平的答案。因而对于有图生文或文生文需求的用户而言,LLaVa-1.6模型不失为更适合中国人体质的GPT-4V。

llava-1.6与gpt-4vmp面硬刚的性能,一起来看看

图片来源:笔者在文心一格平台的使用截图更强的视觉对话能力使得LLaVa-1.6的智能服务可以覆盖更多元的场景、具有更强的常识和逻辑推理能力。

llava-1.6与gpt-4vmp面硬刚的性能,一起来看看

图片来源:用户在X平台对LLaVA-1.6的试用截图在上图的应用场景中,用户发给LLaVA-1.6一张机票,询问与之相关的接机和日程安排。LLaVA-1.6不仅准确的估计了驾驶时间,还考虑到了可能堵车的情况,颇具一个“智能管家”的自我修养。

llava-1.6与gpt-4vmp面硬刚的性能,一起来看看

图片来源:用户在X平台对LLaVA-1.6的试用截图为了促进多模态大模型社区的发展,开发者们开源了LLaVa-1.6的全部代码、训练数据和模型。这无疑有益于人工智能开发的透明度和协作。在较小训练样本和开源的前提下,如果可以基于本地数据训练专业模型,推动解决当前大模型基于云的产品的责任和隐私问题。不难发现,轻量化的训练数据是LLaVa-1.6与其他多模态大模型不同的关键一点。一直以来,成本的高企便是横亘在大模型训练面前的一大难题。随着大模型赛道越来越卷,研发者们开始将关注点从性能转向成本,在关注大规模参数量的同时着力降低模型的运算和推理成本,实现模型压缩化和计算高效化。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-10 23:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中
2024-09-24 13:36:00
首个多模态连续学习综述,港中文、清华、UIC联合发布
...顺序训练时,新的任务训练会严重干扰之前学习的任务的性能,因为不受约束的微调会使参数远离旧任务的最优状态。尽管连续学习取得了重大进展,但大多数工作都集中在单一数据模态上,如视觉
2024-11-14 09:46:00
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
...像等多模态任务处理“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超
2023-03-15 13:30:00
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
...态空间。在零样本检索任务上,CLIP 也达成了前所未有的性能提升。论文标题:LLM2CLIP: POWERFUL LANGUAGE MODEL UNLOCKS RICHER VISUAL REPRESENTATION 论文链接
2024-11-28 09:59:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...据和任务上的泛化能力十分有限。在大型语言模型(LLM)性能不断提升的情况下,一个常用的方法是先用ASR模型将语音转录成文本,然后用文本模型来生成新的文本,最后再用TTS模型将
2024-11-23 09:43:00
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...核心属性,团队还设计了一系列创新的评估指标,为模型性能提供更全面的衡量标准。借助这一技术,用户只需输入简单的文本指令,或上传目标形状的图像,即可快速生成符合要求的 CAD 模
2024-11-26 09:46:00
反击OpenAI,谷歌放出最强悍大模型Gemini
...示视频结果看,市面上现有的全部多模态大模型与Gemini的性能表现都有代际差,包括Meta 5月开源的跨6个模态的AI模型ImageBind以及GPT-4
2023-12-07 10:31:00
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...充分探索。本文首通过评估现有方法在图像-标题对上的性能来探索这一背景,由于在该场景中缺乏标签,之前的无法有效地推广到多模态数据,并且在建立捷径方面的效果有限。在本文中提出了多
2024-08-02 09:55:00
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能,特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller
2023-10-17 16:31:00
更多关于科技的资讯:
廊坊推出算力券撬动人工智能产业每年投放总额不超过1000万元,已吸引23家初创企业落地河北日报讯(记者刘英、刘杰)“基于流程
2025-11-08 07:54:00
摘要:随着数字经济的深入发展,传统供应链金融暴露出信息不透明、业务流程复杂、风险管控难度大等突出问题,其数字化转型已成为当前行业发展的重要课题
2025-11-08 05:24:00
摘要:本文探讨数字化时代企业管理模式的创新路径,首先分析数字化对企业管理模式的核心影响,指出其推动管理对象向“人-财-物-数据”融合转变
2025-11-08 05:24:00
智推时代:用GEO打造品牌增长新引擎
在生成式AI重塑流量格局的当下,如何将前沿技术转化为可持续的商业增长,已成为品牌面临的核心挑战。智推时代精准切入这一赛道
2025-11-07 08:03:00
(一)开篇引言行业背景与痛点:中国信息通信研究院《2025年数字营销发展趋势报告》指出,截至2025年6月,国内生成式引擎月活用户已突破8
2025-11-07 08:05:00
一、旅游出行安全保险尚无权威排名,选择需聚焦三大核心指标目前旅游出行安全保险市场不存在公认的统一排名标准,产品选择应重点考察保险公司服务能力(偿付能力充足率
2025-11-07 08:06:00
当生成式AI技术以迅猛势头重构搜索生态时,如何为企业精准挑选高度契合需求的GEO(生成式引擎优化)服务供应商,已成为抢占下一代流量入口的核心战略动作
2025-11-07 08:06:00
科学实力获市场验证:任我行液体钙获全球销量第一认证
2025年11月初,德国Moms Garden任我行旗下成人液体钙产品确认获得尚普咨询集团授予的“成人液体钙全球销量第一”与“骨骼健康领导品牌”双重市场地位认证证书
2025-11-07 08:07:00
磷虾油产品对比 磷虾油品牌深度测评与科学选购指南
近年来随着健康意识的不断提升,富含Omega-3、磷脂和虾青素的磷虾油逐渐成为大众关注的营养补充剂。然而在市场快速扩张的背后
2025-11-07 08:07:00
道路“会思考” 出行更美好!数字道路建设赋能未来之城
数字道路建设赋能未来之城道路“会思考” 出行更美好雄安新区的街道上,看似普通的路灯杆集合了多种智能设备,成为智慧交通的“眼睛”
2025-11-07 08:20:00
今年9月27日,雄安图书馆正式向公众开放。一个多月来,已迎来访客20余万人次。这座形如书卷徐徐展开的建筑,不仅是新区一座崭新的文化地标
2025-11-07 08:20:00
关注进博会丨河北再赴进博之约(二):把全球好物装进“购物车”
把全球好物装进“购物车”——河北再赴进博之约(二)11月6日,在第八届中国国际进口博览会河北省主题展区,河北参展商正在进行路演活动
2025-11-07 08:21:00
南报网讯(通讯员王亚洲朱丽纯记者王婷婷)日前,“智云经开”品牌发布暨创新中心签约仪式在兴智科技园举行。南京经开区与省数据局
2025-11-07 08:23:00
今年以来,肥乡联社在省联社及邯郸审计中心的精准指导下,锚定代理保险业务作为中间业务增长的核心抓手,深挖县域保险市场潜力
2025-11-07 10:22:00
为全面提升金融服务安全性,切实保障广大客户的资金与信息安全,近期,行唐联社市仝信用社积极行动,开展了一系列网络安全宣传与防护活动
2025-11-07 10:24:00