• 我的订阅
  • 头条热搜
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准确性。想要看懂短视频,除了视觉内容外,语音和音频等听觉信息,如视频音乐、音效...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息给模型,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of ...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...这个金秋,“日日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
...参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。...……更多
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...快科技7月5日消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大模型,这一先进平台不仅拥有“视听言...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于...……更多
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造,是(谷歌)通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示:Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活的输入信号,以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世,将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日,Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...来,于今年3、4月陆续推出了Grok-1.5大语言模型和首个多模态模型Grok-1.5 Vision,整体迭代速度已足够惊人。但要超越当前所有AI大模型,Grok-2要面对的问题或许远没想象中简单。所有指标超越当前AI大模型,真的假的?2023年11月,x...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...阿里云也首次开源了音频理解大模型Qwen-Audio,这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出对音频的理解,甚至基于音频进行文...……更多
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,性能全面对标GPT-4V。再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!仅8B参数...……更多
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
...榜首,再度证明通义开源系列业界最强的竞争力。通义多模态模型和专有能力模型也具备业界顶尖影响力。在多个多模态标准测试中,通义千问视觉理解模型Qwen-VL-Max得分超越Gemini Ultra和GPT-4V,这款模型已在多家企业落地;代码...……更多
反击OpenAI,谷歌放出最强悍大模型Gemini
... CEO戴密斯·哈萨比斯在谷歌官网联名发文,官宣了最新多模态大模型Gemini 1.0(双子星)版本正式上线。这个上线时间早于外界猜测的明年1月,保密程度很高,仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中,这篇论文获得杰出论文奖。论...……更多
苹果公司公布“mm1”多模态大模型
...omMultimodalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供30亿、70亿、300亿三种参数规模,拥有图像识别和自然语言推理能力。IT之家注意到,苹果研究团队相关论文主要是利用MM1模型做实验,通过控制各...……更多
清华提出CharacterGLM;DeepMind联创发全新一代大模型;大模型版“5年高考3年模拟”来了丨AI新零售早报
...大模型版“5年高考3年模拟”来了!6141道数学题,还是多模态的那种|微软&UCLA&UW联合出品》MathVista是一个多模态数学推理基准数据集,由微软、UCLA和UW联合开发,包含6141个数学问题,涵盖丰富的任务类型、推理能力和图...……更多
苹果发布mm1.5-ui模型
10月13日消息,近日,苹果公司推出了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则,着重探究在不同训练周期中混合各类数据对模型性能产生的影响,相关模...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
【新智元导读】多模态大语言模型(MLLM)在医学视觉问答(VQA)领域展现出巨大潜力,通过提供针对医学图像的具体临床问题的回答,有助于提高医疗专业人员的工作效率。然而,现有医学VQA数据集规模较小且问题过于简单,...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多
更多关于科技的资讯:
全球最大SSD Solidigm D5-P5336 61.44TB疯狂涨价:已超5万元
去年7月,Solidigm发布了旗舰企业级SSD D5-P5336,最高容量达61.44TB,创造行业新纪录,采用192层QLC闪存
2024-10-19 20:21:00
黄色巨龙贴地飞驰!中国高铁飙到385公里/时
快科技10月19日消息,10月18日,南宁至珠海高速铁路南宁至玉林段(简称南珠高铁南玉段)迎来了最高测试速度等级的提速试验
2024-10-19 20:21:00
杨笠吐槽男生痴迷电子设备 博主:让男人快乐的最便宜东西了
快科技10月19日消息,今天杨笠吐槽男生痴迷电子设备的视频又被翻了出来。视频中,杨笠以幽默的方式表达了男生对电子产品的热情
2024-10-19 21:21:00
惨!四川乐山一摩托车高速飙车与轿车相撞 女生被甩出100多米
10月19日消息,据国内媒体报道称,四川乐山乐沙大道发生一起车祸,一辆摩托车与一辆轿车相撞,有人伤亡。从现场网友反馈的情况看
2024-10-19 21:51:00
技嘉首发雷电5扩展卡:2个接口 可连10台设备
快科技10月19日消息,Intel去年9月就正式发布了雷电5,但在最新的酷睿Ultra 200系列平台上仍然没有原生集成
2024-10-19 22:51:00
北京三号C星星座顺利过审:数飞机的本事绝了
快科技10月19日消息,近日,北京三号C星星座在轨测试总结评审会在北京召开。童庆禧院士为组长,自然资源部遥感领域专家、中国航天科技集团五院和五院航天东方红卫星有限公司相关专家作为评委的评审组经过现场质询和讨论
2024-10-19 23:21:00
得了绝症的玉米变成顶级食材 价格翻百倍:为何不专门培育
下面根玉米被真菌感染了,它长出了这种黑色的瘤状物,看起来很糟糕,但这根玉米现在成为了一种昂贵的美食。当玉米田的温度和湿度都很高的时候
2024-10-19 23:51:00
iqoo13正面照解禁:全球首发oled圆偏振光护眼
即将在本月底发布的iQOO13正面照解禁了,大家快来看新旗舰!iQOO13iQOO13iQOO13可以看到,iQOO13正面搭载的是一块直屏
2024-10-20 00:03:00
索尼计划11月底发布全新全画幅e卡口微单相机
来自外媒的消息,根据可靠人士爆料,索尼计划在11月底举办一场新品发布会活动,在本次发布会上会有一个全新的全画幅E卡口微单相机
2024-10-20 00:22:00
当贝smart1投影仪上手体验
10月18日消息,当贝最近推出了一款全新的便携式投影仪——当贝Smart1。轻巧设计,携带便捷当贝Smart1投影仪以其奶茶杯大小的体积和1
2024-10-20 00:54:00
雷军分享小米在智能汽车领域最新的进展
10月18日消息,昨日在北京召开的世界智能网联汽车大会上,小米创始人雷军分享了小米在智能汽车领域最新的进展。雷军表示,作为汽车行业的新入者
2024-10-20 00:55:00
努比亚z70ultra开始预热:屏下方案升级
10月18日消息,近日努比亚Z70Ultra已经开始预热,继续延续真全面屏形态,正面无任何挖孔。值得注意的是,这次的屏下方案大幅升级
2024-10-20 00:59:00
阳光新能源家庭源电站发布会在京召开
眼下,新能源行业已从“规模优先”转变到“效益和协同优先”的高质量发展阶段。10月18日,阳光新能源在北京召开“以‘不变’应万变——电站创新技术发布会”
2024-10-20 01:00:00
海信百吋大屏电视亮相电博会
10月18日,2024中国国际消费电子博览会在青岛拉开序幕,本届电博会以“绿色领航数链未来”为主题,国内外300多家企业集中展示了当今消费电子领域的新技术
2024-10-20 01:04:00
新一届高通骁龙峰会定档,骁龙8elite即将登场
新一届高通骁龙峰会已经定档,将于10月22日至24日召开,在夏威夷的海风之下,全新一代的骁龙8系旗舰即将登场。官方slogan为“好
2024-10-20 01:04:00