模态,领衔,基准,推理,视觉,能力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...息处理全国重点实验室两大平台，长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭

北大等出品，首个多模态版o1开源模型来了——代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型...……更多

2024-11-20 09:42:00模态,推理,北大,视觉,模型,推理

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。想要看懂短视频，除了视觉内容外，语音和音频等听觉信息，如视频音乐、音效...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...来自斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试，输入时不提供任何与图像相关的信息给模型，仅提供文本。所有评估均采用零样本（zero-shot）思维链（Chain of ...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...这个金秋，“日日新·商量”又拿了金牌！今日，中文多模态大模型测评基准SuperCLUE-V发布10月榜单：商汤日日新·商量多模态大模型（SenseChat-Vision5.5）凭借多个任务上的出色表现，总得分位列国内大模型第一梯队，智夺金牌。商...……更多

2024-10-14 13:34:00商汤,模态,基准,模型,模型,能力

Bengio团队提出多模态新基准，直指Claude 3.5和

...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...数字空间和物理世界的交互来完成复杂任务。近年来，多模态大模型和机器人技术得到了长足发展，具身智能成为全球科技和产业竞争的新焦点。然而，目前缺少一篇能够全面解析具身智能发展现状的综述。因此，鹏城实验室多...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

智能体首达Kaggle Grandmaster,华为结构化推

...后他们基于此开发了智能体 Agent K v1.0，并让其参加了多模态 Kaggle 竞赛。最终 Agent K v1.0 获得了相当于 6 金 3 银 7 铜的成绩，成为首个达到 Kaggle Grandmaster level 1 的 AI 智能体。论文标题……更多

2024-11-09 09:53:00华为,结构化,推理,思维,结构,智能

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...像与语音识别能力。本月初，微软更是公布了 166 页的多模态版 GPT-4V 的相关文档，详细探讨了 GPT-4V 的功能和使用情况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

全模态对齐框架align-anything来啦：实现跨模态指

... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐，已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中，「有效加速」和「超级对齐」已经成为两个主要的发展动向，...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

多模态竞技场对标90B Llama 3.2！Pixtral

...客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

720亿参数模型开源通义千问已实现“全尺寸、全模态”开源

...参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果，也可通过阿里云灵积平台调用模型API，或基于阿里云百炼平台定制大模型应用。...……更多

2023-12-01 13:33:00通义,模态,模型,尺寸,参数,模型

支付宝发布多模态医疗大模型：支持千亿级视觉识别

...快科技7月5日消息，在2024世界人工智能大会上，支付宝多模态医疗大模型正式亮相，成为国内首批多模态医疗大模型之一。据悉，该医疗大模型的基石，源自蚂蚁集团自主研发的蚂蚁百灵大模型，这一先进平台不仅拥有“视听言...……更多

2024-07-05 16:17:00模态,模型,支付,视觉,医疗,支持

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造，是（谷歌）通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示：Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...萨比斯在谷歌官网联名发文，宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”，主打的就是一个干爆GPT-4。具体来说，此次谷歌一共带来了Gemini的三个版本：Gemini Ultra：谷歌最大、最强模型，适用于...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

支持1024帧、准确率近100％，英伟达「LongVILA」

...统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活的输入信号，以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

...，使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入（M-ROPE）方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息，M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多

2024-09-03 09:45:00二代,通义,阿里,模型,视觉,语言

GPT-4劲敌，谷歌进入高能+高产模式

...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世，将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日，Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...来，于今年3、4月陆续推出了Grok-1.5大语言模型和首个多模态模型Grok-1.5 Vision，整体迭代速度已足够惊人。但要超越当前所有AI大模型，Grok-2要面对的问题或许远没想象中简单。所有指标超越当前AI大模型，真的假的？2023年11月，x...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...阿里云也首次开源了音频理解大模型Qwen-Audio，这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频，要求模型给出对音频的理解，甚至基于音频进行文...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面

...导读】面壁小钢炮MiniCPM-V 2.6重磅出击，再次刷新端侧多模态天花板！凭借8B参数，已经取得单图、多图、视频理解三项SOTA ，性能全面对标GPT-4V。再次刷新端侧多模态天花板，面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新！仅8B参数...……更多

2024-08-07 09:42:00多图,小钢炮,模态,上端,手机,视频

阿里云发布通义千问2.5，性能赶超GPT-4 Turbo

...榜首，再度证明通义开源系列业界最强的竞争力。通义多模态模型和专有能力模型也具备业界顶尖影响力。在多个多模态标准测试中，通义千问视觉理解模型Qwen-VL-Max得分超越Gemini Ultra和GPT-4V，这款模型已在多家企业落地；代码...……更多

2024-05-09 12:00:00通义,阿里,性能,通义,模型,阿里

反击OpenAI，谷歌放出最强悍大模型Gemini

... CEO戴密斯·哈萨比斯在谷歌官网联名发文，官宣了最新多模态大模型Gemini 1.0（双子星）版本正式上线。这个上线时间早于外界猜测的明年1月，保密程度很高，仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试

...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准，发现现有的多模态模型和 LLM 都表现存在系统性缺陷，同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中，这篇论文获得杰出论文奖。论...……更多

2024-09-12 09:45:00模态,缺陷,测试,模态,模型,心智

苹果公司公布“mm1”多模态大模型

...omMultimodalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供30亿、70亿、300亿三种参数规模，拥有图像识别和自然语言推理能力。IT之家注意到，苹果研究团队相关论文主要是利用MM1模型做实验，通过控制各...……更多

2024-03-16 18:48:00苹果公司,模态,模型,苹果,公司,模型

page 1/3000 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

华为 WATCH D2 揽获七大医疗器械认证

创新技术重新定义血压健康管理方式。11月19日，华为终端官方宣布，新一代智能血压表华为WATCHD2即将在11月26日与大众见面

2024-11-22 14:04:00

X200 Pro炫光问题被vivo用AI修好了？

最近这半个月时间里，vivoX200Pro的炫光问题成为数码圈最热门的话题之一。10月19日，vivoX200系列正式开售

2024-11-22 14:04:00

AI重点通知火了！苹果三星领衔，AIOS的下一个爆点？

今年的AIOS们都在卷些什么？答案是智能助手。更聪明的智能助手，在大模型的加持下有了更强的任务执行能力，比如荣耀的YOYO智能体

2024-11-22 14:04:00

必胜客PS5官方配件好蠢，但我真的想要一个

上一个将餐饮与数码结合起来的品牌是Kindle泡面盖，这一次是必胜客。你能把披萨和游戏机联系在一起吗？事情是这样的：近日

2024-11-22 14:04:00

小白相机爆火！人人都是摄影师，相机市场的悲哀还是福音？

都说手机将消灭相机，结果这几年相机卖得越来越火爆了。以往摄影师在很多人心中还是一个代表着专业和高级的名词，毕竟早期的一套相机怎么也要个两三万块钱

2024-11-22 14:04:00

同方笔记本显卡可拆可升级？游戏本市场要变天了！

前段时间，准系统笔记本电脑刚宣告没落，没想到转头国产厂商就给我们带来了新的惊喜：一款模块化设计的笔记本电脑。熟悉笔记本电脑产品的朋友

2024-11-22 14:04:00

史上最强折叠屏旗舰来了！华为Mate X6将至

继三折叠手机华为MateXT非凡大师引爆市场后，华为又一款折叠屏手机带着全新分布式玄武架构来了！11月20日上午，华为终端官微上线折叠屏五年回顾视频

2024-11-22 14:05:00

华为Mate 70「金丝银锦」火了！手机厂商开卷后盖材质

在今天的话题开始之前，我想问大家一个简单的问题。你会介意手机的机身材质吗？或许大多数用户面临这个问题答案可能是：不知道

2024-11-22 14:05:00

Pokémon Go开发地理空间大模型，AR眼镜的高精地图？

两天前，知名AR厂商Rokid发布了新一代AR眼镜——RokidGlasses，通过摄像头、多模态大模型以及（玻璃衍射）光波导等技术

2024-11-22 14:05:00

努比亚Z70 Ultra评测：影像实力超群，最激进的AI手机

2017年，苹果发布iPhoneX，其关于前置摄像头模组（FaceID）的设计也掀起了手机行业对“额头”的讨论。当时业内对手机额头的处理方式可以分为三类

2024-11-22 14:06:00

苹果首款AI电视曝光！灵感竟然来自中国的“闺蜜机”？

现在市面上名为AppleTV的产品，本质是电视盒子而不是电视。最新消息称，苹果居然要推出真正的智能电视了？彭博社科技记者MarkGurman在最新的通讯栏目里透露

2024-11-22 14:06:00

Wi-Fi 8标准曝光！“人多没网”成历史，XR设备春天到了

Wi-Fi7都还没捂热，Wi-Fi8就有消息了，不少人都说无线通信技术更新缓慢，但是在Wi-Fi技术上，怎么好像有点不一样

2024-11-22 14:06:00

追觅云鲸领衔！双十一智能清洁大爆发，美的们如何狙击新势力？

一年一度的双十一已经落幕，相比前几年，今年双十一的优惠力度堪称史上之最，各种平台优惠劵加上相关补贴，让原本不少价格高高在上的产品降到了一个亲民的价格

2024-11-22 14:06:00

ROG 9 Pro上手：游戏性能拉满，综合体验更全能了

没想到吧？继前段时间发布的红魔10Pro系列后......又一款「真·游戏手机」，来了！那就是ROG玩家国度刚刚正式发布的迭代游戏旗舰——ROG9系列

2024-11-22 14:06:00

客户洞察营销平台行业市场现状分析及投资机遇研究报告

2024年11月22日，调研咨询机构环洋市场咨询出版的《全球客户洞察营销平台行业总体规模、主要厂商及IPO上市调研报告

2024-11-22 14:19:00

头条订阅服务