模态,基准,弱点,团队,模型,任务头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...来自斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...像与语音识别能力。本月初，微软更是公布了 166 页的多模态版 GPT-4V 的相关文档，详细探讨了 GPT-4V 的功能和使用情况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...萨比斯在谷歌官网联名发文，宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”，主打的就是一个干爆GPT-4。具体来说，此次谷歌一共带来了Gemini的三个版本：Gemini Ultra：谷歌最大、最强模型，适用于...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

...究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。具体来说，他们做出了以下贡献：（1）他们提出了 SoccerReplay-1988，这是迄今为止最大的多模态足球数据集，其中包括来自 1988 场完整比赛的视频和详细注释，...……更多

2024-12-10 09:53:00模型,语言基础,清华,定律,密度,团队

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试，输入时不提供任何与图像相关的信息给模型，仅提供文本。所有评估均采用零样本（zero-shot）思维链（Chain of ...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

全模态对齐框架align-anything来啦：实现跨模态指

... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐，已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中，「有效加速」和「超级对齐」已经成为两个主要的发展动向，...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...这个金秋，“日日新·商量”又拿了金牌！今日，中文多模态大模型测评基准SuperCLUE-V发布10月榜单：商汤日日新·商量多模态大模型（SenseChat-Vision5.5）凭借多个任务上的出色表现，总得分位列国内大模型第一梯队，智夺金牌。商...……更多

2024-10-14 13:34:00商汤,模态,基准,模型,模型,能力

全自动组装家具！斯坦福发布IKEA Video Manua

...主组装IKEA家具，或者通过AI驱动的AR眼镜。」突破性的多模态对齐组装一件IKEA家具需要理解多种形式的指令：说明书提供了任务的整体分解和关键步骤；视频展示了详细的组装过程；而3D模型则定义了部件之间的精确空间关系。I...……更多

2024-12-04 09:53:00斯坦,斯坦福,指令,全自动,场景,家具

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...qizhixin.com随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

连发两款模型“补课”，百度AI成色如何？

...箱底的技术实力？按百度说法，文心4.5定位新一代原生多模态基础大模型，在多个基准测试中超过GPT-4o，得分最高的则是DocVQA，该基准主要测试文档图像的问答能力。在文本能力方面，文心4.5则在多个主流基准测试中超过DeepSeek-...……更多

2025-03-20 11:38:00成色,补课,模型,文心,模型,模态

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...息处理全国重点实验室两大平台，长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...能（GMAI）：GMAI 是指能够广泛应用于不同医疗场景下的多模态人工智能模型，其中大型语言模型常作为人机交互的纽带。采用多语言的医疗模型，替代以往以英语为中心的模型，能够充分利用全球多种语言的数据资源，从而扩展...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布

...高模型在3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调。多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它...……更多

2024-10-16 13:35:00模型,场景,训练,语言,数据,物体

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...同完成，是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计（CAD）生成大模型。计算机辅助设计（Computer-Aided Design，简称 CAD）软件是工业软件的重要分支，也是工业设计流程中的核心工具。然而，目前...……更多

2024-11-26 09:46:00一键,模态,高质量,生成,模型,图像

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造，是（谷歌）通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示：Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

多模态竞技场对标90B Llama 3.2！Pixtral

...客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日，商汤科技发布多模态多任务通用大模型“书生（INTERN）2.5”，在多模态多任务处理能力方面实现多项全新突破，其卓越的图文跨模态开放任务处理能力可...……更多

2023-03-15 13:30:00商汤,模态,书生,模型,任务,社区

首个多模态连续学习综述，港中文、清华、UIC联合发布

...址：https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning多模态连续学习的最新进展连续学习（CL）旨在增强机器学习模型的能力，使其能够不断从新数据中学习，而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗...……更多

2024-11-14 09:46:00模态,清华,中文,联合,学习,模态

$什么影响大模型安全？NeurIPS\'24新研究提出大模型越狱攻击新基准$

什么影响大模型安全？NeurIPS'24新研究提出大模型越狱

...融等关键行业，评估并保障这些领域中LLMs的安全性。多模态扩展：探索多模态数据的越狱评估，结合文本、图像、音频等多种数据类型，全面评估LLMs在多模态环境下的安全表现。协作防御机制：开发基于多Agent的协作防御机...……更多

2024-11-01 09:29:00模型,基准,攻击,影响,安全,研究

GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试

...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准，发现现有的多模态模型和 LLM 都表现存在系统性缺陷，同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中，这篇论文获得杰出论文奖。论...……更多

2024-09-12 09:45:00模态,缺陷,测试,模态,模型,心智

下载次数破39万！CMU、Meta联合发布VQAScore文

...论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。Pengchuan Zhang是Meta AI（原Facebook AI研究院）的人工智能研究科学家，曾在微软研究院担任高级研究科学家。他的研究领域主...……更多

2024-11-07 09:53:00文生,次数,联合,方案,模型,文生

反击OpenAI，谷歌放出最强悍大模型Gemini

... CEO戴密斯·哈萨比斯在谷歌官网联名发文，官宣了最新多模态大模型Gemini 1.0（双子星）版本正式上线。这个上线时间早于外界猜测的明年1月，保密程度很高，仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

VIMA：更适合机械宝宝体质的操作系统，竟然内置LLM！

...-and-Language Navigation with Multi-Modal Transformers），一个使用多模态提示执行各类任务的机械体操作系统。也就是说，在Prompt中输入文字、图片、视频，或任意的组合，VIMA就可以控制机械臂执行相应的动作。VIMA将多模态提示用于任务..……更多

2023-08-03 18:00:00体质,宝宝,机械,系统,机器人,机器