模态,领衔,基准,推理,视觉,能力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...息处理全国重点实验室两大平台，长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭

北大等出品，首个多模态版o1开源模型来了——代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型...……更多

2024-11-20 09:42:00模态,推理,北大,视觉,模型,推理

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。想要看懂短视频，除了视觉内容外，语音和音频等听觉信息，如视频音乐、音效...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...来自斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

...究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。具体来说，他们做出了以下贡献：（1）他们提出了 SoccerReplay-1988，这是迄今为止最大的多模态足球数据集，其中包括来自 1988 场完整比赛的视频和详细注释，...……更多

2024-12-10 09:53:00模型,语言基础,清华,定律,密度,团队

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试，输入时不提供任何与图像相关的信息给模型，仅提供文本。所有评估均采用零样本（zero-shot）思维链（Chain of ...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...这个金秋，“日日新·商量”又拿了金牌！今日，中文多模态大模型测评基准SuperCLUE-V发布10月榜单：商汤日日新·商量多模态大模型（SenseChat-Vision5.5）凭借多个任务上的出色表现，总得分位列国内大模型第一梯队，智夺金牌。商...……更多

2024-10-14 13:34:00商汤,模态,基准,模型,模型,能力

Bengio团队提出多模态新基准，直指Claude 3.5和

...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...数字空间和物理世界的交互来完成复杂任务。近年来，多模态大模型和机器人技术得到了长足发展，具身智能成为全球科技和产业竞争的新焦点。然而，目前缺少一篇能够全面解析具身智能发展现状的综述。因此，鹏城实验室多...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

智能体首达Kaggle Grandmaster,华为结构化推

...后他们基于此开发了智能体 Agent K v1.0，并让其参加了多模态 Kaggle 竞赛。最终 Agent K v1.0 获得了相当于 6 金 3 银 7 铜的成绩，成为首个达到 Kaggle Grandmaster level 1 的 AI 智能体。论文标题……更多

2024-11-09 09:53:00华为,结构化,推理,思维,结构,智能

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...像与语音识别能力。本月初，微软更是公布了 166 页的多模态版 GPT-4V 的相关文档，详细探讨了 GPT-4V 的功能和使用情况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

全模态对齐框架align-anything来啦：实现跨模态指

... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐，已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中，「有效加速」和「超级对齐」已经成为两个主要的发展动向，...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

多模态竞技场对标90B Llama 3.2！Pixtral

...客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

720亿参数模型开源通义千问已实现“全尺寸、全模态”开源

...参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果，也可通过阿里云灵积平台调用模型API，或基于阿里云百炼平台定制大模型应用。...……更多

2023-12-01 13:33:00通义,模态,模型,尺寸,参数,模型

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

多模态检索增强生成（mRAG）也有o1思考推理那味儿了！阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch，它能模拟人类解决问题的思维方式，将复杂问题逐步拆解进行智能检索规划。随便上传一张图，...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

支付宝发布多模态医疗大模型：支持千亿级视觉识别

...快科技7月5日消息，在2024世界人工智能大会上，支付宝多模态医疗大模型正式亮相，成为国内首批多模态医疗大模型之一。据悉，该医疗大模型的基石，源自蚂蚁集团自主研发的蚂蚁百灵大模型，这一先进平台不仅拥有“视听言...……更多

2024-07-05 16:17:00模态,模型,支付,视觉,医疗,支持

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造，是（谷歌）通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示：Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...萨比斯在谷歌官网联名发文，宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”，主打的就是一个干爆GPT-4。具体来说，此次谷歌一共带来了Gemini的三个版本：Gemini Ultra：谷歌最大、最强模型，适用于...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

支持1024帧、准确率近100％，英伟达「LongVILA」

...统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活的输入信号，以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

全自动组装家具！斯坦福发布IKEA Video Manua

...主组装IKEA家具，或者通过AI驱动的AR眼镜。」突破性的多模态对齐组装一件IKEA家具需要理解多种形式的指令：说明书提供了任务的整体分解和关键步骤；视频展示了详细的组装过程；而3D模型则定义了部件之间的精确空间关系。I...……更多

2024-12-04 09:53:00斯坦,斯坦福,指令,全自动,场景,家具

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

...，使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入（M-ROPE）方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息，M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多

2024-09-03 09:45:00二代,通义,阿里,模型,视觉,语言

GPT-4劲敌，谷歌进入高能+高产模式

...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世，将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日，Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...来，于今年3、4月陆续推出了Grok-1.5大语言模型和首个多模态模型Grok-1.5 Vision，整体迭代速度已足够惊人。但要超越当前所有AI大模型，Grok-2要面对的问题或许远没想象中简单。所有指标超越当前AI大模型，真的假的？2023年11月，x...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...阿里云也首次开源了音频理解大模型Qwen-Audio，这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频，要求模型给出对音频的理解，甚至基于音频进行文...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面

...导读】面壁小钢炮MiniCPM-V 2.6重磅出击，再次刷新端侧多模态天花板！凭借8B参数，已经取得单图、多图、视频理解三项SOTA ，性能全面对标GPT-4V。再次刷新端侧多模态天花板，面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新！仅8B参数...……更多

2024-08-07 09:42:00多图,小钢炮,模态,上端,手机,视频

阿里云发布通义千问2.5，性能赶超GPT-4 Turbo

...榜首，再度证明通义开源系列业界最强的竞争力。通义多模态模型和专有能力模型也具备业界顶尖影响力。在多个多模态标准测试中，通义千问视觉理解模型Qwen-VL-Max得分超越Gemini Ultra和GPT-4V，这款模型已在多家企业落地；代码...……更多

2024-05-09 12:00:00通义,阿里,性能,通义,模型,阿里

page 1/10000 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

传美国计划将算能科技列入实体清单！被指偷偷找台积电代工

据路透社援引消息人士的话报道称，美国政府计划将中国科技公司中国厦门算能科技（SOPHGO）列入美国商务部的实体清单，理由是认为其充当了其他被禁企业间接获取台积电产能的角色

2024-12-21 12:02:00

主机硬件大战：微软Xbox 、索尼PS只能活一个你会选谁

快科技12月21日消息，市场研究公司DFC Intelligence最新报告显示，下一世代索尼和微软两台游戏机“只能活一个”

2024-12-21 12:02:00

10年做到100万台！机械革命游戏本的昨天、今天、明天

如果要买一台既有高性能、还有高性价比的游戏本，你会考虑哪个品牌？是联想、华硕、惠普这些传统大厂？还是机械革命、雷神、机械师这些新兴品牌

2024-12-21 12:32:00

垄断真可怕！RTX 5090、5080售价再曝光：英伟达让两

快科技12月21日消息，随着2025年的CES展会临近，英伟达RTX 50系列也即将揭开神秘面纱，你是不是已经在持币等买了呢

2024-12-21 13:02:00

iPhone用户的五大痛点！2025年库克能给解决了吗

年末了，是时候盘点和思考这一年的收获。2024年的智能手机市场确实精彩，国产手机竞争激烈，苹果这一年在中国市场感受到了前所未有的压力

2024-12-21 13:02:00

《英雄联盟：双城之战2》首次全集限免：B站、腾讯视频免费看

快科技12月21日消息，《英雄联盟：双城之战》官方介绍，第二季全集限免将于12月28日16：00正式开启，届时在腾讯视频和B站可免费观看全集

2024-12-21 13:32:00

考研政治有多难名师肖秀荣：近十年最难的一次

快科技12月21日消息，今日上午，2025年全国硕士研究生招生考试初试开考，上午11时30分，思想政治理论或管理类综合能力考试结束

2024-12-21 13:32:00

高通打赢芯片诉讼！未违反Arm许可协议

快科技12月21日消息，当地时间周五，高通公司在与芯片设计公司Arm进行的一场诉讼中取得胜利。据悉，Arm此前指控高通通过收购芯片创业公司Nuvia获得并使用了Arm的技术

2024-12-21 10:01:00

快买正版！国际唱片业：现在中国互联网每天上百万AI做的音乐都

快科技12月21日消息，国际唱片业协会大中华区总兼中国区首席代表郭彪公开表示，现在中国互联网上每天有上百万AI做的音乐

2024-12-21 10:01:00

女子每天凌晨2点多被隔壁鸡鸭声惊醒：一波接一波根本停不下来

12月21日消息，有过农村生活经验的朋友对公鸡打鸣肯定不陌生，这些叫声非常嘹亮，在安静的凌晨能传出非常远的距离。而且如果有多只公鸡

2024-12-21 10:31:00

于东来直播员工午休打麻将引围观：要让员工每周工作36小时、月

快科技12月21日消息，一个企业的老板，公开直播手下员工打麻将，这是什么体验？昨天于东来个人账号开播，带网友云逛胖东来办公区域

2024-12-21 10:31:00

周鸿祎：AGI发展遇瓶颈智能体和专业大模型将扛大旗

快科技12月21日消息，近两年AI发展迅速，但目前种种迹象表明，一些AI巨头寄予厚望的AGI（通用人工智能）之路似乎已经遭遇瓶颈

2024-12-21 10:31:00

江苏：2024世界智能制造大会在南京开幕

本文转自：人民网2024年12月20日，以“加快打造智能制造升级版，因地制宜发展新质生产力”为主题的2024世界智能制造大会在南京开幕

2024-12-21 11:10:00

大众帮办｜遭美团强制调低房价，百元酒店陷“低价内卷”困局

“美团一单能给我们调低20元，现在快到年底了，调价幅度又要加大，调价助手又关不掉，后期也不给商家补偿，有时候害怕进订单

2024-12-21 11:18:00

三年破万！小鹏汽车欧洲第10000辆交付：中国新势力第一

快科技12月21日消息，小鹏汽车达成了一项新成就——首家在欧洲市场交付达成1万辆的中国造车新势力，这距离其首次向欧洲出口汽车仅3年时间

2024-12-21 11:31:00

头条订阅服务