模态,领衔,基准,推理,视觉,能力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...息处理全国重点实验室两大平台，长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭

北大等出品，首个多模态版o1开源模型来了——代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型...……更多

2024-11-20 09:42:00模态,推理,北大,视觉,模型,推理

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。想要看懂短视频，除了视觉内容外，语音和音频等听觉信息，如视频音乐、音效...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...来自斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试，输入时不提供任何与图像相关的信息给模型，仅提供文本。所有评估均采用零样本（zero-shot）思维链（Chain of ...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...这个金秋，“日日新·商量”又拿了金牌！今日，中文多模态大模型测评基准SuperCLUE-V发布10月榜单：商汤日日新·商量多模态大模型（SenseChat-Vision5.5）凭借多个任务上的出色表现，总得分位列国内大模型第一梯队，智夺金牌。商...……更多

2024-10-14 13:34:00商汤,模态,基准,模型,模型,能力

Bengio团队提出多模态新基准，直指Claude 3.5和

...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...数字空间和物理世界的交互来完成复杂任务。近年来，多模态大模型和机器人技术得到了长足发展，具身智能成为全球科技和产业竞争的新焦点。然而，目前缺少一篇能够全面解析具身智能发展现状的综述。因此，鹏城实验室多...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

智能体首达Kaggle Grandmaster,华为结构化推

...后他们基于此开发了智能体 Agent K v1.0，并让其参加了多模态 Kaggle 竞赛。最终 Agent K v1.0 获得了相当于 6 金 3 银 7 铜的成绩，成为首个达到 Kaggle Grandmaster level 1 的 AI 智能体。论文标题……更多

2024-11-09 09:53:00华为,结构化,推理,思维,结构,智能

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...像与语音识别能力。本月初，微软更是公布了 166 页的多模态版 GPT-4V 的相关文档，详细探讨了 GPT-4V 的功能和使用情况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

全模态对齐框架align-anything来啦：实现跨模态指

... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐，已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中，「有效加速」和「超级对齐」已经成为两个主要的发展动向，...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

多模态竞技场对标90B Llama 3.2！Pixtral

...客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

720亿参数模型开源通义千问已实现“全尺寸、全模态”开源

...参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果，也可通过阿里云灵积平台调用模型API，或基于阿里云百炼平台定制大模型应用。...……更多

2023-12-01 13:33:00通义,模态,模型,尺寸,参数,模型

支付宝发布多模态医疗大模型：支持千亿级视觉识别

...快科技7月5日消息，在2024世界人工智能大会上，支付宝多模态医疗大模型正式亮相，成为国内首批多模态医疗大模型之一。据悉，该医疗大模型的基石，源自蚂蚁集团自主研发的蚂蚁百灵大模型，这一先进平台不仅拥有“视听言...……更多

2024-07-05 16:17:00模态,模型,支付,视觉,医疗,支持

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造，是（谷歌）通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示：Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...萨比斯在谷歌官网联名发文，宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”，主打的就是一个干爆GPT-4。具体来说，此次谷歌一共带来了Gemini的三个版本：Gemini Ultra：谷歌最大、最强模型，适用于...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

支持1024帧、准确率近100％，英伟达「LongVILA」

...统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活的输入信号，以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

...，使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入（M-ROPE）方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息，M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多

2024-09-03 09:45:00二代,通义,阿里,模型,视觉,语言

GPT-4劲敌，谷歌进入高能+高产模式

...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世，将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日，Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...来，于今年3、4月陆续推出了Grok-1.5大语言模型和首个多模态模型Grok-1.5 Vision，整体迭代速度已足够惊人。但要超越当前所有AI大模型，Grok-2要面对的问题或许远没想象中简单。所有指标超越当前AI大模型，真的假的？2023年11月，x...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...阿里云也首次开源了音频理解大模型Qwen-Audio，这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频，要求模型给出对音频的理解，甚至基于音频进行文...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面

...导读】面壁小钢炮MiniCPM-V 2.6重磅出击，再次刷新端侧多模态天花板！凭借8B参数，已经取得单图、多图、视频理解三项SOTA ，性能全面对标GPT-4V。再次刷新端侧多模态天花板，面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新！仅8B参数...……更多

2024-08-07 09:42:00多图,小钢炮,模态,上端,手机,视频

阿里云发布通义千问2.5，性能赶超GPT-4 Turbo

...榜首，再度证明通义开源系列业界最强的竞争力。通义多模态模型和专有能力模型也具备业界顶尖影响力。在多个多模态标准测试中，通义千问视觉理解模型Qwen-VL-Max得分超越Gemini Ultra和GPT-4V，这款模型已在多家企业落地；代码...……更多

2024-05-09 12:00:00通义,阿里,性能,通义,模型,阿里

反击OpenAI，谷歌放出最强悍大模型Gemini

... CEO戴密斯·哈萨比斯在谷歌官网联名发文，官宣了最新多模态大模型Gemini 1.0（双子星）版本正式上线。这个上线时间早于外界猜测的明年1月，保密程度很高，仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试

...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准，发现现有的多模态模型和 LLM 都表现存在系统性缺陷，同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中，这篇论文获得杰出论文奖。论...……更多

2024-09-12 09:45:00模态,缺陷,测试,模态,模型,心智

苹果公司公布“mm1”多模态大模型

...omMultimodalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供30亿、70亿、300亿三种参数规模，拥有图像识别和自然语言推理能力。IT之家注意到，苹果研究团队相关论文主要是利用MM1模型做实验，通过控制各...……更多

2024-03-16 18:48:00苹果公司,模态,模型,苹果,公司,模型

page 1/2667 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

标配天神之眼C！第二代比亚迪元PLUS智驾版3月5日上市：现

快科技3月2日消息，日前，比亚迪官方宣布第二代元PLUS智驾版将于3月5日正式上市。此次发布的新车最大亮点是有望全系标配天神之眼C-高阶智驾三目版（DiPilot 100）

2025-03-02 16:09:00

谷歌创始人要求员工每周工作60小时！努力才能赢得AGI对决

快科技3月2日消息，据媒体报道，谷歌联合创始人谢尔盖·布林（Sergey Brin）发布内部信，督促员工每周工作60小时

2025-03-02 16:09:00

NVIDIA首款Arm PC芯片首度现身跑分！成绩不太理想

快科技3月2日消息，英伟达与联发科合作开发的首款Arm架构PC芯片NVIDIA N1X的工程机现身Geekbench跑分平台

2025-03-02 16:09:00

柯洁成小米SU7 Ultra车主：53.39万元全款拿下

快科技3月2日消息，著名围棋棋手、世界冠军柯洁发微博称：“你们怎么知道我全款拿下小米SU7 Ultra啦”，并配上了付款记录

2025-03-02 16:09:00

贵州省自然资源管理数字化迈入“AI深度赋能”新阶段

多彩贵州网讯在AI技术与政务场景深度融合的浪潮中，贵州省自然资源厅与贵州大数据集团携手交出创新答卷。基于国产大模型DeepSeek自主研发的智能政务辅助系统

2025-03-02 16:27:00

你的显卡中奖了吗 RTX 50系列缺失ROP性能损失最高11

快科技3月2日消息，RTX 5090(D)、RTX 5080、RTX 5070 Ti显卡缺失8个ROP单元的问题，已经得到了NVIDA官方的确认

2025-03-02 16:39:00

新加坡警方称已破获向DeepSeek走私英伟达GPU的主要团

2月27日，据广播公司亚洲新闻频道（Channel News Asia）报道，新加坡警方和海关当局在26日已指控三名男子涉嫌绕过美国贸易出口限制

2025-03-02 16:39:00

国产手机四大“夜神”来了：小米OPPOvivo华为狂卷夜景长

快科技3月2日消息，小米15 Ultra发布之后，另外三大Ultra旗舰——OPPO Find X8 Ultra、vivo X200 Ultra

2025-03-02 17:09:00

晶澳科技亮相2025年日本国际智慧能源周

河北新闻网讯（京敖轩）2月21日，2025年日本国际智慧能源周落下帷幕。晶澳科技携DeepBlue系列旗舰产品及两大场景化解决方案登场

2025-03-02 17:20:00

贵州日报“融媒蜂巢”战队启航！智媒时代的创新密码

3月2日，贵州日报智媒创建启动仪式暨天眼新闻7.0创优版上线仪式在贵阳举行。随着首批6支“融媒蜂巢”战队亮相，贵州日报开启了智慧媒体建设的“蜂群效应”时代

2025-03-02 17:35:00

清晰超乎想象！中国分辨率最高的商业遥感卫星全球开放

2月27日，中国航天科技集团的“中国四维新一代商业遥感卫星系统”迎来两位新成员，四维高景一号03、04星成功入轨，状态良好

2025-03-02 17:39:00

定位中大型SUV！上汽奥迪Q6限时优惠价发布：30.9万元起

快科技3月2日消息，日前，上汽奥迪宣布旗下中大型SUV——奥迪Q6开启限时优惠活动，全系优惠价为30.9万元起。但官方未公布活动截止时间

2025-03-02 17:39:00

新加坡抓了9个人！指其向中国DeepSeek倒卖NVIDIA

快科技3月2日消息，随着中国DeepSeek的突然崛起，美国似乎发现自己的AI GPU出口管制政策失效了，高度怀疑中国公司通过新加坡

2025-03-02 17:39:00

RTX 50系列莫名丢失8个ROP单元！CPU-Z发出公开警

快科技3月2日消息，RTX 50系列已发布的三款显卡都出现了ROP单元莫名丢失8个的问题，最多会影响11％的游戏性能，但官方声称影响范围很小

2025-03-02 18:09:00

聚力建支点夺取开门红丨十堰猛狮：投入智能设备已完成产值5

十堰广电讯（郧西融媒记者王琴）一年春作首，万事行为先。时下，走进各企业，车间里都是“热气腾腾”的生产景象，工人们抢时间

2025-03-02 19:03:00

头条订阅服务