模态,领衔,基准,推理,视觉,能力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...息处理全国重点实验室两大平台，长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。想要看懂短视频，除了视觉内容外，语音和音频等听觉信息，如视频音乐、音效...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试，输入时不提供任何与图像相关的信息给模型，仅提供文本。所有评估均采用零样本（zero-shot）思维链（Chain of ...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

Bengio团队提出多模态新基准，直指Claude 3.5和

...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...数字空间和物理世界的交互来完成复杂任务。近年来，多模态大模型和机器人技术得到了长足发展，具身智能成为全球科技和产业竞争的新焦点。然而，目前缺少一篇能够全面解析具身智能发展现状的综述。因此，鹏城实验室多...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...像与语音识别能力。本月初，微软更是公布了 166 页的多模态版 GPT-4V 的相关文档，详细探讨了 GPT-4V 的功能和使用情况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

720亿参数模型开源通义千问已实现“全尺寸、全模态”开源

...参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果，也可通过阿里云灵积平台调用模型API，或基于阿里云百炼平台定制大模型应用。...……更多

2023-12-01 13:33:00通义,模态,模型,尺寸,参数,模型

支付宝发布多模态医疗大模型：支持千亿级视觉识别

...快科技7月5日消息，在2024世界人工智能大会上，支付宝多模态医疗大模型正式亮相，成为国内首批多模态医疗大模型之一。据悉，该医疗大模型的基石，源自蚂蚁集团自主研发的蚂蚁百灵大模型，这一先进平台不仅拥有“视听言...……更多

2024-07-05 16:17:00模态,模型,支付,视觉,医疗,支持

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...萨比斯在谷歌官网联名发文，宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”，主打的就是一个干爆GPT-4。具体来说，此次谷歌一共带来了Gemini的三个版本：Gemini Ultra：谷歌最大、最强模型，适用于...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造，是（谷歌）通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示：Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

支持1024帧、准确率近100％，英伟达「LongVILA」

...统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活的输入信号，以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

...，使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入（M-ROPE）方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息，M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多

2024-09-03 09:45:00二代,通义,阿里,模型,视觉,语言

GPT-4劲敌，谷歌进入高能+高产模式

...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世，将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日，Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...来，于今年3、4月陆续推出了Grok-1.5大语言模型和首个多模态模型Grok-1.5 Vision，整体迭代速度已足够惊人。但要超越当前所有AI大模型，Grok-2要面对的问题或许远没想象中简单。所有指标超越当前AI大模型，真的假的？2023年11月，x...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...阿里云也首次开源了音频理解大模型Qwen-Audio，这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频，要求模型给出对音频的理解，甚至基于音频进行文...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面

...导读】面壁小钢炮MiniCPM-V 2.6重磅出击，再次刷新端侧多模态天花板！凭借8B参数，已经取得单图、多图、视频理解三项SOTA ，性能全面对标GPT-4V。再次刷新端侧多模态天花板，面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新！仅8B参数...……更多

2024-08-07 09:42:00多图,小钢炮,模态,上端,手机,视频

阿里云发布通义千问2.5，性能赶超GPT-4 Turbo

...榜首，再度证明通义开源系列业界最强的竞争力。通义多模态模型和专有能力模型也具备业界顶尖影响力。在多个多模态标准测试中，通义千问视觉理解模型Qwen-VL-Max得分超越Gemini Ultra和GPT-4V，这款模型已在多家企业落地；代码...……更多

2024-05-09 12:00:00通义,阿里,性能,通义,模型,阿里

反击OpenAI，谷歌放出最强悍大模型Gemini

... CEO戴密斯·哈萨比斯在谷歌官网联名发文，官宣了最新多模态大模型Gemini 1.0（双子星）版本正式上线。这个上线时间早于外界猜测的明年1月，保密程度很高，仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试

...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准，发现现有的多模态模型和 LLM 都表现存在系统性缺陷，同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中，这篇论文获得杰出论文奖。论...……更多

2024-09-12 09:45:00模态,缺陷,测试,模态,模型,心智

苹果公司公布“mm1”多模态大模型

...omMultimodalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供30亿、70亿、300亿三种参数规模，拥有图像识别和自然语言推理能力。IT之家注意到，苹果研究团队相关论文主要是利用MM1模型做实验，通过控制各...……更多

2024-03-16 18:48:00苹果公司,模态,模型,苹果,公司,模型

清华提出CharacterGLM；DeepMind联创发全新

...大模型版“5年高考3年模拟”来了！6141道数学题，还是多模态的那种｜微软&UCLA&UW联合出品》MathVista是一个多模态数学推理基准数据集，由微软、UCLA和UW联合开发，包含6141个数学问题，涵盖丰富的任务类型、推理能力和图...……更多

2023-12-06 09:22:00联创,模型,清华,早报,一代,零售

21.5万张X光，78万个问题！德州大学NIH等联合发布医学

【新智元导读】多模态大语言模型（MLLM）在医学视觉问答（VQA）领域展现出巨大潜力，通过提供针对医学图像的具体临床问题的回答，有助于提高医疗专业人员的工作效率。然而，现有医学VQA数据集规模较小且问题过于简单，...……更多

2024-08-10 09:47:00德州,问答,视觉,医学,联合,数据

苹果的封闭生态为大模型打开！发布开源多模态大模型、每天为 A

...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时，该版本包含代码和权重，但仅供研究使用，而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多

2023-12-26 14:06:00模型,生态,模态,零碎,苹果,模型

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...超过90%。在启用视觉感知能力的情况下，o1模型在MMMU（多模态理解）测试中获得了78.2%的高分，成为首个能与人类专家展开竞争的AI模型。在 MMLU（大规模多任务语言理解）测试中，在总计57个子类别中，o1在54个类别上都超越了GPT...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

华中科技大学白翔教授发布多模态大模型

...华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”，对图片进行深入的问答交流和精确描述。▲图源Monkey项目的GitHub页面IT之家注：多模态大模型是一类可...……更多

2023-12-15 01:14:00华中科技大学,华中,模态,模型,教授,大学

商汤升级“日日新5.0”大模型，对标GPT-4Turbo

...金融、数据分析等场景落地提供基础。“日日新5.0”的多模态能力在多模态大模型权威综合基准测试MMBench中综合得分排名首位，在多模态榜单MathVista、AI2D、ChartQA、TextVQA、DocVQA、MMMU中取得领先成绩。“日日新5.0”支持高清长图...……更多

2024-04-24 09:32:00商汤,模型,升级,商汤,模型,推理

背水一战狙击GPT-4，谷歌最强大模型Gemini终发布，听

...布，“大杀器”Gemini 1.0，正式上线。Gemini是一个原生多模态大模型，谷歌在今年5月的I/O大会宣布开始研发后，Gemini的传说不断：将谷歌大脑和DeepMind部门合并，数百人攻坚，几乎耗尽谷歌内部计算资源……如此种种，只为和OpenA...……更多

2023-12-07 08:18:00全能,选手,模型,焦点,分析,模型

page 1/6667 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

彻底告别3999元！小米15入网支持90W快充

快科技9月20日消息，高通将在10月发布骁龙8 Gen4旗舰移动平台，小米15系列将首发该平台。日前，一款型号为24129PN74C的小米新机入网

2024-09-20 09:54:00

顶配不超30万极氪7X今晚上市：最不仿特斯拉的电动SUV来

快科技9月20日消息，极氪全新中型纯电SUV极氪7X将于今晚上市，该车已经开启预售，价格为23.99万起，顶配不超30万元

2024-09-20 09:54:00

引领通用具身新时代：普渡发布首款类人形机器人PUDU D7

9月19日，全球服务机器人领军企业普渡机器人正式发布其初代类人形机器人PUDU D7。基于仿生双臂和全向移动底盘设计，PUDU D7能够在多个场景中执行复杂任务操作

2024-09-20 09:58:00

东方心悦：打造科技赋能心理健康的典范

树立行业标杆，讲好中国故事，传递中国声音，充分展现腾飞的中国经济、崛起的民族品牌和向上的企业家精神。近日，“崛起的民族品牌”专题系列节目对话上海耕育科教仪器有限公司创始人谢长伟先生

2024-09-20 10:00:00

傲雷拉斯维加斯体验店盛大开业暨新品发布会圆满落幕

2024年9月14日，美国拉斯维加斯——全球知名移动照明品牌Olight傲雷在时尚之都拉斯维加斯成功举办了其年度新品发布会

2024-09-20 10:01:00

OSL任命交易所资深专家张英华强化机构业务实力

（香港，2024年9月17日）- 香港唯一专注数字资产的上市公司 OSL 集团（863.HK）旗下持牌数字资产交易平台 OSL

2024-09-20 10:02:00

第四届国潮新青年设计大赛正式开赛

本文转自：人民网-北京频道人民网北京9月20日电（记者董兆瑞）9月19日，第四届国潮新青年设计大赛正式启动。据了解，本次大赛以“国潮华章·老有新样”为主题

2024-09-20 10:19:00

2024CFS成都国际飞行大会将于10月2日至6日在成都淮州

本文转自：人民网-四川频道推介会现场。主办方供图9月19日，2024中国（成都）国际低空经济合作伙伴大会暨2024成都国际低空装备及服务博览会正式开幕

2024-09-20 10:32:00

中影光峰推出4k14米vledled电影屏

近日，光峰科技（688007.SH）子公司中影光峰推出的4K14米VLEDLED电影屏凭借其卓越的技术性能和指标，成功通过国际数字电影倡导组织（DCI）的严格认证

2024-09-20 03:10:00

oppofindx8系列最快10月21日发布，提供多款机型

9月19日，知名爆料人士数码闲聊站透露，OPPO下一代旗舰OPPOFindX8系列最快将于10月21日正式发布，同期产品有OPPOPad3Pro旗舰级平板

2024-09-20 03:32:00

Redmi Note 14系列将于下周正式亮相

CNMO从外媒获悉，RedmiNote14Pro+已确认支持90W快充。继Note14和Note14Pro型号之后，RedmiNote14Pro+也出现在了IMEI数据库中

2024-09-20 03:35:00

小米智能门锁连续三年稳居中国线上电商销量榜首

9月19日，CNMO注意到，小米智能生态官方宣布，小米智能门锁累计出货量已跨越600万大关，并在2021至2023年间

2024-09-20 03:45:00

redminote14系列外观公布，至少会提供两款机型

9月19日，Redmi红米手机官方宣布，RedmiNote14系列下周见。目前，Redmi官方已经公布了RedmiNote14系列的外观设计

2024-09-20 03:46:00

iqooz9turbo+定档9月24日，搭载安卓最强旗舰芯

9月19日，iQOO官宣Z9系列新品——iQOOZ9Turbo+发布会定档9月24日。官方海报显示，iQOOZ9Turbo+搭载了安卓最强旗舰芯——天玑9300+

2024-09-20 03:55:00

《sololeveling:arise》是怎样的一款游戏？

在游戏制作领域，将一个热门故事转化为沉浸式互动体验既是一项挑战，也是一门艺术。《SoloLeveling:ARISE》[1]作为全球点击量超过143亿次的《SoloLeveling》系列的首款游戏改编作品

2024-09-20 03:55:00

头条订阅服务