模态,缺陷,测试,模态,模型,心智头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准，发现现有的多模态模型和 LLM 都表现存在系统性缺陷，同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中，这篇论文获得杰出论文奖。论...……更多

2024-09-12 09:45:00模态,缺陷,测试,模态,模型,心智

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

多模态竞技场对标90B Llama 3.2！Pixtral

...客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...qizhixin.com随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

首个可保留情感的音频LLM！Meta重磅开源7B-Spiri

【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型，能够理解和生成语音及文本，可以非常自然地在两种模式间转换，不仅能处理基本的语音转文本和文本转语音任务，还能捕捉和再现语音中的情感和风格。...……更多

2024-11-23 09:43:00音频,模态,重磅,文本,任务,情感

vivo发布自研大模型，为用户和开发者带来诸多惊喜

...随着大模型技术日益成熟，vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力，正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级：1、语言大模型升...……更多

2024-10-14 01:53:00开发者,模型,惊喜,用户,开发,模型

反击OpenAI，谷歌放出最强悍大模型Gemini

... CEO戴密斯·哈萨比斯在谷歌官网联名发文，官宣了最新多模态大模型Gemini 1.0（双子星）版本正式上线。这个上线时间早于外界猜测的明年1月，保密程度很高，仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

马斯克 xAI 展示首个多模态模型 Grok-1.5V

...下旬推出 Grok-1.5 大语言模型之后，近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision（Grok-1.5V），不仅能理解文本，还能处理文档、图表、截图和照片中的内容。xAI ...……更多

2024-04-13 16:20:00马斯,马斯克,模态,模型,模态,模型

全模态对齐框架align-anything来啦：实现跨模态指

... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐，已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中，「有效加速」和「超级对齐」已经成为两个主要的发展动向，...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

vivo自研大模型全家桶炸场，亮出PhoneGPT智能体，蓝

...幕的力度、圈搜文字或图片、还是拖拽一段地址信息，多模态大模型都可以深度解读你的意图，进而给你需要的反馈和服务。依托文本大模型，结合自监督学习语音编解码、多语音任务学习和模态对齐等技术，蓝心小V在文本能...……更多

2024-10-11 09:55:00一键,衣食,全家,模型,智能,模型

最强国产多模态刚刚易主！腾讯混元把GPT-4/Claude-

国产大模型，多模态能力都开始超越GPT-4-Turbo了？？权威榜单，中文多模态大模型测评基准SuperCLUE-V，新鲜出炉：特别是腾讯的hunyuan-vision、上海AI Lab的InternVL2-40B，分别成为国内闭源和开源界两大领跑者，甚至超过Claude-3.5-Sonnet..……更多

2024-08-09 09:38:00模态,腾讯,国产,模态,腾讯,元宝

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...息处理全国重点实验室两大平台，长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

连发两款模型“补课”，百度AI成色如何？

...箱底的技术实力？按百度说法，文心4.5定位新一代原生多模态基础大模型，在多个基准测试中超过GPT-4o，得分最高的则是DocVQA，该基准主要测试文档图像的问答能力。在文本能力方面，文心4.5则在多个主流基准测试中超过DeepSeek-...……更多

2025-03-20 11:38:00成色,补课,模型,文心,模型,模态

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-

...，无问芯穹今日宣布，开源无问芯穹端侧解决方案中的全模态理解小模型 Megrez-3B-Omni 和它的纯语言模型版本 Megrez-3B-Instruct。官方表示，Megrez-3B-Omni 是一个为端而生的全模态理解模型，同时具备图片、音频、文本三种模态数据的...……更多

2024-12-17 09:24:00模态,模型,全球,模态,模型,精度

医联发布医疗大语言模型 MedGPT，AI要如何具备全流程的

...dGPT基于Transformer架构整合了市面上很多医学检验检查的多模态能力，在问诊环节结束之后，MedGPT会给患者开具必要的医学检查项目以进一步明确病情，患者则可以通过医联云检验等多模态能力进行检查，基于上述问诊和医学检查...……更多

2023-05-26 10:47:00诊疗,模型,流程,能力,语言,医疗

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...萨比斯在谷歌官网联名发文，宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”，主打的就是一个干爆GPT-4。具体来说，此次谷歌一共带来了Gemini的三个版本：Gemini Ultra：谷歌最大、最强模型，适用于...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

支付宝多模态医疗大模型正式亮相

...2024世界人工智能大会“可信大模型论坛”上，支付宝多模态医疗大模型正式亮相，成为国内首批多模态医疗大模型之一。据CNMO了解，支付宝医疗大模型的基座模型为蚂蚁百灵大模型。据蚂蚁集团大模型应用部总经理顾进杰介绍...……更多

2024-07-06 13:14:00模态,模型,支付,医疗,模态,模型

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭

北大等出品，首个多模态版o1开源模型来了——代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型...……更多

2024-11-20 09:42:00模态,推理,北大,视觉,模型,推理

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GP

...模型能够实现无缝的文本、视频和音频输入，并生成相应模态的输出，真正意义上实现了多模态交互。紧随其后一天，年度Google I/O开发者大会如期而至，谷歌CEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新，...……更多

2024-05-17 14:26:00实测,巅峰,选手,记者,明星,模型

月之暗面发布多模态思考模型k1.5

...国内人工智能独角兽企业月之暗面（Kimi）发布新一代多模态思考模型k1.5。利用长短转化技术，以长链式思考技术改进短链式思考模型，在短链式推理性能测试中，k1.5模型在数学、代码等方面大幅超越GPT-4o、Claude 3.5 Sonnet 等全球...……更多

2025-02-05 03:46:00模态,模型,链式,模态,模型,人工智能

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...出了一种新颖的多步误差最小化（MEM）方法，用于生成多模态不可学习样本，以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器，MEM方法有效地误导模型，降低其对隐私数据的学习能力，并在不同模...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

“1024 直接对标 ChatGPT！”科大讯飞星火大模型立

...言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。基于此，人类只要做画龙点睛的加工，就能得到 “懂你所言，答你所问，创你所需，解你所难，学你所教”的所有内容。讯飞星火认知大模型是基于科大讯飞 ...……更多

2023-05-07 03:00:00讯飞,星火,实测,一手,模型,讯飞

东方证券：谷歌发布多模态模型Gemini，多模态应用前景广阔

...办公、法律、医疗有望率先落地。东方证券：谷歌发布多模态模型Gemini，多模态应用前景广阔12月6日晚，谷歌正式发布了Gemini大模型，是谷歌目前最强大最通用的模型。其尺寸最大的版本GeminiUltra在32项基准测试中有30项能力都超...……更多

2023-12-11 19:30:00模态,前景,模型,应用,证券,模态

OpenAI「草莓」两周内发布？网传不是多模态，反应慢了10

...图片，这意味着「草莓」还不像 OpenAI 其他模型那样是多模态的。目前大家见到的大模型都是多模态的，这似乎是「草莓」一个明显缺点。大家比较关心的还有定价问题。「草莓」的定价可能与 OpenAI 的聊天机器人不同，后者有...……更多

2024-09-12 09:46:00模态,草莓,反应,草莓,模型,问题

零成本突破多模态大模型瓶颈！多所美国顶尖高校华人团队，联合推

新智元报道编辑：LRST【新智元导读】现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题，传统偏好学习方法依赖可能不适配的外源数据，存在成本和质量问题。Calibrated Self-Rewarding（CSR）框架通过自我增强学...……更多

2024-06-21 09:21:00模态,美国,瓶颈,顶尖,模型,团队

百灵大模型多模态能力全面提升

...IT之家从蚂蚁集团获悉，蚂蚁集团自研的百灵大模型的多模态能力全面提升。多模态能力让大模型能“看”会“听”，能“说”会“画”，可支持音、视、图、文等多模态理解与生成，可以让大模型更像人一样感知和互动，未来...……更多

2024-07-06 17:43:00模态,百灵,模型,能力,模态,助理

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级！今天，阿里国际AI团队发布了一款多模态大模型Ovis，在图像理解任务上不断突破极限，多种具体的子类任务中均达到了SOTA（最新技术）水平。多模态...……更多

2024-09-20 13:35:00模态,阿里,模型,能力,升级,国际

击败Gemini-1.5-Pro、GPT-4V，从容大模型多

...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示，云从科技的从容大模型在该体系中的平均得分为 65.5，这一成绩使得从容大模型跻身全球前三，超越了谷歌的 Gemini-1.5-Pro...……更多

2024-06-29 09:36:00模态,从容,模型,能力,全球,模态

page 1/5000 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

DCF智能商城快速发展中普通人应该这样玩

AI 早不是实验室里的 “黑科技”，已经走进咱们的日常生活，像 DCF 智能商城就是用 “AI + 购物” 让大家得实惠

2025-10-26 20:24:00

2025中国GEO服务商深度测评：技术护城河、垂直行业解决方

据IDC与《2025中国生成式AI搜索生态白皮书》联合数据显示，截至2025年第三季度，中国GEO服务市场规模已达220亿元

2025-10-25 21:09:00

周一围与博斯绅威共赴“轻装之约”，解锁网球生活新方式

金秋济南，共赴网球生活时光。10月25日下午，博斯绅威携品牌体验官、著名演员周一围先生，在济南银座商城举办了一场主题为“轻装上阵

2025-10-26 12:28:00

曹县汉服“遇上”拼多多：95后的创业翻盘记

鲁网10月24日讯曹县，素有“中国汉服产业重镇”之称，曾见证无数小微创业者在行业竞争中艰难求索。对许多创业者而言，汉服市场度过初期蓝海阶段后

2025-10-24 14:29:00

突破光谱检测瓶颈！中国计量大学本科生团队研制高分辨率光谱仪

通讯员：吴瑞鹏何秋阳近日，第十九届“挑战杯”全国大学生课外学术科技作品竞赛正火热备赛中，全国高校参赛队伍蓄势待发。中国计量大学光学与电子科技学院本科生团队项目——“基于微反射镜阵列的高分辨率光谱仪”

2025-10-24 15:02:00

开普勒机器人登陆IROS 2025 以开放平台携手全球开发者

10月19日至25日，全球机器人领域两大顶级国际会议之一的2025年IEEE/RSJ智能机器人与系统国际会议（IROS 2025）在杭州隆重举行

2025-10-24 15:02:00

蓝月亮：用十二年为洁净艺术种下一棵“树”

10月23日，第十七届国际大学生暨青年艺术博览会（简称：大艺博）开幕。在武汉东部的中国光谷科技会展中心10000平方米的专业展馆内

2025-10-24 15:14:00

京东工业与南方电网供应链集团签署战略合作以数智技术驱动供应

10月20日，京东工业与南方电网供应链集团在广州正式签署战略合作协议，双方相关负责人出席签约仪式。此次合作标志着京东集团与南方电网在供应链领域的协作迈入全新阶段

2025-10-24 15:23:00

从OS到AI OS：荣耀MagicOS 10定义AI OS新

2025年10月23日，荣耀全球开发者大会暨AI终端生态大会在深圳坪山燕子湖国际会展中心隆重举行。本次大会系统阐释了MagicOS 10的品牌战略与发展路径

2025-10-24 15:32:00

最后窗口期！2025FHC上海环球食品展免费领票即将截止

2025FHC上海环球食品展已进入开幕倒计时！这场被誉为“全球食饮贸易超级接口”的盛会，已成为零售买家囤货、拓品的关键“战场”—20万㎡展出面积

2025-10-24 15:47:00

K90定价后引热议闪电降价，雷军：标准版12GB+512GB

2025年10月23日的红米K90发布会后，12GB+512GB版本原定价为3199元，但因用户反馈该版本与其他配置差价过大

2025-10-24 15:57:00

iPhone 17系列首批用户反应褪色？苹果官方客服回应

近日，部分苹果 iPhone 17 Pro 及 iPhone 17 Pro Max 的首批用户在社交平台反映，其设备遭遇了机身褪色问题

2025-10-24 15:59:00

阿里夸克AI眼镜开启预售体验者：轻若无物，稳如长在脸上“看

阿里巴巴首款自研AI眼镜——夸克AI眼镜24日0时在夸克智能设备天猫旗舰店开启预售。88VIP会员实际到手价为3699元

2025-10-24 16:35:00

石家庄市桥西区税务局精准服务新办纳税人

河北新闻网讯（梁轩轩）“原以为开业办税很繁琐，没想到这么简单！”近日，石家庄市桥西区律吕五金产品商行法人柴浩在桥西区税务局办税大厅完成税务申报后

2025-10-24 16:59:00

瑞众人寿河北分公司举办“养老规划线下体验日”活动

近日，瑞众人寿河北分公司在保定举办了2025年嘉年华客服节系列活动之“养老规划线下体验日”活动，通过创新融合中医药文化

2025-10-24 17:06:00

头条订阅服务