• 我的订阅
  • 头条热搜
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中,这篇论文获得杰出论文奖。论...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...qizhixin.com随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
反击OpenAI,谷歌放出最强悍大模型Gemini
... CEO戴密斯·哈萨比斯在谷歌官网联名发文,官宣了最新多模态大模型Gemini 1.0(双子星)版本正式上线。这个上线时间早于外界猜测的明年1月,保密程度很高,仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
马斯克 xAI 展示首个多模态模型 Grok-1.5V
...下旬推出 Grok-1.5 大语言模型之后,近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision(Grok-1.5V),不仅能理解文本,还能处理文档、图表、截图和照片中的内容。xAI ...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
vivo自研大模型全家桶炸场,亮出PhoneGPT智能体,蓝心小V一键搞定衣食住行
...幕的力度、圈搜文字或图片、还是拖拽一段地址信息,多模态大模型都可以深度解读你的意图,进而给你需要的反馈和服务。依托文本大模型,结合自监督学习语音编解码、多语音任务学习和模态对齐等技术,蓝心小V在文本能...……更多
最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了
国产大模型,多模态能力都开始超越GPT-4-Turbo了??权威榜单,中文多模态大模型测评基准SuperCLUE-V,新鲜出炉:特别是腾讯的hunyuan-vision、上海AI Lab的InternVL2-40B,分别成为国内闭源和开源界两大领跑者,甚至超过Claude-3.5-Sonnet..……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为...……更多
连发两款模型“补课”,百度AI成色如何?
...箱底的技术实力?按百度说法,文心4.5定位新一代原生多模态基础大模型,在多个基准测试中超过GPT-4o,得分最高的则是DocVQA,该基准主要测试文档图像的问答能力。在文本能力方面,文心4.5则在多个主流基准测试中超过DeepSeek-...……更多
无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni
...,无问芯穹今日宣布,开源无问芯穹端侧解决方案中的全模态理解小模型 Megrez-3B-Omni 和它的纯语言模型版本 Megrez-3B-Instruct。官方表示,Megrez-3B-Omni 是一个为端而生的全模态理解模型,同时具备图片、音频、文本三种模态数据的...……更多
医联发布医疗大语言模型 MedGPT,AI要如何具备全流程的诊疗能力?
...dGPT基于Transformer架构整合了市面上很多医学检验检查的多模态能力,在问诊环节结束之后,MedGPT会给患者开具必要的医学检查项目以进一步明确病情,患者则可以通过医联云检验等多模态能力进行检查,基于上述问诊和医学检查...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于...……更多
支付宝多模态医疗大模型正式亮相
...2024世界人工智能大会“可信大模型论坛”上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据CNMO了解,支付宝医疗大模型的基座模型为蚂蚁百灵大模型。据蚂蚁集团大模型应用部总经理顾进杰介绍...……更多
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
...模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,真正意义上实现了多模态交互。紧随其后一天,年度Google I/O开发者大会如期而至,谷歌CEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新,...……更多
...国内人工智能独角兽企业月之暗面(Kimi)发布新一代多模态思考模型k1.5。利用长短转化技术,以长链式思考技术改进短链式思考模型,在短链式推理性能测试中,k1.5模型在数学、代码等方面大幅超越GPT-4o、Claude 3.5 Sonnet 等全球...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
东方证券:谷歌发布多模态模型Gemini,多模态应用前景广阔
...办公、法律、医疗有望率先落地。东方证券:谷歌发布多模态模型Gemini,多模态应用前景广阔12月6日晚,谷歌正式发布了Gemini大模型,是谷歌目前最强大最通用的模型。其尺寸最大的版本GeminiUltra在32项基准测试中有30项能力都超...……更多
“1024 直接对标 ChatGPT!”科大讯飞星火大模型立 Flag、一手实测来了
...言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。基于此, 人类只要做画龙点睛的加工,就能得到 “懂你所言,答你所问,创你所需,解你所难,学你所教”的所有内容。讯飞星火认知大模型是基于科大讯飞 ...……更多
OpenAI「草莓」两周内发布?网传不是多模态,反应慢了10多秒
...图片,这意味着「草莓」还不像 OpenAI 其他模型那样是多模态的。目前大家见到的大模型都是多模态的,这似乎是「草莓」一个明显缺点。大家比较关心的还有定价问题。「草莓」的定价可能与 OpenAI 的聊天机器人不同,后者有...……更多
零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR
新智元报道编辑:LRST【新智元导读】现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据,存在成本和质量问题。Calibrated Self-Rewarding(CSR)框架通过自我增强学...……更多
百灵大模型多模态能力全面提升
...IT之家从蚂蚁集团获悉,蚂蚁集团自研的百灵大模型的多模态能力全面提升。多模态能力让大模型能“看”会“听”,能“说”会“画”,可支持音、视、图、文等多模态理解与生成,可以让大模型更像人一样感知和互动,未来...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的 Gemini-1.5-Pro...……更多
更多关于科技的资讯:
2025年,对于数禾科技而言意义非凡。这不仅是公司走过十年风雨、迈向全新征程的里程碑之年,更是品牌战略全面升级的关键节点
2025-08-06 12:07:00
李想透露理想i8小订用户超3万,此前宣布i8统一版本为Max,价格下调为33.98万元
8月5日,理想汽车CEO李想发布视频,就理想i8车型配置改动一事与用户进行分享交流,解答了理想i8为什么要统一配置版本这一核心问题
2025-08-06 13:05:00
速看!8月最值得pick的“心动”清单
导语:盛夏热浪来袭,暑期消费热潮全面爆发!孩子们在研学旅行中探索世界,大人们在避暑胜地享受悠闲时光,情侣们为七夕精心准备浪漫惊喜
2025-08-06 10:35:00
珠海监控安装知名公司?弱电行业标杆企业:广东俊逸智能科技
在珠海乃至华南地区弱电智能化产业的壮阔版图上,广东俊逸智能科技有限公司正以绝对的领军姿态,镌刻下属于强者的深刻印记。作为区域内弱电智能化领域的翘楚
2025-08-06 10:36:00
弱电智能化服务优选:广东俊逸智能覆盖监控道闸楼宇BA等多领域
在智能化浪潮席卷各行各业的今天,弱电工程及监控安装、道闸安装、楼宇BA、商业综合体智能化等领域的需求愈发旺盛。而在这片充满机遇与挑战的市场中
2025-08-06 10:36:00
践行产品责任,引领绿色风尚:万达酒店及度假村荣获证券之星ESG“产品责任奖”
在日前举办的“2025证券之星ESG年度论坛暨第三届ESG新标杆企业奖”颁奖典礼上,万达酒店及度假村凭借其在产品责任领域的卓越实践与创新成果
2025-08-06 10:36:00
从“6平方米限制”到“操作流程审查”,从设备配置“硬要求”到“适度简化”的弹性机制……8月1日起,新修订的《北京市食品经营许可审查细则》(简称“新规”)正式实施
2025-08-06 10:54:00
今年夏季全国多地持续刷新历史高温纪录,部分地区连续数日出现 40℃以上极端天气。持续高温对居民日常生活造成严重影响,不仅考验着空调性能
2025-08-06 08:37:00
抹茶刚到手,价格就暴涨,国产品牌正迎向新风口
作者:郑艺阳其实你早就在喝国产抹茶。“本来以为是冲动消费,居然一夜间变成理财产品”。海外消费者王擎夏(化名)向《消费者报道》记者报料说
2025-08-06 05:54:00
杭州日报讯 “作为塑料建材专业生产企业,南美地区是我们重点开拓的海外市场。”近日,德清企业华之杰塑料建材有限公司(以下简称“华之杰”)总经理丁凌烨向记者介绍
2025-08-06 06:29:00
“中国陶瓷煲都”的另一面:黎川人悄然拿下办公家具半壁江山
赣地灵泉润物功,千家木色出山蓬。在办公家具行业舞台上,黎川人正上演一场令人惊叹的逆袭传奇。如今,遍布全国的黎川人创办家具企业超3000家
2025-08-06 06:38:00
人形机器人领域以398.1%增速居榜首每日商报讯 从生产车间复杂装配的熟练操作,到展会上为大家递出的现磨咖啡,再到开渔现场第一网江鲜的运送……如今
2025-08-06 07:00:00
杭州日报讯 近日,上城资本集团参与投资的北京智谱华章科技股份有限公司(下称“智谱”)正式发布新一代旗舰大模型GLM-4
2025-08-06 06:29:00
韶音闪耀2025ChinaJoy:OpenDots ONE斩获黑金奖,引领开放聆听新风尚
8月1日,2025第22届中国国际数码互动娱乐展览会(ChinaJoy)在上海新国际博览中心正式拉开序幕,作为全球开放式耳机领域的知名品牌
2025-08-05 11:05:00
宠咕咕饮水、喂食科学守护,为您打造一体化健康养宠体验
在宠物成为“家人”的当下,我们发现,爱不仅是陪伴,更是理解与守护。而真正的守护,离不开科学的工具与智慧的洞察。成立以来
2025-08-05 11:05:00