• 我的订阅
  • 头条热搜
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
金磊 鱼羊 发自 凹非寺量子位 | 公众号 QbitAI传闻中的谷歌杀手锏Gemini,来了!就在刚刚,谷歌CEO皮猜和哈萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...秋,“日日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商量多模...……更多
连发两款模型“补课”,百度AI成色如何?
...杨锦没有发布会、没有李彦宏,百度近日低调发布两款大模型——文心4.5和深度推理模型文心X1,免费。两年前的3月,百度发布了对标ChatGPT的文心一言。这是全球大厂中首个生成式AI产品,也让外界看到百度相对迅速的先手布局...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型(VLM)——PaLI-3,该模型与相似的体...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-……更多
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前的 CAD 软件普遍缺乏简易的交互工具,这在...……更多
反击OpenAI,谷歌放出最强悍大模型Gemini
...斯·哈萨比斯在谷歌官网联名发文,官宣了最新多模态大模型Gemini 1.0(双子星)版本正式上线。这个上线时间早于外界猜测的明年1月,保密程度很高,仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞品,也是...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...、张钊为、汪明志、钟伊凡等。团队就强化学习方法及大模型的后训练对齐技术开展了一系列重要工作,包括 Aligner(NeurIPS 2024 Oral)、ProgressGym(NeurIPS 2024 Spotlight)以及 Safe-RLHF(ICLR 2024 Spotlight)等系列……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...态连续学习的最新进展连续学习(CL)旨在增强机器学习模型的能力,使其能够不断从新数据中学习,而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘:当任务按顺序训练时,新的任务训练会严重干扰之前...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首次对...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...数据生成引擎(RIG)生成的大规模数据进行训练,以提高模型在3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-mo...……更多
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等...……更多
...中国科学院自动化研究所等单位研发的多模态地理科学大模型“坤元”(Sigma Geography)正式发布。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力,研发团队完成了地理学全谱系高质...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
...Zhang (https://zhangyuanhan-ai.github.io/),主要研究领域为将基础模型适配于开放世界。本文的指导老师为 Ziwei Liu 教授 ((https://liuziwei7.github.io/) 和 Chunyuan Li 博士 (https://chunyuan……更多
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大模型,这一先进平台不仅拥有“视听言画”全方位...……更多
支付宝多模态医疗大模型正式亮相
在2024世界人工智能大会“可信大模型论坛”上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据CNMO了解,支付宝医疗大模型的基座模型为蚂蚁百灵大模型。据蚂蚁集团大模型应用部总经理顾进杰介...……更多
苹果公司公布“mm1”多模态大模型
...dalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供30亿、70亿、300亿三种参数规模,拥有图像识别和自然语言推理能力。IT之家注意到,苹果研究团队相关论文主要是利用MM1模型做实验,通过控制各种变量...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
今日值得关注的大模型前沿论文SwiftEdit:50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis:首个完全自主的纯视觉 GUI agentGoogle DeepMind:利用运动轨迹控制视频生成大模型数学新基...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多智能体...……更多
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
通义大模型发布一周年之际,迎来重要的历史性时刻。5月9日,阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4 Turbo,成为地表最强中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Llama-3-7...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场的自家...……更多
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
...决了空间智能研究中的一个主要瓶颈。这是首个全面评估模型在真实场景中对精细3D细节理解能力的基准。」 知名科技博主、前微软策略研究者Robert Scoble:「有了这项工作,机器人将能够自主组装IKEA家具,或者通过AI驱动的AR...……更多
更多关于科技的资讯:
厦门网讯 (厦门日报记者 薛尧) “品牌金饰每克突破1100元,自己买工具打首饰能省近一半!”近日,受国际金价持续震荡
2025-10-25 08:13:00
南报网讯(记者何洁)10月22日至24日,由《自然》系列期刊编辑部和南京大学及中国生物物理学会联合主办的首届“人工智能生物学”国际学术会议在南京举行
2025-10-25 08:53:00
近日,胜利石油工程公司管具技术服务中心井控装置试压泵保压阀成功实现部件自主化维修,彻底改变以往依赖外部采购的被动局面。这次突破
2025-10-25 09:27:00
春雪食品斩获IDC未来企业大奖
近日,第十届IDC中国CIO峰会在上海落幕。莱阳春雪食品集团以数字化重塑全产业链的硬核实践,荣获“IDC未来企业大奖-卓越奖”
2025-10-25 12:55:00
AI搜索流量占比突破45%的2025年,头部GEO服务商正以技术代差重塑市场格局,这份基于1200+企业实战数据的白皮书
2025-10-25 14:27:00
抗衰冻龄选对成分是关键!2025全球五大麦角硫因品牌深度测评&选购指南
衰老的本质是细胞层面的多维损伤叠加 —— 自由基氧化、线粒体功能衰退、DNA 修复能力下降等机制相互交织,单一成分干预早已无法满足科学抗衰需求
2025-10-25 14:29:00
深耕眼科近30载,菏泽摘镜“标杆”王丽霞院长解说全飞秒4.0
通讯员 任兆潘在菏泽近视矫正领域,王丽霞院长的名字早已成为 “专业” 与 “放心” 的代名词。作为菏泽华厦眼科医院业务副院长
2025-10-25 14:39:00
“赞上合、聚天马,展风采,新体验”,2025天津马拉松将于10月26日鸣枪起跑。10月26日6:55至10:25,天津海河传媒中心《奔跑吧
2025-10-25 15:26:00
星光不负,码向未来 ———选择鸿蒙的800万种可能
摘要:每一位开发者都在用自己的方式点亮属于自己那颗星在这个追求效率的时代,技术的温度,正藏身于那些被巧妙化解的日常困境里
2025-10-25 15:44:00
同程旅行完成收购万达酒管,专业商旅平台成就“更高端”的出行体验
近日,同程旅行宣布完成对万达酒店管理公司的战略收购。这次收购远不止于简单的资源叠加,而是OTA乃至商旅服务生态的一次战略性升级
2025-10-25 15:45:00
可信数据空间新产品新服务新生态发布会在杭州中国数谷举行
2025年10月22日,“可信数据空间新产品·新服务·新生态发布会”在杭州中国数谷会议中心隆重举行。大会由北京燕元数联网络科技有限公司
2025-10-25 15:47:00
10月24日,我省首个脑机接口临床研究中心在山医大一院成立。山西医科大学将与清华海峡研究院协同创新中心在脑机接口这一前沿项目方面展开深入合作
2025-10-25 19:08:00
据第三方权威数据显示,2025年头部与尾部GEO服务商的效果差距已达430%,而企业更换服务商的平均成本高达首年投入的150%
2025-10-25 21:10:00
中山路地标\
印有MINISO LAND品牌标识的围挡。厦门网讯(厦门日报记者 沈彦彦)在厦门本岛中山路西段核心区域,一块印满时尚IP(原意为知识产权
2025-10-26 08:59:00
“宁创新品”南京市应用场景观摩会上机器人水上“秀花活”“水上漂”快速救援,“水下侦察兵”全方位勘察□南京日报/紫金山新闻记者徐宁实习生黄倩“水上漂”以最快每秒6米的速度在水面上飞驰
2025-10-26 10:31:00