• 我的订阅
  • 头条热搜
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
金磊 鱼羊 发自 凹非寺量子位 | 公众号 QbitAI传闻中的谷歌杀手锏Gemini,来了!就在刚刚,谷歌CEO皮猜和哈萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...秋,“日日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商量多模...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型(VLM)——PaLI-3,该模型与相似的体...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前的 CAD 软件普遍缺乏简易的交互工具,这在...……更多
反击OpenAI,谷歌放出最强悍大模型Gemini
...斯·哈萨比斯在谷歌官网联名发文,官宣了最新多模态大模型Gemini 1.0(双子星)版本正式上线。这个上线时间早于外界猜测的明年1月,保密程度很高,仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞品,也是...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...、张钊为、汪明志、钟伊凡等。团队就强化学习方法及大模型的后训练对齐技术开展了一系列重要工作,包括 Aligner(NeurIPS 2024 Oral)、ProgressGym(NeurIPS 2024 Spotlight)以及 Safe-RLHF(ICLR 2024 Spotlight)等系列……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...态连续学习的最新进展连续学习(CL)旨在增强机器学习模型的能力,使其能够不断从新数据中学习,而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘:当任务按顺序训练时,新的任务训练会严重干扰之前...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首次对...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...数据生成引擎(RIG)生成的大规模数据进行训练,以提高模型在3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-mo...……更多
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等...……更多
...中国科学院自动化研究所等单位研发的多模态地理科学大模型“坤元”(Sigma Geography)正式发布。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力,研发团队完成了地理学全谱系高质...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
...Zhang (https://zhangyuanhan-ai.github.io/),主要研究领域为将基础模型适配于开放世界。本文的指导老师为 Ziwei Liu 教授 ((https://liuziwei7.github.io/) 和 Chunyuan Li 博士 (https://chunyuan……更多
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大模型,这一先进平台不仅拥有“视听言画”全方位...……更多
支付宝多模态医疗大模型正式亮相
在2024世界人工智能大会“可信大模型论坛”上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据CNMO了解,支付宝医疗大模型的基座模型为蚂蚁百灵大模型。据蚂蚁集团大模型应用部总经理顾进杰介...……更多
苹果公司公布“mm1”多模态大模型
...dalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供30亿、70亿、300亿三种参数规模,拥有图像识别和自然语言推理能力。IT之家注意到,苹果研究团队相关论文主要是利用MM1模型做实验,通过控制各种变量...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
今日值得关注的大模型前沿论文SwiftEdit:50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis:首个完全自主的纯视觉 GUI agentGoogle DeepMind:利用运动轨迹控制视频生成大模型数学新基...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多智能体...……更多
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
通义大模型发布一周年之际,迎来重要的历史性时刻。5月9日,阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4 Turbo,成为地表最强中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Llama-3-7...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场的自家...……更多
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
...决了空间智能研究中的一个主要瓶颈。这是首个全面评估模型在真实场景中对精细3D细节理解能力的基准。」 知名科技博主、前微软策略研究者Robert Scoble:「有了这项工作,机器人将能够自主组装IKEA家具,或者通过AI驱动的AR...……更多
什么影响大模型安全?NeurIPS\'24新研究提出大模型越狱攻击新基准
全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世,将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日,Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多模态模...……更多
更多关于科技的资讯:
7月11日,杭州市滨江区市场监管局官方微信号发布消息,日内瓦传来捷报:世界知识产权组织(WIPO)正式宣布,宇树科技从全球95个国家780家参评企业中胜出
2025-07-12 15:11:00
【肿瘤诊疗 我们更专业】Lattice放疗破局:泰安肿瘤医院创新放疗技术破解肺癌大肿块治疗难题
当74岁的张先生(化名)因左肺癌骨转移病情恶化,巨大肿块侵蚀胸壁带来剧痛,传统治疗手段几近失效之际,泰安市肿瘤医院放疗二科主任曹亮与放疗中心物理师荆亮共同启用一把名为Lattice放疗(晶格放疗)的科技利刃
2025-07-12 13:13:00
产业链上的山东好品牌|一根拉动世界的绳子
齐鲁晚报·齐鲁壹点记者 闫聪 王鑫 王世宇在山东泰安这片工业热土上,一家专注于绳网科技的企业正以“隐形冠军”的姿态,在全球细分市场中悄然崛起
2025-07-12 12:21:00
多氟多董事长李世江:靠灵心巧手穿越经济和产业周期
7月8日,多氟多召开2025年上半年工作总结暨下半年工作部署大会。董事长李世江讲话时指出,经济周期有波动,但创新与奋斗的价值永恒
2025-07-12 10:06:00
山东港口日照港石臼港区四足仿生巡检机器人“上岗”
日前,走进山东港口日照港石臼港区粮食基地,只见错综复杂的皮带机上,身姿矫健的四足仿生巡检机器人正灵活攀爬,轻松穿越狭窄通道
2025-07-12 10:35:00
泉城企话录 | 留学路上的 “通关密码”,你 get 了吗?
编者按:在春风送暖、政策护航的良好环境下,民营企业迎来了新的发展新机。大众网・海报新闻推出 “春天里” 的民企之声 ——“济南企业 +” 系列访谈
2025-07-12 05:22:00
2025全球跨境电商交易博览会正在杭州大会展中心举行。展会期间,市商务局邀请了涉外法律服务机构、国际国内知名展览公司、货代企业
2025-07-12 06:59:00
7月10日,第十五届全国大学生电子商务“创新、创意及创业”挑战赛跨境电商实战赛全国总决赛在杭州师范大学仓前校区落下帷幕
2025-07-12 06:59:00
产业+人才+平台=新的机遇 中国制造正通过跨境电商实现“全球卖”
从山西运城的汽车配件专利技术,到新绛县的特色农产品;从江苏泰州的医疗产品到河北廊坊的家具箱包;从亚马逊推荐的海外爆款清单
2025-07-12 07:00:00
我国跨境电商人才需求有多大?10日在2025全球跨境电商交易博览会上发布的《中国跨境电商人才培养白皮书》显示,2025年我国跨境电商人才供给缺口达400万人
2025-07-12 06:59:00
Rap歌曲《八方来财》从中国传唱到世界,与跨境电商把中国的“材”卖到了全球,赚到了“财”,有着异曲同工之处。在2025全球跨境电商交易博览会6A展馆
2025-07-12 07:00:00
民航新规聚焦电池安全 松典相机以品质护航空中旅程
近期民航部门针对充电宝等便携式锂电池设备出台更严格的安全运输规定,引发了公众对包括数码相机在内电子设备电池安全性的广泛讨论
2025-07-11 16:26:00
还记得那些从贵州松桃“微工厂”走出的泡泡玛特潮玩吗?如今,在贵州的另一片山区,又一批高端动漫手办正从流水线上诞生,远销世界各地
2025-07-12 01:05:00
施耐德电气:致电未来,创新赋能电子及生命科学行业提质向“新”
以“破界新生,致电未来”为主题的2025施耐德电气电子及生命科学新质生产力峰会在杭州成功举办。施耐德电气携手行业专家、生态伙伴及客户相聚一堂
2025-07-11 16:26:00
深圳卫视力推松典DC209X:千元级国货微单的硬核体验
在全民追求高品质影像记录的时代,手机拍照的局限性,尤其是在变焦、暗光及稳定性上的不足,让许多用户苦于“糊片”困扰。近日
2025-07-11 16:26:00