• 我的订阅
  • 头条热搜
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
北大提出首个通用指令导航大模型系统 | CoRL 24
...可导航价值。 直觉价值地图(Intuition Value Map):利用多模态大模型判断全景图中最适合移动的区域,并赋予更高可导航价值。 轨迹价值地图(Trajectory Value Map):赋予远离现有轨迹的区域更高的可导航价值。 通过对多源价值...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息给模型,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of ...……更多
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要,是实现AGI的必经之路。”对大模型的下一步发展,李璟表示,阶跃星辰主要会在两个方向发力。一是在预训练的基础上加上强化学习,提高模型...……更多
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,性能全面对标GPT-4V。再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!仅8B参数...……更多
本周(4.8-4.14)AI界发生了什么?
...源:论文论文链接:AI界前线马斯克旗下xAI发布其首款多模态大模型4月13日消息,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外,Grok现在可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。具体来说,他们做出了以下贡献:(1)他们提出了 SoccerReplay-1988,这是迄今为止最大的多模态足球数据集,其中包括来自 1988 场完整比赛的视频和详细注释,...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...的创新框架。DiffSensei 集成了基于扩散的图像生成器和多模态大语言模型(MLLM),后者是一种文本兼容身份适配器。他们的方法采用了掩码交叉注意力技术,可无缝整合字符特征,从而在不直接传输像素的情况下实现精确的布局...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
多模态检索增强生成(mRAG)也有o1思考推理那味儿了!阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。随便上传一张图,...……更多
...“证明了R1方法的通用性,不止文本领域玩得转”“为多模态AI带来全新思路”“或许能够引领一种全新的视觉语言模型训练潮流”……业内人士纷纷对 VLM-R1表示高度认可。“视觉版DeepSeek”为什么是VLM-R1?VLM-R1爆火,看似意料...……更多
李飞飞空间智能之后,上交、智源、北大提出空间大模型SpatialBot
...一名的成绩在东南大学取得学士学位。他的研究兴趣为多模态大模型、具身智能。此工作为其在上海交通大学访问和北京智源人工智能研究院实习期间完成,导师为本文通讯作者赵波教授。此前,李飞飞老师提出了空间智能 (Spat...……更多
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...模型智能水平、Agent工具调用和Coding能力、深度推理、多模态等方面实现多项突破。2025云栖大会,阿里云CTO周靖人发布多项重磅技术更新在大语言模型中,阿里通义旗舰模型Qwen3-Max全新亮相,性能超过GPT5、Claude Opus 4等,跻身全...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活的输入信号,以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多
商汤营收恢复增长,亏损收窄至43亿元;CEO徐立回应DeepSeek影响
...国内外大模型仍在技术和应用层面加速竞争。对于押注多模态的商汤来说,仍需要考虑如何在继续加大技术投入和加速规模化应用方面实现更好的平衡。生成式AI业务撑起增长重任,研发投入增长19%商汤去年的营收打破了此前连...……更多
...参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。...……更多
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...达14.3%,显著高于DeepSeek-V3的3.9%,也远远超过行业的其他推理模型,比如OpenAI-o1的测试结果是2.4%。这种AI大模型生成内容与真实数据不符,或偏离用户指令的现象,会极大影响用户的使用体验。在医疗、法律、金融等对准确性要...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
夸克AI超级框上新“拍照问夸克” 加码多模态能力
...应用,夸克AI超级框持续快速迭代,提升超级智能体的多模态能力,打造用户生活、工作、学习的AI超级入口。视觉交互创新,智能分析万物在工作、学习、生活各类场景中,面对复杂物体、表格和图形时,用户往往难以准确描...……更多
...全球多家科技公司发布新的大模型,它们在语义理解、多模态等方面进一步提升,人工智能(AI)的能力边界在不断扩大。随着无人驾驶、机器人等技术借助AI快速进化并逐步投入市场,不少国家通过推进法规建设、开展国际合...……更多
...成模型、语音理解/生成模型、文生图及视频模型等“全模态”,覆盖从0.5B到110B等参数“全尺寸”,屡次斩获Chatbot Arena、司南OpenCompass等权威榜单“全球开源冠军”“国产模型冠军”。截至目前,海内外AI开源社区中千问Qwen的衍...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的 Gemini-1.5-Pro...……更多
大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora
被神话的 Sora ,被低估的多模态。Sora 终于来了!只要是 ChatGPT Plus/Pro 用户,直接就能用上。至于效果 ......看完官方放出的 demo,网友大呼:不太行 !当人们对「超级应用」的热情被 Sora 浇上一盆凉水时,多模态应用已经悄咪...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...这个金秋,“日日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商...……更多
更多关于科技的资讯:
“内容重构论”引短剧行业共鸣
当“反转”“爽点”不再能轻易留住观众,微短剧行业正迎来一场深层重构。到2024年中,中国微短剧用户规模已接近7亿,市场体量超过500亿元
2025-10-29 14:01:00
鲸鸿动能亮相中国国际广告节&亚洲广告大会,全场景AI驱动增长
10月24日,第32届中国国际广告节&第34届亚洲广告大会在北京举办,鲸鸿动能受邀出席,并发表主题演讲《从孤岛到共生
2025-10-29 11:21:00
如何选择适合你的视频画质修复工具
在数字时代,视频已成为我们记录生活、创作内容和保存记忆的重要载体。然而由于拍摄设备限制、保存条件或传输压缩,我们常常面临视频模糊
2025-10-29 11:22:00
精工匠心极致服务!2025年小蓝翼杯全品类服务技术比武大赛圆满落幕
10月23日,2025年“小蓝翼”杯全品类服务技术比武大赛在TCL空调武汉智能工厂举行。其中,空调品类经过30个战区初赛
2025-10-29 11:30:00
‌2025年10月27日‌——上海联舌工坊科技有限公司今日正式于杨浦区完成注册,此举被视为其深化资本市场布局的关键一步
2025-10-29 12:37:00
三星电视荣登天猫艺术电视榜单 双十一钜惠助力消费者轻松解锁艺术家居生活
在消费焕新浪潮席卷家居领域、美学需求成为当代家庭核心诉求的当下,三星凭借对前沿科技与生活美学的深度解构与融合,始终站在全球艺术电视品类发展的潮头
2025-10-29 12:40:00
河北新闻网讯(吴建春)近日,由河北天翼科贸发展有限公司(简称“河北天翼”)为一家农业融资担保公司量身打造的在线收付款业财一体化项目
2025-10-29 13:31:00
宝宝巴士回应APP出现不良广告:严处审核负责人 研发广告强制拦截功能
华商网讯 10月29日,针对“宝宝巴士App出现不良广告”一事,宝宝巴士官方微信公众号发布致歉及整改声明。根据声明,对于近期用户关注的宝宝巴士App产品跳转不良广告一事
2025-10-29 13:40:00
米兰冬奥倒计时100天 国际奥委会携手阿里巴巴首次推出五环系列首饰
2026年米兰·科尔蒂纳冬奥会开幕倒计时100天之际,奥林匹克天猫官方旗舰店独家首发米兰冬奥会系列商品。同时,国际奥委会首次推出奥林匹克五环系列首饰
2025-10-29 13:47:00
王玉宝:于商业迷途中寻一盏不灭的心灯
鲁网10月29日讯踏入儒商研究会的大门,已是一载有余。今日静坐回望,恍然惊觉,这段旅程并非寻常的“加入一个组织”,倒更像是一场在商业迷途中的精神返乡
2025-10-29 13:51:00
2025上海国际压缩机展开幕 ,美的楼宇科技赋能工业制造绿色升级
10月28日-31日,2025上海国际压缩机及设备展览会(以下简称“上海国际压缩机展”)在上海新国际博览中心举办。作为核心参展商
2025-10-29 12:41:00
深圳首宗!医疗健康数据产品场内交易,十年临床数据为手术机器人研发注入“燃料”
经过严格匿名化处理和多轮合规审查,在严格遵守隐私保护的红线下,医疗数据也可以“活”起来,成为驱动AI技术发展的“燃料”
2025-10-29 12:38:00
为进一步推动国产雪茄高质量发展,持续提升阜阳市场“懂雪茄、会养护、善营销”的零售客户雪茄经营能力,提升服务质量,重振经营信心
2025-10-29 12:39:00
富士胶片X-SPACE迎来七周年朋友月 胶片模拟色彩配方书籍特别发布
2025年10月,富士胶片(中国)投资有限公司旗下X-SPACE富士胶片影像空间(以下简称"X-SPACE")迎来成立七周年
2025-10-29 10:59:00
河北纳科生物科技有限公司专利获雄安高价值专利大赛银奖
河北新闻网讯(钟蕾)近日,推进京津冀知识产权高质量发展暨2025・雄安高价值专利大赛颁奖活动在雄安新区举行。石家庄高新区优秀创新企业河北纳科生物科技有限公司凭借其核心专利“重组人胶原蛋白的制备和产业化应用”
2025-10-29 11:11:00