• 我的订阅
  • 头条热搜
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多...……更多
星环科技Sophon 3.2发布,通过“六易三仓两中心”实现新一代AI平民化
...目前各行业用户在落地广泛业务需求分析、处理多重数据模态对接、跟进高度定制场景问题解决、运营多源多框架AI模型等方面的问题,星环自主研发的一站式智能分析工具平台Sophon推出了3.2版本。3.2版本的Sophon通过以数据和模...……更多
首个VR端3D角色扮演AI发布!南洋理工公开SOLAMI技术报告,端到端VLA模型驱动,唱跳都能陪你玩
...或者语音的交互。这促使我们思考:如何构建具有更丰富模态的3D自主角色呢?要实现这个目标,主要面临两个挑战:1. 3D角色需要准确观察和理解用户行为信息,并基于上下文和角色设定通过语音、肢体动作和表情做出合适的回应...……更多
VIMA:更适合机械宝宝体质的操作系统,竟然内置LLM!
...-and-Language Navigation with Multi-Modal Transformers),一个使用多模态提示执行各类任务的机械体操作系统。也就是说,在Prompt中输入文字、图片、视频,或任意的组合,VIMA就可以控制机械臂执行相应的动作。VIMA将多模态提示用于任务..……更多
鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持
...对用户指令的忠实性。具体而言,AI 是否能够在复杂的多模态环境中不受眼花缭乱的内容所干扰,忠实地完成用户预设的目标,是一个尚待研究的问题,也是实际应用之前必须回答的问题。针对上述问题,本文以图形用户界面智...……更多
全球首个全模态大模型紫东太初2.0发布,中科院王金桥:希望实现更类人的智能
...能框架的最新进展。会上,基于昇思AI框架的全球首个全模态大模型“紫东.太初2.0”正式发布,支持多轮问答、文本创作、图像生成、3D理解、信号分析等跨模态任务。“我们的初心就是希望机器实现更类人的智能。”中科院自...……更多
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...fusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。回顾过去……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...qizhixin.com随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。其实,Sora出现之前,也有其他类似的AI...……更多
紫东.太初再进化,揭秘全模态大模型的想象力
...在演讲中介绍了基于昇腾AI与昇思MindSpore AI框架打造的全模态大模型紫东.太初2.0,并首次提出全模态多任务统一生成式学习框架。借用Hugging Face联合创始人Thomas Wolf的说法:“在过去的几年里,好的多模态模型一直是许多大型技...……更多
全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...,中国科学院地理科学与资源研究所正式发布全球首个多模态地理科学大模型“坤元”。作为专为地理科学领域量身打造的专业语言大模型,“坤元”不仅精通地理学的精髓,更在“懂地理”、“精配图”、“知人心”、“智生...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...示,这个生成速度在业内已经算非常快了。张鹏认为,多模态模型的探索还处于非常初级的阶段。从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。从模型本身角度...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活的输入信号,以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多
全国首个 成都创新团队发布机器人多模态模型
中国首个机器人多模态模型,可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果,根据语音指令,机器人会把苹果送到你手上;如果想收拾干净桌面,机器人就会把桌上所有的东西归置好……这个关于人工智能描...……更多
苹果大模型,不藏了
...模型领域的步伐。上个月,苹果先是推出了名为Ferret的多模态大语言模型,图像处理技术堪称惊艳;而后又发布了一篇题为《闪存中的大型语言模型:在有限内存下高效的大型语言模型推理》的论文,直指大模型落地iPhone等“内...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...高模型在3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
...径。为什么这样认为。对此,王鹤在具身智能大会具身多模态大模型论坛上给出了解释,科技行者就这一演讲关键内容进行了不改变原意的整理:机器人从动嘴到动手有多难最近,具身多模态大模型非常火,我们看到了OpenAI和Fig...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
科学家打造多模态模型,7B和1.3B小模型均开源,可部署手机等终端
在最近一项研究中,DeepSeek-AI 团队针对多模态大模型展开了深入探索。选择这一研究方向,背后有着多重考量。最初,该团队围绕是否聚焦于多模态生成、多模态理解、或是两者的统一框架进行了广泛讨论。基于对通用人工智...……更多
●多模态使人形机器人能融合图像、语义、力感知、环境感知等多种因素,综合判断、生成任务并执行任务,是让人形机器人具有自主思考能力的关键核心技术●标志着成都在我国多模态模型应用于人形机器人领域率先取得突...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...合提出即插即用的SearchLVLMs框架,可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强,使得大模型无需微调即可对实时信息进行准确的反馈。研究团队提出首个辅助多模态大模型对实时信息进行...……更多
吉利星睿AI大模型正式发布 引领中国汽车进入全场景AI时代
...用的智能生态闭环。 星睿AI大模型包括语言大模型、多模态大模型、数字孪生大模型3大基础模型,并由此衍生出NLP语言大模型、NPDS研发大模型、多模态感知大模型、多模态生成大模型、AI DRIVE大模型、数字生命大模型6大能力模...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。具体来说,他们做出了以下贡献:(1)他们提出了 SoccerReplay-1988,这是迄今为止最大的多模态足球数据集,其中包括来自 1988 场完整比赛的视频和详细注释,...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
更多关于科技的资讯:
智云(SCA生态发布会)圆满落幕 ——全球生态共振,开启智能新时代
【香港,2025年8月19日】由智云AI主办的SCA香港大会在香港盛大举行,并在热烈掌声和深度交流中圆满落幕。本次大会以“使命·品牌·生态”为主题
2025-08-23 13:05:00
不是不想买,是不会用!老年人买保险“数字鸿沟”谁来填?
“我爸今年60岁了,以前对保险没什么概念,这几年随着年龄增长、身体每况愈下,他开始意识到保障的重要性,可投保时犯了难,手机APP字太小
2025-08-22 08:08:00
●黄开典这个暑期,厦门文旅市场热度持续攀升。周杰伦、陈小春等歌手演唱会,乒超联赛等体育赛事陆续“登鹭”,一场场文体盛宴吸引全国各地的观众奔赴而来
2025-08-22 08:47:00
厦门网讯 (厦门日报记者 林露虹)国产钨钢钻头实现重大突破。近日,厦门麦达智能科技有限公司宣布,成功生产出直径仅0.009毫米(9微米)的钨钢钻头
2025-08-22 08:47:00
厦门网讯(厦门日报记者 陈泥)近日,市财政局联合市住房和建设局创新资产推介模式,首次在阿里巴巴资产交易和京东拍卖平台开展资产线上招商推介活动
2025-08-22 08:47:00
近日,中电鑫龙子公司安徽森源电器有限公司(以下简称“安徽森源”)再次凭借优质的产品性能与卓越的服务品质,签约河北瑞丰钢铁集团有限公司(以下简称 “瑞丰钢铁”)“145MW超临界煤气发电”及“170万吨焙烧机”两大关键工程
2025-08-22 09:13:00
现场网络流量激增167%!济宁移动全力保障“山东虾味鲜争霸赛”
大众网记者 刘迪 通讯员 吴广森 济宁报道8月14日至17日,“好客山东・美食争霸赛”第三场单品赛——“虾”路相逢・山东虾味鲜争霸赛在济宁市任城区津多里中心广场举办
2025-08-22 09:16:00
面对国内高端搬家市场日益增长的精细化服务需求,互联网搬家平台“蓝犀牛搬家”于近日宣布,对旗下的日式搬家服务进行重大升级
2025-08-22 09:19:00
新华社《半月谈》聚焦视源机器人:能巡逻、能巡检,四足机器狗已走进日常工作生活
你能想象一只机器狗在步行街巡逻、在变电站巡检、甚至还能帮你“上课”吗?这一切正在成为现实。近日,新华社《半月谈》专访视源股份高层段宇
2025-08-22 09:19:00
菏泽联通客户日:线上线下齐发力,暖心服务获赞无数
齐鲁晚报·齐鲁壹点 宋秋梅 通讯员 陈芳8月 19 日,菏泽联通客户日线下活动再度启程,10 个旗舰厅同步开展,通过提前邀约意向客户
2025-08-22 09:36:00
全省首次应用!十堰布设颗粒物通量激光雷达为空气做“CT扫描”
十堰广电讯(全媒体记者 赵向军 通讯员 叶相成 朱陈沁子)日前,在十堰市张湾区某小区楼顶,市生态环境局布设的一套球形三维扫描颗粒物通量激光雷达
2025-08-22 11:24:00
在方寸电站间磨砺出创新之刃
消费日报网讯(记者 冯举)在攀钢钒能源动力分公司热动专业区发电站,55MW发电机组冷风器冷油器在线反洗及串级节能操作法的成功应用
2025-08-22 11:44:00
从“谷子”到“痛金” IP赋能黄金产业年轻化发展
本报记者 卢 岳 □ 王琦琛根据世界黄金协会数据,2024年中国18岁至34岁消费者已成为黄金首饰消费的主力军。随着年轻人对黄金兴趣回归
2025-08-22 11:44:00
“演唱会+城市”叠加效应激发粉丝经济新活力
本报记者 卢 岳 □ 王琦琛今年夏天,北京仿佛化身为一座名为“MaydayLand”的城市主题公园。五月天“回到那一天”25周年巡回演唱会在鸟巢连开13场
2025-08-22 11:44:00
2025 年 7 月 21 日,聚焦计量检验检测一体化服务的数字化平台 —— 三测计量检测服务平台正式上线运营,该平台由深圳镎普检验技术有限公司主办
2025-08-22 12:21:00