• 我的订阅
  • 头条热搜
metareality推出sapiensai视觉模型
...24日消息,MetaReality实验室最新推出了名为Sapiens的AI视觉模型,适用于二维姿势预估、身体部位分割、深度估计和表面法线预测4种以人为中心的基本视觉任务。这些模型的参数数量各不相同,从3亿到20亿不等。它们采用视觉转换...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2.5D:无需训练的「...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型(VLM)——PaLI-3,该模型与相似的体...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
... 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。 据阿里云官方介绍,相比上代模型,...……更多
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日,智源推出了新的扩散模型架构 OmniGen,一种新的...……更多
微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型,实现高质量的语义分割任务
...景理解、图像分析、机器人感知和图像分割等。语义分割模型是计算机视觉领域中的一种模型,旨在将图像中的每个像素分配给特定的语义类别。与传统的图像分类模型只能给整个图像分配一个类别不同,语义分割模型能够为图...……更多
Pokémon Go开发地理空间大模型,AR眼镜的高精地图?
...布了新一代AR眼镜——RokidGlasses,通过摄像头、多模态大模型以及(玻璃衍射)光波导等技术,在一定程度上让AR眼镜实现了对真实世界的感知与理解,以及对用户的协同与展现。然而就当下来说,AI或者说视觉大模型对真实世界...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
MSRA:视觉生成六大技术问题
...进行了梳理,他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...e Information 的一篇文章。这篇文章透露,OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升,因为高质量文本和其他数据的供应量正在减少,原本的 Scaling Law(用更多的数据训练更大的模型)可能无以为继...……更多
...平面的成像能力,要求医生必须结合多个图像来构建三维模型。这一过程对医生的空间想象力和临床经验提出了较高要求。三、三维CT扫描的发展随着计算机技术与成像设备的飞速发展,CT扫描技术,特别是三维CT扫描技术得到了...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群,——还...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...又又动荡了,另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还...……更多
ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型
...自新加坡南洋理工大学 S-Lab 团队提出结构化隐空间扩散模型(Structured Latent Diffusion Model)的三维数字人生成新范式 StructLDM。该范式包括三个关键设计:结构化的高维人体表征、结构化的自动解码器以及结构化的隐空间扩散模型...……更多
你真的知道“渲染引擎”吗?一文看懂
...染、创造逼真视觉效果的关键组件,负责将二维或三维的模型、纹理、光照等数据,转化为人们肉眼可见的二维图像。渲染引擎的工作原理基于计算机图形学和视觉感知理论。它首先接收来自应用程序的几何数据(如顶点坐标/...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
今日值得关注的大模型前沿论文SwiftEdit:50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis:首个完全自主的纯视觉 GUI agentGoogle DeepMind:利用运动轨迹控制视频生成大模型数学新基...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场的自家...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...点在于,Llama 3.2成为羊驼家族中,首个支持多模态能力的模型。Connect大会上,新出炉的Llama 3.2包含了小型(11B)和中型(90B)两种版本的主要视觉模型。正如Meta所说,这两款模型能够直接替代,相对应的文本模型,而且在图像...……更多
微美全息构建基于深度迁移学习的图像分类融合模型, 提高图像分类的准确性和效率
...美全息(NASDAQ:WIMI)构建基于深度迁移学习的图像分类融合模型,提高图像分类的准确性和效率深度学习在计算机视觉领域得到越来越广泛的应用,尤其是在图像分类任务上。然而,由于数据集的限制和模型的复杂性,深度学习模...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型。比如驴,正是有了这样的世界模型,它们才能找到更省力的负重登山方法。近日,LeCun 团队发布了他们在世界...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
...,并基于该标注数据提取不同颜色空间的特征训练决策树模型。为了保证结果的鲁棒性,作者使用5张不同情况下的图像,包括晴天、阴影、光反射、雨天等,从图像中选取135000个像素进行训练,经过消除噪声等步骤后生成的掩...……更多
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
...【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的...……更多
最新美国国家人工智能科学院院士介绍
...。他在自然语言处理领域取得了显著成果,特别是在语言模型和对话系统方面。Zhu的工作使得机器能够更自然地与人类进行交互,提高了智能助手的性能和用户体验。RichardSutton,强化学习之父、阿尔伯塔大学教授。他对强化学...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
STAR团队 投稿自 凹非寺量子位 | 公众号 QbitAI超越扩散模型!自回归范式在图像生成领域再次被验证——中科大、哈工大、度小满等机构提出通用文生图模型STAR。仅需2.9秒就可生成高质量图像,超越当前一众包括SDXL在内扩散模...……更多
更多关于科技的资讯:
坚定信心 勇挑大梁·产业新亮点丨河北特色产业集群共享智造故事(五):关键设备共享为宁晋线缆带来什么
关键设备共享为宁晋线缆带来什么——河北特色产业集群共享智造故事(五)11月26日,位于宁晋县的缆芯高导(河北)科技有限公司共享车间
2025-12-10 08:07:00
厦门网讯(厦门日报记者 吴晓菁 通讯员 许佳琦 杨怡婷)昨日,厦门空港元翔货站跨境电商出口区一片忙碌景象,一辆辆满载货物的叉车来回穿梭
2025-12-10 08:38:00
警惕伪装成办公文件的木马病毒窃密 国家安全机关提示
中国网12月10日讯 据国家安全部微信公众号消息,国家安全部发布安全提示文章,“本月考勤公示”“年度放假安排”“高温补贴发放声明”等办公类文件
2025-12-10 08:41:00
清华、维信诺联合开发的pTSF技术破解OLED“不可能三角”,中国显示掌握关键材料主导权
屏幕,作为用户感知数字世界的核心窗口,其进化正迈向关键阶段。随着AMOLED技术加速向笔记本电脑、车载等中大尺寸应用渗透
2025-12-10 11:13:00
智能机器人大赛昌平收官 73支队伍四大赛道沉浸竞技 机器人实战化任务催生真实行业解决方案
本报讯(记者 张月朦)12月8日至9日,2025智能机器人大赛决赛在昌平举办。大赛设制造业类、康复养老类、安全应急类和创新类四大赛道
2025-12-10 14:14:00
研究揭示:人生黄金期在55-60岁,整体能力达顶峰
鲁网12月10日讯人们普遍认为,“年轻即巅峰”。然而,一项发表于国际权威心理学期刊《智力》的最新研究,彻底颠覆了这一传统认知
2025-12-10 16:21:00
鲁网12月10日讯山东移动临沂分公司坚决落实“以人民为中心”发展理念,强化“全心全意为人民服务”的宗旨意识,筑牢高质量发展生命线的服务方针
2025-12-10 16:24:00
潮评丨从独角兽榜单看浙江创新之势
全球独角兽企业数据库(Unicorn500)潮新闻讯 据央视新闻报道,近日,2025全球独角兽企业500强榜单发布,我国共有150家企业上榜
2025-12-10 16:24:00
大河网讯 (记者 李彤)大家好,我是水银体温计。我的时间,已经进入了倒计时。一直以来,我是每个家庭药箱里不可少的存在。我见证过无数滚烫的额头
2025-12-10 17:16:00
公益广告H5丨安全快门 快乐连拍
扫描二维码进入H5
2025-12-10 17:28:00
福州新闻网12月10日讯(记者 吴桦真)记者10日获悉,福州企业米多多集团股份有限公司正式向香港联交所递交招股说明书,拟主板上市
2025-12-10 18:02:00
大数据产业从“单点布局”迈向“生态闭环” 张家口数字经济拔节向上河北日报讯(郭晓通、王雯)“十四五”时期,张家口市把数字经济作为高质量发展的重要增长极
2025-12-10 18:34:00
QuestMobile报告:00后月活用户达1.79亿,闲鱼增速领跑移动购物行业
12月9日,第三方数据机构QuestMobile发布《2025“00后”用户消费洞察报告》,显示闲鱼00后月活跃用户规模达到4361万
2025-12-10 19:13:00
AI如何走进职教课堂?阿里公益联合北大教育学院探索新路径
12月9日,阿里巴巴公益联合北京大学教育学院联合主办AI+职业教育学术研讨会,分享双方在职业教育与人工智能融合领域的研究成果
2025-12-10 20:12:00
中国科大构建高性能圆偏振光电逻辑门
大皖新闻讯 12月10日,大皖新闻记者从中国科学技术大学获悉,该校庄涛涛教授团队设计了基于手性选择性光电转换的圆偏振光电逻辑门
2025-12-10 20:13:00