• 我的订阅
  • 头条热搜
metareality推出sapiensai视觉模型
...24日消息,MetaReality实验室最新推出了名为Sapiens的AI视觉模型,适用于二维姿势预估、身体部位分割、深度估计和表面法线预测4种以人为中心的基本视觉任务。这些模型的参数数量各不相同,从3亿到20亿不等。它们采用视觉转换...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2.5D:无需训练的「...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
... 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。 据阿里云官方介绍,相比上代模型,...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型(VLM)——PaLI-3,该模型与相似的体...……更多
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日,智源推出了新的扩散模型架构 OmniGen,一种新的...……更多
微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型,实现高质量的语义分割任务
...景理解、图像分析、机器人感知和图像分割等。语义分割模型是计算机视觉领域中的一种模型,旨在将图像中的每个像素分配给特定的语义类别。与传统的图像分类模型只能给整个图像分配一个类别不同,语义分割模型能够为图...……更多
Pokémon Go开发地理空间大模型,AR眼镜的高精地图?
...布了新一代AR眼镜——RokidGlasses,通过摄像头、多模态大模型以及(玻璃衍射)光波导等技术,在一定程度上让AR眼镜实现了对真实世界的感知与理解,以及对用户的协同与展现。然而就当下来说,AI或者说视觉大模型对真实世界...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
MSRA:视觉生成六大技术问题
...进行了梳理,他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...e Information 的一篇文章。这篇文章透露,OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升,因为高质量文本和其他数据的供应量正在减少,原本的 Scaling Law(用更多的数据训练更大的模型)可能无以为继...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群,——还...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图...……更多
ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型
...自新加坡南洋理工大学 S-Lab 团队提出结构化隐空间扩散模型(Structured Latent Diffusion Model)的三维数字人生成新范式 StructLDM。该范式包括三个关键设计:结构化的高维人体表征、结构化的自动解码器以及结构化的隐空间扩散模型...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...又又动荡了,另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
今日值得关注的大模型前沿论文SwiftEdit:50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis:首个完全自主的纯视觉 GUI agentGoogle DeepMind:利用运动轨迹控制视频生成大模型数学新基...……更多
你真的知道“渲染引擎”吗?一文看懂
...染、创造逼真视觉效果的关键组件,负责将二维或三维的模型、纹理、光照等数据,转化为人们肉眼可见的二维图像。渲染引擎的工作原理基于计算机图形学和视觉感知理论。它首先接收来自应用程序的几何数据(如顶点坐标/...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场的自家...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...点在于,Llama 3.2成为羊驼家族中,首个支持多模态能力的模型。Connect大会上,新出炉的Llama 3.2包含了小型(11B)和中型(90B)两种版本的主要视觉模型。正如Meta所说,这两款模型能够直接替代,相对应的文本模型,而且在图像...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型。比如驴,正是有了这样的世界模型,它们才能找到更省力的负重登山方法。近日,LeCun 团队发布了他们在世界...……更多
微美全息构建基于深度迁移学习的图像分类融合模型, 提高图像分类的准确性和效率
...美全息(NASDAQ:WIMI)构建基于深度迁移学习的图像分类融合模型,提高图像分类的准确性和效率深度学习在计算机视觉领域得到越来越广泛的应用,尤其是在图像分类任务上。然而,由于数据集的限制和模型的复杂性,深度学习模...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
...,并基于该标注数据提取不同颜色空间的特征训练决策树模型。为了保证结果的鲁棒性,作者使用5张不同情况下的图像,包括晴天、阴影、光反射、雨天等,从图像中选取135000个像素进行训练,经过消除噪声等步骤后生成的掩...……更多
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
...【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
STAR团队 投稿自 凹非寺量子位 | 公众号 QbitAI超越扩散模型!自回归范式在图像生成领域再次被验证——中科大、哈工大、度小满等机构提出通用文生图模型STAR。仅需2.9秒就可生成高质量图像,超越当前一众包括SDXL在内扩散模...……更多
最新美国国家人工智能科学院院士介绍
...。他在自然语言处理领域取得了显著成果,特别是在语言模型和对话系统方面。Zhu的工作使得机器能够更自然地与人类进行交互,提高了智能助手的性能和用户体验。RichardSutton,强化学习之父、阿尔伯塔大学教授。他对强化学...……更多
南洋理工大学开发3D编辑技术MVDrag3D ,只需拖拽就能实现精准P图
...繁琐而难以实现。近年来,一部分学者利用基于 3D 高斯模型的方法提高了 3D 编辑的灵活性,但仍面临着优化时间长或过度饱和的问题,并且在实现大规模结构变化方面存在不足。相比之下,得益于图像生成模型(如 GAN 和扩散...……更多
更多关于科技的资讯:
中国最讨人嫌的行业,挤满35+的中年人
作者:叶榆北数据:叶榆北 乐乐传说中,大厂转行出路有三件套:保安、保洁、保险。如果前两者是过于夸张的戏谑调侃,毕竟尊严是每个大厂毕业中年人的最后一根稻草
2025-01-27 03:15:00
27年婚姻长跑结束 比尔·盖茨自曝最后悔离婚:一生中最大遗憾
快科技1月26日消息,据媒体报道,日前,微软创始人比尔·盖茨接受采访,分享他即将出版的个人回忆录《源代码:我的开始》。他在采访中还自曝
2025-01-26 23:06:00
柯洁直播哭了 回应LG杯决赛争议:将继续维权 永不妥协!
快科技1月26日消息,今晚,中国棋手柯洁在抖音开播,回应LG杯决赛争议时一度落泪。柯洁表示,自己吃不下东西,还在继续维权
2025-01-26 23:36:00
女骑手赛道逆行被撞后续来了:公开致歉并报警
快科技1月26日消息,1月25日,广东东莞麻涌赛车场发生一起女骑手逆行被撞的事故(本站已有报道),导致两人受伤,然而后面的聊天记录一经披露
2025-01-26 23:36:00
齐鲁晚报·齐鲁壹点 李可 通讯员 殷海奎郓城农商银行为持续加大金融业务宣传力度,有效推进首季度相关工作,该行积极践行多元策略
2025-01-26 19:53:00
“保险维权专家”“代理退保法务”背后可能是“代理退保”
近年来,“代理退保”黑中介的活动猖獗,严重扰乱金融保险市场的正常运行秩序。非法中介打着“为消费者退保维权”的旗号,博取消费者的信任
2025-01-26 20:24:00
【多彩新论】文化旅游乘“数”翱翔
文化旅游遇到数字技术,会摩擦出怎样的“火花”?借助VR、AR技术,三星堆的青铜面具能“开口诉说”古蜀故事,故宫的红墙黄瓦在虚拟场景里重现昔日繁华
2025-01-26 20:34:00
北大科学家固态电池新突破:分钟级快充、循环寿命25000次
快科技1月26日消息,被认为是动力电池最终解决方案的固态电池有了新进展,近期,我国科学家在该方面取得了新的突破。北京大学的庞全全团队开发了一种新型电解质材料
2025-01-26 20:36:00
科技赋能!壹点3D超写实数字人\
齐鲁晚报·齐鲁壹点 陈朕 赵长春 张雅楠在辞旧迎新的美好时刻,备受瞩目的2025端上春晚于1月26日盛大播出。作为一年一度的文化重头戏
2025-01-26 20:58:00
新春走基层|”以旧换新“过大年
本文转自:人民网-江苏频道江楠傅军委为客户安装新空调。人民网 江楠摄“客户昨天下单,旧机已拆,抓紧安排新机装配。” 1月23日上午
2025-01-26 21:34:00
第三次这么干!雪佛兰海外推出新车型:宝骏悦也Plus换了标
快科技1月26日消息,宝骏的车换上雪佛兰的标出口的第三世界市场,并不是件稀奇的事,而且这种情况已经第三次发生了。近日,GM Authority披露了雪佛兰将在海外市场推出的全新车型“Spark”的实车图
2025-01-26 22:06:00
蔚来法务部:近期出现系列有组织大规模恶意攻击、已起诉
快科技1月26日消息,今晚,蔚来法务部发布“关于打击黑公关和网络水军的声明”,提到近期网上再次出现一系列针对蔚来公司及旗下蔚来和乐道品牌的有组织大规模恶意攻击
2025-01-26 22:36:00
宝马高管:不会配备更大更多车载屏幕、并不实用
快科技1月26日消息,近日,宝马首席开发官Frank Webber在接受采访时发表了对车载屏幕的看法。其认为宝马iDrive X的屏幕已经足够大
2025-01-26 22:36:00
最高补贴500元!手机“国补”落地滨州,引发消费热潮
齐鲁晚报·齐鲁壹点 赵旭 高艳蕊1月24日,正值岁末年初的交接之时,滨州市商务局携手四家相关部门共同揭晓了《滨州市手机
2025-01-26 20:59:00
国补上线!中国电信山东公司多重补贴来袭
近日,随着商务部等五部门联合印发的《手机、平板、智能手表(手环)购新补贴实施方案》正式落地,1月21日山东省商务厅等5部门印发了《山东省手机
2025-01-26 22:18:00