• 我的订阅
  • 头条热搜
metareality推出sapiensai视觉模型
...24日消息,MetaReality实验室最新推出了名为Sapiens的AI视觉模型,适用于二维姿势预估、身体部位分割、深度估计和表面法线预测4种以人为中心的基本视觉任务。这些模型的参数数量各不相同,从3亿到20亿不等。它们采用视觉转换...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
... 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。 据阿里云官方介绍,相比上代模型,...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型(VLM)——PaLI-3,该模型与相似的体...……更多
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日,智源推出了新的扩散模型架构 OmniGen,一种新的...……更多
Pokémon Go开发地理空间大模型,AR眼镜的高精地图?
...布了新一代AR眼镜——RokidGlasses,通过摄像头、多模态大模型以及(玻璃衍射)光波导等技术,在一定程度上让AR眼镜实现了对真实世界的感知与理解,以及对用户的协同与展现。然而就当下来说,AI或者说视觉大模型对真实世界...……更多
微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型,实现高质量的语义分割任务
...景理解、图像分析、机器人感知和图像分割等。语义分割模型是计算机视觉领域中的一种模型,旨在将图像中的每个像素分配给特定的语义类别。与传统的图像分类模型只能给整个图像分配一个类别不同,语义分割模型能够为图...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
MSRA:视觉生成六大技术问题
...进行了梳理,他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群,——还...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图...……更多
ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型
...自新加坡南洋理工大学 S-Lab 团队提出结构化隐空间扩散模型(Structured Latent Diffusion Model)的三维数字人生成新范式 StructLDM。该范式包括三个关键设计:结构化的高维人体表征、结构化的自动解码器以及结构化的隐空间扩散模型...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...又又动荡了,另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
你真的知道“渲染引擎”吗?一文看懂
...染、创造逼真视觉效果的关键组件,负责将二维或三维的模型、纹理、光照等数据,转化为人们肉眼可见的二维图像。渲染引擎的工作原理基于计算机图形学和视觉感知理论。它首先接收来自应用程序的几何数据(如顶点坐标/...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场的自家...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...点在于,Llama 3.2成为羊驼家族中,首个支持多模态能力的模型。Connect大会上,新出炉的Llama 3.2包含了小型(11B)和中型(90B)两种版本的主要视觉模型。正如Meta所说,这两款模型能够直接替代,相对应的文本模型,而且在图像...……更多
微美全息构建基于深度迁移学习的图像分类融合模型, 提高图像分类的准确性和效率
...美全息(NASDAQ:WIMI)构建基于深度迁移学习的图像分类融合模型,提高图像分类的准确性和效率深度学习在计算机视觉领域得到越来越广泛的应用,尤其是在图像分类任务上。然而,由于数据集的限制和模型的复杂性,深度学习模...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型。比如驴,正是有了这样的世界模型,它们才能找到更省力的负重登山方法。近日,LeCun 团队发布了他们在世界...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自...……更多
...,并基于该标注数据提取不同颜色空间的特征训练决策树模型。为了保证结果的鲁棒性,作者使用5张不同情况下的图像,包括晴天、阴影、光反射、雨天等,从图像中选取135000个像素进行训练,经过消除噪声等步骤后生成的掩...……更多
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
...【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
STAR团队 投稿自 凹非寺量子位 | 公众号 QbitAI超越扩散模型!自回归范式在图像生成领域再次被验证——中科大、哈工大、度小满等机构提出通用文生图模型STAR。仅需2.9秒就可生成高质量图像,超越当前一众包括SDXL在内扩散模...……更多
最新美国国家人工智能科学院院士介绍
...。他在自然语言处理领域取得了显著成果,特别是在语言模型和对话系统方面。Zhu的工作使得机器能够更自然地与人类进行交互,提高了智能助手的性能和用户体验。RichardSutton,强化学习之父、阿尔伯塔大学教授。他对强化学...……更多
南洋理工大学开发3D编辑技术MVDrag3D ,只需拖拽就能实现精准P图
...繁琐而难以实现。近年来,一部分学者利用基于 3D 高斯模型的方法提高了 3D 编辑的灵活性,但仍面临着优化时间长或过度饱和的问题,并且在实现大规模结构变化方面存在不足。相比之下,得益于图像生成模型(如 GAN 和扩散...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的...……更多
苹果发布新型开源人工智能模型:可根据自然语言指令编辑图像
...。苹果公司近日发布了名为“MGIE”的新型开源人工智能模型,它可以根据自然语言指令编辑图像。图源:VentureBeat与Midjourney合作制作MGIE的全称是MLLM-GuidedImageEditing,利用多模态大型语言模型(MLLM)解释用户指令并执行像素级操...……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...作为智谱清言打造的视频创作智能体,清影依托于智谱大模型团队自研打造的视频生成大模型CogVideoX,现已支持文生视频、图生视频多个能力,让用户“自助式”地完成艺术视频创作,首发测试期间,所有用户均可免费使用。同...……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
ChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta...……更多
更多关于科技的资讯:
植物也有定制光照?三思照明的面板植物灯给的!
热爱绿植,以及了解种植行业的人都知道光对植物生长有多重要,然而自然光照并不稳定。小编发现,专注LED照明技术31年的三思照明
2025-01-03 16:45:00
三思照明夹子植物灯VS普通植物灯:技术大比拼!
养植物最怕光照不足,尤其是雨季和阴天,植物容易生长迟缓,叶片发黄,甚至不开花。因此,选择一盏照度高、光线均匀、耐用的植物灯相当重要
2025-01-03 16:45:00
山东移动潍坊分公司高效做好金融客户年终决算网络保障
鲁网1月3日讯年终决算期间,金融行业业务高度集中,对网络稳定性有着极高要求。为保障金融客户年终决算顺利进行,山东移动潍坊分公司(以下简称“潍坊移动”)勇担重任
2025-01-03 16:45:00
2025德阳市火锅产业协会暨广汉市火锅产业协会年会举行
本文转自:人民网-四川频道为优秀企业授信。主办方供图为促进火锅产业健康高质量发展,同时为火锅产业链上的各类企业、从业者提供交流平台
2025-01-03 16:48:00
新国补承接“先手” 山东苏宁易购全力加码消费品以旧换新
国家发改委1月3日指出,2025年要加力扩围实施“两新”政策,设备更新国家补贴将扩大范围,对个人消费者购买手机、平板、智能手表手环等3类数码产品给予补贴
2025-01-03 16:50:00
技术革新是王道:三思照明盆夹植物灯VS普通植物灯
小编接到众多植物种植爱好者反映,家里用的植物灯存在亮度不足,补光效果差,以及使用寿命有限等问题。针对这些问题,三思照明的盆夹植物灯凭借其独立的陶瓷技术
2025-01-03 17:00:00
都是全光谱,为什么三思照明的光谱配比技术能让植物长更好?
光照无疑是植物健康成长的关键要素之一。植物没有了光照,就像鱼儿没有了水。科技的飞速发展为植物照明带来了革命性的突破。专注LED照明技术31年的三思照明
2025-01-03 17:00:00
2025年01月03日环洋市场咨询机构出版了一份详细的、综合性的调研分析报告【全球微藻护肤品行业总体规模、主要厂商及IPO上市调研报告
2025-01-03 13:23:00
2024年,上海农商银行全面推进养老金融工作。截至12月末,该行已在全市建成55家养老服务网点,打造“六专”服务体系,结合老年客群需求
2025-01-03 13:56:00
美年健康响应上海发展医学人工智能方案,打造AI+医疗创新示范高地
在近日举行的第四届中国医学信息学学科发展大会上,与会专家表示,数智赋能医疗卫生事业高质量发展,大数据、人工智能等新兴技术正在重塑传统的医药卫生模式
2025-01-03 14:18:00
本文转自:人民网-观点频道韩 鑫数字化时代,算法的诞生是为了提高效率。由于算法参与决策过程,因此算法不仅仅是个技术问题
2025-01-03 14:31:00
先知教育凭借前瞻性与全方位服务,接连斩获两大年度教育奖项
“教育强国建设是一项复杂的系统工程,必须坚持系统观念,把握好全局和局部、当前和长远、宏观和微观、主要矛盾和次要矛盾、特殊和一般的关系
2025-01-03 14:38:00
日前,国家市场监督管理总局官网公布了7起网络不正当竞争典型案例,其中包括深圳市珍爱网信息技术有限公司(以下简称珍爱网)虚假宣传案
2025-01-03 14:42:00
重大突破!优刻得×脑虎科技脑机接口临床试验取得新进展
在全球医疗科技的前沿,优刻得携手战略合作伙伴上海脑虎科技有限公司(简称“脑虎科技”),共同见证了医疗创新的历史性时刻。脑虎科技自主研发的256导高通量植入式柔性脑机接口技术
2025-01-03 14:45:00
京东物流开通中国深圳=泰国曼谷国际航线,助力两国商品双向奔赴
北京时间1月3日10时,满载跨境电商货物的京东航空全货机从深圳机场起飞,并于当日12点20分落地位于泰国曼谷的素万那普机场
2025-01-03 15:06:00