• 我的订阅
  • 头条热搜
扩散模型训练方法一直错了!谢赛宁:Representation matters
...」?他表示:「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言,表征也依然有用。基于此,他们提出了 REPA,即表征对齐技术,其能让「训练扩散 Transformer 变得比你想象的更简单。」Yann LeCun 也对他们的...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型(VLM)——PaLI-3,该模型与相似的体...……更多
微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型,实现高质量的语义分割任务
...景理解、图像分析、机器人感知和图像分割等。语义分割模型是计算机视觉领域中的一种模型,旨在将图像中的每个像素分配给特定的语义类别。与传统的图像分类模型只能给整个图像分配一个类别不同,语义分割模型能够为图...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活...……更多
谷歌在AI赛道加速
...oogle 的 AI 研究实验室Google DeepMind 发布了一项关于训练 AI 模型的新研究,Google 声称,该研究将大大提高训练速度和能效,比其他方法的性能高出 13 倍,能效高出 10 倍。随着有关 AI 数据中心对环境影响的讨论日益升温,新的 JEST...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...点在于,Llama 3.2成为羊驼家族中,首个支持多模态能力的模型。Connect大会上,新出炉的Llama 3.2包含了小型(11B)和中型(90B)两种版本的主要视觉模型。正如Meta所说,这两款模型能够直接替代,相对应的文本模型,而且在图像...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...又又动荡了,另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。目前官网上已经更新了48个视频demo,在这...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任唐杰出品|搜狐科技作者|郑松毅2024年已过半,大模型之争热度不减,通往AGI的路究竟该怎么走?近日,清华大学计算机系讲席教授、人工智能研究院基础模...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...武静静编辑|邓咏仪放弃造车后的苹果,正在加速入局大模型战争。当地时间3月15日,苹果就披露了两个关键大模型动作。其中一个值得关注的是苹果的收购事件。彭博社报道称,苹果已经收购了一家加拿大AI初创公司DarwinAI。...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...构成威胁,Arm 和台积电将获胜。”有网友说到苹果在大模型发展上的状况。也有网友认为,苹果在大模型上的发力将为其在未来的手机市场竞争中带来优势。他们认为,开源模型加上移动设备的本地数据,即本地化的原生 LLM,...……更多
MSRA:视觉生成六大技术问题
...进行了梳理,他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信...……更多
微美全息构建基于深度迁移学习的图像分类融合模型, 提高图像分类的准确性和效率
...美全息(NASDAQ:WIMI)构建基于深度迁移学习的图像分类融合模型,提高图像分类的准确性和效率深度学习在计算机视觉领域得到越来越广泛的应用,尤其是在图像分类任务上。然而,由于数据集的限制和模型的复杂性,深度学习模...……更多
国网浙江电力:世界首个电力联邦学习国际标准获批立项
...力电力行业智能化转型。联邦学习是一种分布式人工智能模型训练技术。《基于联邦学习的电力视觉检测系统要求和框架》国际标准将联邦学习技术与电力视觉检测业务相结合,构建了一套分布式模型训练方法,能够有效解决数...……更多
70倍极致压缩!大模型的检查点再多也不怕
...ICCV、ECCV等顶会上有多项代表性工作发表,在高效大语言模型、视觉模型等领域都有丰富的成果产出,和知名高校和科研机构合作广泛。大模型作为当下 AI 工业界和学术界当之无愧的「流量之王」,吸引了大批学者和企业投入资...……更多
Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
...G42和软银集团。2.能力达到奥数金牌级,DeepMind几何推理模型登上Nature,这个叫AlphaGeometry的模型在国际数学奥林匹克(IMO)的30道几何题中做出了25道,这一成就标志着AI在数学领域推理能力的史诗级升级。3.DeepMind首席科学家Lauren...……更多
Meta 公司发布 Imagine Yourself AI 模型
...可扩展性,为此 Meta 公司创新提出了“Imagine Yourself” AI 模型。传统个性化图像生成方法挑战目前的个性化图像生成方法通常依赖于为每个用户调整模型,这种方法效率低下,而且缺乏通用性。虽然较新的方法试图在不进行调整...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...、上传图像生成个性化视频。甚至Meta还放出了92页论文,模型架构、训练细节一并公开,干货满满!毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了!Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie ...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多智能体...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等...……更多
云测数据:为人工智能提供专业、高效的AI数据服务
...。随着全球新一轮AI热潮来临,大量训练数据已成为AI算法模型发展和演进的“燃料”。高质量的数据,能够为模型自身的学习、迭代,以及对推理能力的训练带来正向影响。如今,人工智能在以大模型为核心实现着更加快速的发展,并...……更多
BEV“超融合”感知部署 轻舟智航迈出量产从0到1的关键一步
...出色的 BEV感知能力,需要积累海量的已标注数据以支持模型的训练。如何找到更多高质量的数据并高效利用,是支持技术不断迭代的重要基石。轻舟智航充分利用作为高级别自动驾驶解决方案提供商在AI领域的先发优势,通过突...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层...……更多
单图解锁全景视角!北大/港中文/腾讯等推出ViewCrafter | 已开源
...甚至单张输入图像中生成任意规模场景的新视角。这需要模型对3D物理世界有全面的理解。接下来一起康康具体咋实现的。概括而言,ViewCrafter是基于点云先验的可控视角视频生成。首先,快速多视图/单视图stereo技术的发展,使...……更多
OpenAI没有放弃的机器人梦想
... :“一种可能准确但带有讽刺意味的观点是,研究语言模型比研究机器人学具有更高的投资回报率和更低的风险。”事实证明,OpenAI的确在大语言模型方面取得了更大突破。不过,OpenAI忘记机器人了吗?「甲子光年」在2023北京...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
【新智元导读】多模态大语言模型(MLLM)在医学视觉问答(VQA)领域展现出巨大潜力,通过提供针对医学图像的具体临床问题的回答,有助于提高医疗专业人员的工作效率。然而,现有医学VQA数据集规模较小且问题过于简单,...……更多
更多关于科技的资讯:
“内容重构论”引短剧行业共鸣
当“反转”“爽点”不再能轻易留住观众,微短剧行业正迎来一场深层重构。到2024年中,中国微短剧用户规模已接近7亿,市场体量超过500亿元
2025-10-29 14:01:00
鲸鸿动能亮相中国国际广告节&亚洲广告大会,全场景AI驱动增长
10月24日,第32届中国国际广告节&第34届亚洲广告大会在北京举办,鲸鸿动能受邀出席,并发表主题演讲《从孤岛到共生
2025-10-29 11:21:00
如何选择适合你的视频画质修复工具
在数字时代,视频已成为我们记录生活、创作内容和保存记忆的重要载体。然而由于拍摄设备限制、保存条件或传输压缩,我们常常面临视频模糊
2025-10-29 11:22:00
精工匠心极致服务!2025年小蓝翼杯全品类服务技术比武大赛圆满落幕
10月23日,2025年“小蓝翼”杯全品类服务技术比武大赛在TCL空调武汉智能工厂举行。其中,空调品类经过30个战区初赛
2025-10-29 11:30:00
‌2025年10月27日‌——上海联舌工坊科技有限公司今日正式于杨浦区完成注册,此举被视为其深化资本市场布局的关键一步
2025-10-29 12:37:00
三星电视荣登天猫艺术电视榜单 双十一钜惠助力消费者轻松解锁艺术家居生活
在消费焕新浪潮席卷家居领域、美学需求成为当代家庭核心诉求的当下,三星凭借对前沿科技与生活美学的深度解构与融合,始终站在全球艺术电视品类发展的潮头
2025-10-29 12:40:00
河北新闻网讯(吴建春)近日,由河北天翼科贸发展有限公司(简称“河北天翼”)为一家农业融资担保公司量身打造的在线收付款业财一体化项目
2025-10-29 13:31:00
宝宝巴士回应APP出现不良广告:严处审核负责人 研发广告强制拦截功能
华商网讯 10月29日,针对“宝宝巴士App出现不良广告”一事,宝宝巴士官方微信公众号发布致歉及整改声明。根据声明,对于近期用户关注的宝宝巴士App产品跳转不良广告一事
2025-10-29 13:40:00
米兰冬奥倒计时100天 国际奥委会携手阿里巴巴首次推出五环系列首饰
2026年米兰·科尔蒂纳冬奥会开幕倒计时100天之际,奥林匹克天猫官方旗舰店独家首发米兰冬奥会系列商品。同时,国际奥委会首次推出奥林匹克五环系列首饰
2025-10-29 13:47:00
王玉宝:于商业迷途中寻一盏不灭的心灯
鲁网10月29日讯踏入儒商研究会的大门,已是一载有余。今日静坐回望,恍然惊觉,这段旅程并非寻常的“加入一个组织”,倒更像是一场在商业迷途中的精神返乡
2025-10-29 13:51:00
2025上海国际压缩机展开幕 ,美的楼宇科技赋能工业制造绿色升级
10月28日-31日,2025上海国际压缩机及设备展览会(以下简称“上海国际压缩机展”)在上海新国际博览中心举办。作为核心参展商
2025-10-29 12:41:00
深圳首宗!医疗健康数据产品场内交易,十年临床数据为手术机器人研发注入“燃料”
经过严格匿名化处理和多轮合规审查,在严格遵守隐私保护的红线下,医疗数据也可以“活”起来,成为驱动AI技术发展的“燃料”
2025-10-29 12:38:00
为进一步推动国产雪茄高质量发展,持续提升阜阳市场“懂雪茄、会养护、善营销”的零售客户雪茄经营能力,提升服务质量,重振经营信心
2025-10-29 12:39:00
富士胶片X-SPACE迎来七周年朋友月 胶片模拟色彩配方书籍特别发布
2025年10月,富士胶片(中国)投资有限公司旗下X-SPACE富士胶片影像空间(以下简称"X-SPACE")迎来成立七周年
2025-10-29 10:59:00
河北纳科生物科技有限公司专利获雄安高价值专利大赛银奖
河北新闻网讯(钟蕾)近日,推进京津冀知识产权高质量发展暨2025・雄安高价值专利大赛颁奖活动在雄安新区举行。石家庄高新区优秀创新企业河北纳科生物科技有限公司凭借其核心专利“重组人胶原蛋白的制备和产业化应用”
2025-10-29 11:11:00