• 我的订阅
  • 头条热搜
ai绘画侵权实锤,扩散模型可能记住你的照片
...绘画侵权,实锤了!最新研究表明,扩散模型会牢牢记住训练集中的样本,并在生成时“依葫芦画瓢”。也就是说,像StableDiffusion生成的AI画作里,每一笔背后都可能隐藏着一次侵权事件。不仅如此,经过研究对比,扩散模型从...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...倍的模型相比具有显著竞争力。研究人员使用分类目标预训练的视觉变换器(ViT)模型与对比性预训练的模型(SigLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP 的 PaLI 在各种多模态基...……更多
微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型,实现高质量的语义分割任务
...。然而,由于语义分割任务的复杂性和数据的不足,单独训练一个语义分割模型可能会面临一些挑战,例如模型过拟合、模型泛化能力不足等。为了解决这些问题,微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型中。迁移学...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...因为黑客可能会未经授权地利用图像-文本数据进行模型训练,其中可能包括个人和隐私敏感信息。最近的工作提出通过向训练图像添加难以察觉的扰动来生成不可学习样本(Unlearnable Examples),可以建立带有保护的捷径.然而,...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...上做出大突破。与DALL・E一样,两点依旧是CLIP模型,除了训练数据庞大,CLIP基于Transformer对图像块建模,并采用对比学习训练,最终帮助DALL・E2取得了不错的生成效果。下图是DALL・E2根据“一只戴着贝雷帽、穿黑色高领毛衣的柴...……更多
微美全息构建基于深度迁移学习的图像分类融合模型, 提高图像分类的准确性和效率
...,构建了图像分类融合模型,通过利用在大规模数据集上训练的模型的特征表示来提升小样本数据集上的分类性能。深度迁移学习可将已经在大规模数据集上训练好的深度学习模型应用于新的任务中。在图像分类中,深度迁移学...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...理的全新模型架构。具体来说,为了支持图像输入,Meta 训练了一组适应器权重(adapter weight),其可将预训练的图像编码器集成到预训练的语言模型中。该适应器由一系列交叉注意层组成,这些层的作用是将图像编码器表征馈...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...ohnSchulman在接受科技播客主持人DwarkeshPatel采访时透露,后训练是提高模型性能的关键因素。GPT-4o的识图能力有多牛?四大维度深度体验基于图片类型,记者将识图功能的测评分为4大维度,分别为普通图像、特定专业领域的图像...……更多
字节版Sora火爆24小时,同名论文再次被热议
...与文本指令进行视频生成,并有效利用公开视频数据进行训练。首先,团队采用广泛使用的2D UNet作为扩散模型,该模型由一系列空间下采样层和一系列空间上采样层构建,并插入了跳跃连接。具体来说,它由两个基本模块构建...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代,一般...……更多
美国东北大学提出视频数据增强方法,能让视频模型学到更好的表征
...增强方法由于其缓解过拟合的特性,而被广泛使用在模型训练过程中,例如图像的旋转、缩放、颜色的改变等等。然而,美国东北大学三年级博士生张一天和所在团队发现作为图像色彩的一个重要属性,色调(Hue)的变化却在现...……更多
从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷
...的数据收集,实现一条通过由生成模型加持的物理仿真来训练机器人视觉的技术路线。随着机器人在训练过程中持续进化,进一步提升技能所需的数据也在增长。因此获取足够的数据对于提升机器人的性能至关重要,但在当前实...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...11B和90B型打造了一个全新的模型架构。在图像输入方面,训练了一组适配器权重,将预训练的图像编码器集成到预训练的大语言模型中。具体来说,该适配器:由一系列交叉注意力层组成,负责将图像编码器的表示输入进大语言...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...新步伐基于腾讯混元的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力。同时,各大模型研发团队均可基于腾讯混元模型进行研究与创新,加速...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...处于混乱状态,开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异,性能优异的闭源多模态大模型也没有公布相关信息,无法直接进行模型对比和研究。并且,不同模型在处理高分辨率图像输入时的设计(如动态...……更多
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
...人工智能实验室 (SVAIL) 系统团队。他们探讨了深度学习中训练集大小、计算规模和模型精度之间的关系,并且通过大规模实证研究揭示了深度学习泛化误差和模型大小的缩放规律,还在图像和音频上进行了测试。只不过他们使用...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...模拟视觉相似物体和小物体,并且通过在较长的帧序列上训练模型并对「空间」和「物体指向记忆」(object pointer memory)的位置编码进行一些调整,提高了SAM 2的遮挡处理能力(occlusion handling capability)。研究人员还开源了SAM 2开...……更多
谷歌在AI赛道加速
...消息,Google 的 AI 研究实验室Google DeepMind 发布了一项关于训练 AI 模型的新研究,Google 声称,该研究将大大提高训练速度和能效,比其他方法的性能高出 13 倍,能效高出 10 倍。随着有关 AI 数据中心对环境影响的讨论日益升温,...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
...破了 200+ stars!值得注意的是, LLM2CLIP 可以让完全用英文训练的 CLIP 模型,在中文检索任务中超越中文 CLIP。此外,LLM2CLIP 也能够在多模态大模型(如 LLaVA)的训练中显著提升复杂视觉推理的表现。代码与模型均已公开,欢迎访...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...提示LLM生成能解释答案的「原理」(rationale),以便用于训练模型,起到类似于CoT的作用。整个构建过程的流水线如下图所示:这种「以代码为中心」的方式不仅更容易保证图像的细节、质量和多样性,也让LLM更容易生成相关文...……更多
苹果300亿参数大模型首亮相,还买了家AI公司|焦点分析
...s & Insights from Multimodal LLM Pre-training》(MM1: 多模式LLM预训练的方法、分析和见解)中可以看到,MM1是一个图文的多模态大模型,参数规模有30亿、70亿、300亿三种大小,有图像识别和自然语言推理能力。其中,参与该论文的作...……更多
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K
...化学习智能体,在一个由扩散模型构建的虚拟世界中进行训练,能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中,DIAMOND的平均得分超越了人类玩家,证明了其在模拟复杂环境中处理细节和进行决策的能力。环境生成...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2.5D:无需训练的「图生视频」目标控制方法Moxin-7B:一个完全开源的大语言模型微软研究院:创建多用途、高质量 3D 资产智源推出视觉条件多视角扩散模型Turbo3D:超快速文本到 3D 生...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...进行联合建模的大语言模型组成。输入将图像输入经过预训练的视觉编码器 CLIP-ViT-L/14 ,以提取图像嵌入 Z ∈ R H×W×C。对于文本输入,使用经过预训练的大模型标记器对文本序列进行标记,并将其投射至文本嵌入 T ∈ R L×D 当中...……更多
google发布imagen3图像生成技术
...rtexAI的开发人员和企业客户。Google通常不会透露太多用于训练人工智能模型的数据来源,这次也不例外。这是有原因的。大部分训练数据来自网络上的公共网站、资源库和数据集。而其中的一些训练数据,特别是未经内容创作者...……更多
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...机系获得博士学位,在加速推理、可控生成、基础架构、训练策略等方面已发表十余篇顶会论文。首席科学家为清华大学计算机系人工智能实验室主任、智源研究院首席科学家朱军。可以说,2023年是国内大语言模型狂飙的元年...……更多
较传统采标方法降本80%,合成数据服务商「卓印智能」获天使轮融资 | 36氪首发
...之前耗尽所有“高质量数据”。AI模型需要大量高质量的训练数据,才能生成准确、多样、无偏见的输出,但获取这种数据的成本和难度都很高——因此,合成数据成为一个有效解决手段。现在,包括微软、OpenAI、Cohere在内的公...……更多
DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代
... DeepSeek-VL2 亮点如下:数据:比一代 DeepSeek-VL 多一倍优质训练数据,引入梗图理解、视觉定位、视觉故事生成等新能力架构:视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能训练:继承 DeepSeek-VL ...……更多
多个中国团队斩获EMNLP\'24最佳论文!UCLA华人学者中三篇杰出论文
...了一个新的数据集和方法,用于检测给定文本是否为LLM预训练数据的一部分,有助于提高LLM训练数据透明度。EMNLP’24今年收录论文总共2978篇,比去年增长5%,其中2455篇主会议论文,523篇workshop论文。除最佳论文外,杰出论文也...……更多
更多关于科技的资讯:
企业选型终极指南:基于预算与行业,中国GEO服务商推荐(附TOP10指标对比)
在AI重构流量分配规则的2025年,生成式AI搜索优化(GEO)已成为企业不可或缺的战略投入。然而,面对市场上众多的GEO服务商
2025-10-31 11:00:00
增压好的热水器推荐:万和多款热水器待你选择
在城镇化加速与高层住宅普及的当下,老旧小区管道老化、高层建筑水压衰减等问题愈发突出,不少家庭正遭受 “细流澡”“忽冷忽热” 的沐浴困扰
2025-10-30 08:16:00
创新,是让世界重新认识中国制造
“创新”,这个词我们每天都在说。要让世界记住中国制造的创新,一定是要让人们能看得见、记得住、感受到。我给大家分享几个小故事
2025-10-30 08:35:00
河北日报讯(记者孙青)为激发青年创业活力,点燃青年创业梦想,日前,团石家庄市委正式启动“青年创业训练营——青年小店孵化计划”
2025-10-30 08:36:00
当故宫的红墙金瓦凝缩成书签的精致纹路,当敦煌的飞天壁画跃然咖啡杯的杯身,博物馆中的千年文明正通过文创产品打开新的传承通道
2025-10-30 08:44:00
校宝智慧校园发布招生智能化解决方案,为民办教育注入增长新动能
2025年10月29日,校宝智慧校园正式推出面向民办、国际化学校的招生智能化解决方案,包含流量获取、线索转化、组织建设与数据决策四大核心板块
2025-10-30 09:10:00
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话
近日,Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。该模型是一款专为多人
2025-10-30 09:10:00
服务效能持续提升 中老年多元化保障需求凸显近日,中宏保险正式发布了《2025年第三季度中宏保险个险理赔服务报告》(以下简称"报告")
2025-10-30 09:10:00
AI+人工双核验:深瞳查重如何以精准核查守护科研诚信
在科研诚信日益重要的今天,图片查重已成为维护科研诚信的关键环节手段。作为国内首家推出图片查重服务的深瞳查重,深瞳查重始终将结果的准确性和可靠性放在首位
2025-10-30 09:10:00
德明利亮相安博会,推出面向智能安防的多维度存储解决方案
10月28日,深圳CPSE安博会在福田会展中心顺利开幕,展会聚焦AI与大数据的智能安防创新。德明利携工业级存储产品及多维矩阵方案亮相
2025-10-30 09:10:00
碧欧宝亮相2025德国品牌周,于外滩百年地标演绎德式健康美学
2025年10月23日,由德国工商总会主办的“Discover Germany 德国品牌周”在外滩百年地标老市府隆重启幕
2025-10-30 10:10:00
留学常用APP与交友软件推荐:学习、生活、社交一站式搞定
即将远赴海外求学,除了收拾行囊,在手机里提前装好实用的留学APP,也成了许多准留学生的必备功课。面对应用商店里海量的留学常用APP选择
2025-10-30 10:56:00
工商银行联合腾讯云发布《中国金融生成式AI多模态内容鉴伪与安全防御白皮书(2025)》
随着生成式人工智能浪潮全面兴起,金融行业在加速迈向“AI原生”时代的同时,也面临多模态深度伪造内容带来的新型安全挑战。利用生成式AI合成的语音
2025-10-30 12:08:00
片仔癀黄芩多肽洗护新品亮相漳州,以东方智慧开启舒缓新“净”界
10月23日,东方新国妆代表品牌——片仔癀化妆品,在品牌发源地漳州隆重举办黄芩多肽系列新品发布会。活动以“亮剑·向新而生”为主题
2025-10-30 12:11:00
灵芝孢子油三大品牌 2025年权威推荐与选购指南
灵芝孢子油作为养生市场的明星产品,其品质差异直接影响消费者体验。本文基于实测数据与行业深度调研,为您梳理灵芝孢子油三大品牌
2025-10-30 12:11:00