训练,数据,数据,训练,模型,图像头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...绘画侵权，实锤了！最新研究表明，扩散模型会牢牢记住训练集中的样本，并在生成时“依葫芦画瓢”。也就是说，像StableDiffusion生成的AI画作里，每一笔背后都可能隐藏着一次侵权事件。不仅如此，经过研究对比，扩散模型从...……更多

2023-02-03 22:00:00绘画,侵权,模型,照片,模型,训练

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...倍的模型相比具有显著竞争力。研究人员使用分类目标预训练的视觉变换器（ViT）模型与对比性预训练的模型（SigLIP）进行了比较，结果发现，PaLI-3 虽然在标准图像分类基准上略微表现不佳，但基于 SigLIP 的 PaLI 在各种多模态基...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

微美全息（NASDAQ:WIMI)将迁移学习引入到语义分割模

...。然而，由于语义分割任务的复杂性和数据的不足，单独训练一个语义分割模型可能会面临一些挑战，例如模型过拟合、模型泛化能力不足等。为了解决这些问题，微美全息（NASDAQ:WIMI)将迁移学习引入到语义分割模型中。迁移学...……更多

2023-11-15 01:02:00语义,全息,高质量,模型,任务,学习

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...因为黑客可能会未经授权地利用图像-文本数据进行模型训练，其中可能包括个人和隐私敏感信息。最近的工作提出通过向训练图像添加难以察觉的扰动来生成不可学习样本（Unlearnable Examples），可以建立带有保护的捷径.然而，...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

1890美元，就能从头训练一个还不错的12亿参数扩散模型

只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...上做出大突破。与DALL・E一样，两点依旧是CLIP模型，除了训练数据庞大，CLIP基于Transformer对图像块建模，并采用对比学习训练，最终帮助DALL・E2取得了不错的生成效果。下图是DALL・E2根据“一只戴着贝雷帽、穿黑色高领毛衣的柴...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

微美全息构建基于深度迁移学习的图像分类融合模型, 提高图像分

...，构建了图像分类融合模型，通过利用在大规模数据集上训练的模型的特征表示来提升小样本数据集上的分类性能。深度迁移学习可将已经在大规模数据集上训练好的深度学习模型应用于新的任务中。在图像分类中，深度迁移学...……更多

2023-10-23 16:02:00图像,分类,全息,深度,模型,准确性

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上

...理的全新模型架构。具体来说，为了支持图像输入，Meta 训练了一组适应器权重（adapter weight），其可将预训练的图像编码器集成到预训练的语言模型中。该适应器由一系列交叉注意层组成，这些层的作用是将图像编码器表征馈...……更多

2024-09-27 13:42:00推理,可在,图像,运行,版本,支持

GPT-4o的识图能力有多牛？四大维度深度体验

...ohnSchulman在接受科技播客主持人DwarkeshPatel采访时透露，后训练是提高模型性能的关键因素。GPT-4o的识图能力有多牛？四大维度深度体验基于图片类型，记者将识图功能的测评分为4大维度，分别为普通图像、特定专业领域的图像...……更多

2024-05-19 14:21:00维度,深度,能力,体验,模型,训练

字节版Sora火爆24小时，同名论文再次被热议

...与文本指令进行视频生成，并有效利用公开视频数据进行训练。首先，团队采用广泛使用的2D UNet作为扩散模型，该模型由一系列空间下采样层和一系列空间上采样层构建，并插入了跳跃连接。具体来说，它由两个基本模块构建...……更多

2024-09-26 13:41:00字节,火爆,再次,小时,论文,指令

比Stable Diffusion便宜118倍！1890美元

...员，利用延迟掩蔽、MoE、分层扩展等策略，将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱？之前最便宜的方法（Wuerstchen）用了28400美元，而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代，一般...……更多

2024-08-13 09:42:00文生,高质量,模型,参数,模型,训练

美国东北大学提出视频数据增强方法，能让视频模型学到更好的表征

...增强方法由于其缓解过拟合的特性，而被广泛使用在模型训练过程中，例如图像的旋转、缩放、颜色的改变等等。然而，美国东北大学三年级博士生张一天和所在团队发现作为图像色彩的一个重要属性，色调（Hue）的变化却在现...……更多

2024-05-07 10:12:00东北大学,视频,美国,模型,方法,数据

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，能跑酷

...的数据收集，实现一条通过由生成模型加持的物理仿真来训练机器人视觉的技术路线。随着机器人在训练过程中持续进化，进一步提升技能所需的数据也在增长。因此获取足够的数据对于提升机器人的性能至关重要，但在当前实...……更多

2024-11-19 09:50:00从未,现实,机器,训练,环境,数据

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

...11B和90B型打造了一个全新的模型架构。在图像输入方面，训练了一组适配器权重，将预训练的图像编码器集成到预训练的大语言模型中。具体来说，该适配器：由一系列交叉注意力层组成，负责将图像编码器的表示输入进大语言...……更多

2024-09-27 13:39:00模态,宝宝,模型,图像,训练,文本

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

...新步伐基于腾讯混元的开源模型，开发者及企业无需从头训练，即可直接用于推理，并可基于腾讯混元系列打造专属应用及服务，能够节约大量人力及算力。同时，各大模型研发团队均可基于腾讯混元模型进行研究与创新，加速...……更多

2024-12-04 09:48:00文生,腾讯,模型,参数,社区,视频

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

...处于混乱状态，开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异，性能优异的闭源多模态大模型也没有公布相关信息，无法直接进行模型对比和研究。并且，不同模型在处理高分辨率图像输入时的设计（如动态...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

Scaling Law百度最早提出！OpenAI/Claud

...人工智能实验室 (SVAIL) 系统团队。他们探讨了深度学习中训练集大小、计算规模和模型精度之间的关系，并且通过大规模实证研究揭示了深度学习泛化误差和模型大小的缩放规律，还在图像和音频上进行了测试。只不过他们使用...……更多

2024-11-28 09:57:00模型,训练,数据,大小,研究,误差

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表

...模拟视觉相似物体和小物体，并且通过在较长的帧序列上训练模型并对「空间」和「物体指向记忆」（object pointer memory）的位置编码进行一些调整，提高了SAM 2的遮挡处理能力（occlusion handling capability）。研究人员还开源了SAM 2开...……更多

2024-11-28 12:02:00一文,大礼包,大礼,安全性,语音,图像

谷歌在AI赛道加速

...消息，Google 的 AI 研究实验室Google DeepMind 发布了一项关于训练 AI 模型的新研究，Google 声称，该研究将大大提高训练速度和能效，比其他方法的性能高出 13 倍，能效高出 10 倍。随着有关 AI 数据中心对环境影响的讨论日益升温，...……更多

2024-07-11 09:47:00赛道,训练,方法,数据,模型,学习

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文

...破了 200+ stars！值得注意的是， LLM2CLIP 可以让完全用英文训练的 CLIP 模型，在中文检索任务中超越中文 CLIP。此外，LLM2CLIP 也能够在多模态大模型（如 LLaVA）的训练中显著提升复杂视觉推理的表现。代码与模型均已公开，欢迎访...……更多

2024-11-28 09:59:00模态,教会,文本,升级,数据,模态

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...提示LLM生成能解释答案的「原理」（rationale），以便用于训练模型，起到类似于CoT的作用。整个构建过程的流水线如下图所示：这种「以代码为中心」的方式不仅更容易保证图像的细节、质量和多样性，也让LLM更容易生成相关文...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

苹果300亿参数大模型首亮相，还买了家AI公司｜焦点分析

...s & Insights from Multimodal LLM Pre-training》（MM1: 多模式LLM预训练的方法、分析和见解）中可以看到，MM1是一个图文的多模态大模型，参数规模有30亿、70亿、300亿三种大小，有图像识别和自然语言推理能力。其中，参与该论文的作...……更多

2024-03-16 18:14:00模型,苹果,参数,焦点,分析,公司