模型,图像,杨戈,数据,物体,提示头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

SAM是如何做到“分割一切”的

本文转自：科技日报又一通用模型发布SAM是如何做到“分割一切”的视觉中国供图SAM是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同，SAM可以处理所有类型的图像。相比于以往的图...……更多

2023-04-17 01:26:00模型,图像,杨戈,数据,物体,提示

幻觉不一定有害，新框架用AI的「幻觉」优化图像分割技术

...骏驰教授的指导下完成的。在人工智能领域，大型预训练模型（如 GPT 和 LLaVA）的 “幻觉” 现象常被视为一个难以克服的挑战，尤其是在执行精确任务如图像分割时。然而，最新发表于 NeurIPS 2024 的研究《Leveraging Hallucinations to R...……更多

2024-11-05 09:49:00幻觉,有害,框架,图像,技术,任务

OpenAI发布文生视频模型Sora，奥尔特曼选取网友提示词

...凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型Sora。据介绍，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。目前官网上已经更新了48个视频demo，在这...……更多

2024-02-16 18:44:00文生,奥尔,奥尔特曼,特曼,模型,提示

字节版Sora火爆24小时，同名论文再次被热议

...憋了个大的——一口气推出Seaweed和PixelDance两款豆包视频模型，支持文生/图生视频，时长可达10s。以PixelDance为例，其最大特色在于多主体交互，一致性多镜头生成。啥意思？？——直接来看几个官方demo。First kill，现在手上有这...……更多

2024-09-26 13:41:00字节,火爆,再次,小时,论文,指令

谷歌世界模型：单张图生成可玩3D世界，还要和马斯克一起做AI

昨晚，世界模型向前迈出了一大步！Google DeepMind 震撼宣布了他们的新一代世界模型 Genie 2，其可根据一张图生成可供人类或 AI 智能体游玩的无限 3D 世界。消息发布后，好评与震惊如潮水般涌现。有人被这技术进步的速度震撼，...……更多

2024-12-06 09:53:00马斯,马斯克,世界,生成,模型,生成

技术报告揭秘Sora六大核心优势，影视等行业面临颠覆

...。而这些视频全都是通过OpenAI2月15日发布的最新视频生成模型Sora制作的，用户震惊之余，也给予了Sora高度评价，将其描述为“绝无仅有”和“游戏规则改变者”。图片来源：X平台Sora采用了OpenAI文生图模型DALL-E3背后的强大技术...……更多

2024-02-17 21:07:00颠覆,核心,优势,报告,影视,行业

谷歌发布 MediaPipe Diffusion 插件

谷歌发布低成本可控文生图插件模型MediaPipeDiffusion，移动端提速20+倍，在v100上运行提速高达100倍。近年来，扩散模型在文本到图像生成方面取得了巨大的成功，实现了更高图像生成质量，提高了推理性能，也可以激发扩展创作...……更多

2023-07-13 05:54:00插件,图像,模型,生成,插件,文本

DeepMind发布Genie 2 一款可以生成可玩3D世界

...工具，可根据单个图像提示生成交互式 3D 世界。这个新模型旨在帮助训练和测试人工智能代理，允许他们使用键盘和鼠标输入与这些动态环境进行交互。根据 DeepMind 的说法，它可以在各种交互环境中训练和测试人工智能代理...……更多

2024-12-05 09:56:00生成,模型,世界,人工智能,人工,生成

OpenAI空降视频生成模型：一口气生成60s，风格画质尺寸

...被打破——OpenAI又出王炸，发布了可以生成60秒视频的AI模型Sora。OpenAI官宣Sora。同样在2月16日发布的谷歌最新多模态模型Gemini Pro 1.5，则被Sora迅速夺走了关注度。网友为Gemini和Sora制作的梗图。根据OpenAI官方发布的推文和技术报...……更多

2024-02-18 06:20:00生成,一口,空降,画质,模型,一口气

马斯克评OpenAI首个视频生成模型：人类认赌服输

OpenAI周四发布了首个视频生成模型Sora，并展示了几段效果炸裂的演示视频。一位X用户分享了Sora生成的一名女子在东京街头漫步的视频，并评论称：“OpenAI今天宣布了Sora，它使用混合扩散和变压器模型架构生成长达1分钟的视频...……更多

2024-02-16 22:16:00马斯,马斯克,生成,模型,人类,视频

deepmind研究：未知物体也能轻松识别分割

...DetCon和ReLICv2。除此之外，Odin方法不仅可以应用在ResNet模型中，还可以应用到更复杂的模型中，如SwimTransformer。在数据上，Odin框架学习的优势很明显，那在可视化的图像中，Odin的优势在何处体现了呢？将使用Odin生成的分割图...……更多

2023-01-31 13:58:00物体,研究,物体,图像,目标,网络

国泰君安证券：具身智能，人工智能的下一个浪潮

...Disembodiment），指的是认知与身体解耦（ChatGPT为代表的大模型就仅仅实现了离身智能）；“智能”代表智能体（生物或机械）通过与环境产生交互后，通过自身学习，产生对于客观世界的理解和改造能力。此外，一些通过强化学...……更多

2023-06-30 10:01:00君安,国泰,智能,人工智能,浪潮,人工

一文详解AIGC：忘记概念，只聊落地

... Face Transformers：面向自然语言处理任务的一系列数据集、模型和工具箱，包括对话生成、摘要、自动问答、翻译等。IBM Watson Assistant：用于构建虚拟助手和聊天机器人的工具，支持多种语言和平台。Google Cloud Natural Language：针对...……更多

2023-06-10 15:00:00一文,落地,概念,内容,视频,音频

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日，商汤科技发布多模态多任务通用大模型“书生（INTERN）2.5”，在多模态多任务处理能力方面实现多项全新突破，其卓越的图文跨模态开放任务处理能力可...……更多

2023-03-15 13:30:00商汤,模态,书生,模型,任务,社区

快速准确定位识别生物大分子中国团队基于人工智能研究提出新方

...DeepETPicker优选简化标签来替代真实标签，并采用更高效的模型架构、更丰富的数据增强技术和重叠分区策略来提升小训练集时模型的性能；为提高颗粒定位的速度，DeepETPicker采用图形处理器(GPU)加速的平均池化-非极大值抑制后处...……更多

2024-03-12 18:50:00大分,大分子,人工智能,中国,人工,定位

突破次元壁！新加坡国立发布GenXD：拿捏真实感3D、4D动

【新智元导读】GenXD模型结合CamVid-30K数据集突破了3D和4D场景生成的挑战，能从单张图片生成逼真的动态3D和4D场景。这一进展为虚拟世界构建带来新的可能性，让动态场景的生成更加快速和真实。在我们熟知的2D图像和视频生成...……更多

2024-11-14 09:45:00新加坡,真实感,国立,场景,突破,动态

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

今日值得关注的大模型前沿论文SwiftEdit：50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis：首个完全自主的纯视觉 GUI agentGoogle DeepMind：利用运动轨迹控制视频生成大模型数学新基...……更多

2024-12-10 09:53:00模型,语言基础,清华,定律,密度,团队

OpenAI发布首个文生视频模型Sora，网友：工作要丢了！

2024-02-16 18:20:00文生,模型,网友,工作,视频,模型

NVIDIA创始人兼首席执行官黄仁勋：生成式AI将为创作者带

...伦多大学研究团队展示了可以使用 NVIDIA GPU 训练一个 AI 模型，该模型的物体识别能力超过了之前所有计算机视觉算法。此后，开发者教会了神经网络识别图像、视频、语音、蛋白质结构、物理学等。黄仁勋表示：「人们可以学...……更多

2023-06-27 14:31:00创作者,执行官,创始人,首席,生成,创作

美女刷屏真假难辨网友：警惕ai网恋诈骗

...岗”。根据各帖子发布者透露，这些AI照片都出自同一个模型，Chilloutmix。多个模型融合进化，照片级AI诞生ChilloutMix，二月初出现在模型分享社区CivitAI（不少爱好者称之为c站）。不到两周时间，下载数量超过5万。简单来说，...……更多

2023-02-15 15:50:00网恋,真假,诈骗,网友,美女,模型

高斯混合模型在概率建模中的应用

...模方法逐渐成为实现复杂问题的关键手段之一。高斯混合模型（GaussianMixtureModel，简称GMM）作为一种经典的概率建模技术，已经被广泛地应用于数据挖掘、模式识别、图像处理等领域。本文将介绍什么是高斯混合模型，它的基本...……更多

2023-10-23 03:37:00高斯,概率,混合,模型,应用,高斯

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型（VLM）——PaLI-3，该模型与相似的体...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

你真的知道“渲染引擎”吗？一文看懂

...染、创造逼真视觉效果的关键组件，负责将二维或三维的模型、纹理、光照等数据，转化为人们肉眼可见的二维图像。渲染引擎的工作原理基于计算机图形学和视觉感知理论。它首先接收来自应用程序的几何数据（如顶点坐标/...……更多

2024-06-28 13:06:00一文,引擎,引擎,图像,二维,纹理

AI视觉迎GPT-3时刻！国内市场规模将达6000亿受益上

AI视觉领域迎来新模型“炸场”，图像识别门槛大幅降低。据财联社报道，Meta上周三发布了一个人工智能模型，可以从图像中挑选出单个对象，以及一个图像注释数据集。该模型名为Segment Anything Model（SAM），Meta官方表示这是有...……更多

2023-04-17 10:44:00上市公司,视觉,时刻,规模,市场,公司

刚炮轰完GPT模式杨立昆推出首个“世界模型”

...道，今日凌晨，Meta宣布推出首个“类人（human-like）”AI模型I-JEPA。这是第一个基于Meta首席AI科学家杨立昆（Yann LeCun）愿景关键组成部分的AI模型，据称能比现有模型更准确地分析和完成未完成的图像。在上周举办的背景智源大...……更多

2023-06-14 18:02:00模型,模式,世界,模型,学习,上下文

昆仑万维SkyReels团队正式发布并开源SkyReels-

...个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型，其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来……更多

2025-04-21 13:53:00万维,昆仑,团队,生成,视频,模型