生成,视觉,问题,技术,模型,图像头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

MSRA：视觉生成六大技术问题

文生图、文生视频，视觉生成赛道火热，但仍存在亟需解决的问题。微软亚洲研究院研究员古纾旸对此进行了梳理，他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布，然而，目标数据分布过于复杂，...……更多

2024-07-15 09:34:00生成,视觉,问题,技术,模型,图像

OpenAI发布文生视频模型Sora，奥尔特曼选取网友提示词

...能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。一位时髦女士漫步在东京街头，周围是温暖闪烁的霓虹灯和动感的...……更多

2024-02-16 18:44:00文生,奥尔,奥尔特曼,特曼,模型,提示

Sora再度颠覆AI视频行业，A股哪些公司有相关布局？

...模型Sora因其“逼真”和“富有想象力”被广泛赞誉，其生成视频可达60秒也颠覆了传统视频生成领域平均只有4秒的视频生成长度。OpenAI官网介绍，Sora是一种扩散模型，它从看起来像静态噪声的视频开始生成视频，然后通过多个...……更多

2024-02-19 08:10:00颠覆,布局,行业,视频,公司,模型

最新美国国家人工智能科学院院士介绍

...言处理技术的实际应用具有重要意义，为智能问答、文本生成和机器翻译等任务提供了更好的解决方案。LucasBeyer，来自谷歌人工智能实验室。他在计算机视觉领域取得了重大突破，特别是在图像识别和物体检测方面，为谷歌的...……更多

2024-03-24 08:39:00人工智能,美国,院士,科学院,人工,智能

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

...的能力，可根据用户提出的文本创作需求，利用扩散模型生成算法，生成高质量、自然的写实图像。例如借助“书生2.5”的以文生图能力帮助自动驾驶技术研发，通过生成各类真实的道路交通场景，如繁忙的城市街道、雨天拥挤...……更多

2023-03-15 13:30:00商汤,模态,书生,模型,任务,社区

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...也不容易，因为我们需要的是多模态数据，但LLM无法直接生成图像，DALL-E、Stable Diffusion等图像生成模型又无法同步生成文本。一个直觉的解决方案是将二者结合在一起，直接生成但文生图模型实际上很难对图像细节做到细微精...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

南洋理工大学开发3D编辑技术MVDrag3D ，只需拖拽就能

...构，使得复杂的结构编辑（如明显的拓扑变化或新纹理的生成）非常繁琐而难以实现。近年来，一部分学者利用基于 3D 高斯模型的方法提高了 3D 编辑的灵活性，但仍面临着优化时间长或过度饱和的问题，并且在实现大规模结构...……更多

2024-10-25 09:50:00南洋,理工大学,理工,只需,开发,大学

苹果300亿参数大模型首亮相，还买了家AI公司｜焦点分析

...谨慎，他觉得苹果工作模式是先做再说，“我认为苹果在生成式人工智能和人工智能方面存在着巨大的机会，而无需透露更多细节或超出自己的范围。”据The Information2023年9月的一次报道，苹果每天在人工智能上投资数百万美元...……更多

2024-03-16 18:14:00模型,苹果,参数,焦点,分析,公司

下载次数破39万！CMU、Meta联合发布VQAScore文

...导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法；GenAI-Bench是一个包含复杂文本提示的基准测试集，用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能，还能...……更多

2024-11-07 09:53:00文生,次数,联合,方案,模型,文生

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖

...型和大模型对齐。OpenAI 最近发布的 o1 模型在数学、代码生成和长程规划等复杂任务上取得了突破性进展，据业内人士分析披露，其关键技术在于基于强化学习的搜索与学习机制。通过迭代式的自举过程，o1 基于现有大语言模型...……更多

2024-10-26 09:48:00算法,奖励,理念,问题,技术,模型

Meta 公司发布 Imagine Yourself AI

...家 8 月 23 日消息，从社交媒体到虚拟现实，个性化图像生成因其在各种应用中的潜力而日益受到关注。传统方法通常需要针对每位用户进行大量调整，从而限制了效率和可扩展性，为此 Meta 公司创新提出了“Imagine Yourself” AI 模...……更多

2024-08-24 09:44:00模型,公司,模型,生成,图像,身份

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

大型语言模型（LLM）的出现统一了语言生成任务，并彻底改变了人机交互。然而，在图像生成领域，能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日，智源推出了新的扩散模型架构 OmniGen，一种新的...……更多

2024-10-30 09:53:00易用,架构,生成,模型,图像,高度

Meta推出AI新模型VFusion3D，微美全息布局AIG

...，Meta（META.US）和牛津大学的研究人员开发了一种新的3D生成式AI模型VFusion3D，能够从单张图像或文本描述生成高质量的3D对象，可能会改变虚拟现实、游戏和数字设计等领域。AI新模型VFusion3D来袭据悉，VFusion3D界面简单直观，允...……更多

2024-08-21 13:55:00全息,布局,模型,升级,产业,内容

Bengio团队提出多模态新基准，直指Claude 3.5和

...阅读原文即可直达，包含评用于模型评测和预训练的数据生成代码） Hugging Face 链接：huggingface.co/vcr-org VCR 数据集简介为了开发 VCR 任务，研究人员构建了一个由图像 - 文字生成 VCR 合成图像的流程。在该流程中可以通过控制遮...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

...像。与大型语言模型（LLMs）相比，大语言模型在处理和生成文本数据方面有专长，而多模态大模型能够处理非文本数据，如图像等等。根据多模态权威综合评测平台OpenCompass的数据，Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综...……更多

2024-09-20 13:35:00模态,阿里,模型,能力,升级,国际

快手可灵大模型开放视频续写功能可生成最长约3分钟视频

本文转自：中国新闻网快手的视频生成大模型“可灵”自面世以来，以其惊艳效果引发了国内外的广泛关注。 6月21日，可灵再度进化，正式推出图生视频功能，支持用任意静态图像生成5s视频，并且可搭配不同的文本内容，实...……更多

2024-06-24 19:53:00可生,快手,视频,模型,开放,功能

让人工智能模型训练提速10倍以上

...明团队发布了一项国际联合研究成果MDT，与人工智能文字生成视频大模型Sora核心组件DiT相比，训练速度提升10倍以上，再次刷新SoTA最佳图像生成质量和学习速度。近日，相关成果公布于预印本服务器arXiv。2024年初，美国OpenAI公...……更多

2024-04-03 07:20:00人工智能,提速,人工,模型,训练,智能

OpenAI推出生成式模型Sora，内容创作领域开启新纪元

...们生活的方方面面。而就在2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。据了解，通过文本指令，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。这意...……更多

2024-02-18 23:32:00新纪元,生成,模型,创作,领域,内容

Adobe推视频生成大杀器！最长生成5秒视频，一键重拍成为现

...消息，10月14日，Adobe在Adobe MAX大会上宣布推出Firefly视频生成模型，并强化了现有的图像、矢量和设计模型。Firefly视频模型已进入有限公开测试阶段，成为首个可安全用于商业用途的生成式AI视频模型。最新的Firefly图像模型Firefly...……更多

2024-10-17 09:52:00公测,一键,生成,视频,现实,开放

《卖身契》修复记：AI重现“打工人”喜剧魅力，留住老电影的黄

...首次将AIGC视觉大模型引入到影片修复，对大模型进行了生成质量和效率等方面的算法优化。如今随着Sora等大模型在视觉领域的发展，视觉大模型不仅运用在视频生成、修改、融合和延伸等多种场景，还可以应用到剪辑和特效制...……更多

2024-04-22 20:30:00卖身契,喜剧,魅力,电影,电影,火山

2022生成模型进展有多快，新论文盘点9类生成模型代表作

ChatGPT的出现，彻底将生成AI推向爆发。但别忘了，AI生成模型可不止ChatGPT一个，光是基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年，效果好的AI生成模型层出不穷，又以OpenAI、Meta...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

单图解锁全景视角！北大/港中文/腾讯等推出ViewCraft

...腾讯等机构的研究人员提出，可以从单张或稀疏输入图像生成精确相机可控的新视角视频。还支持场景级文生3D、图生3D、以及稀疏视角重建等应用。目前论文和代码均已开源，并提供了在线Huggingface demo供用户使用。ViewCrafter：...……更多

2024-09-19 13:37:00全景,腾讯,中文,视角,北大,视角

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视

...图模型霸主Stable Diffusion原班人马，宣布推出全新的图像生成模型FLUX.1。FLUX.1包含专业版、开发者版、快速版三种模型，其中前两款模型击败SD3-Ultra等主流模型，较小规模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的……更多

2024-08-05 09:39:00文生,人马,模型,生成,视频,模型