生成,视觉,问题,技术,模型,图像头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

MSRA：视觉生成六大技术问题

文生图、文生视频，视觉生成赛道火热，但仍存在亟需解决的问题。微软亚洲研究院研究员古纾旸对此进行了梳理，他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布，然而，目标数据分布过于复杂，...……更多

2024-07-15 09:34:00生成,视觉,问题,技术,模型,图像

OpenAI发布文生视频模型Sora，奥尔特曼选取网友提示词

...能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。一位时髦女士漫步在东京街头，周围是温暖闪烁的霓虹灯和动感的...……更多

2024-02-16 18:44:00文生,奥尔,奥尔特曼,特曼,模型,提示

Sora再度颠覆AI视频行业，A股哪些公司有相关布局？

...模型Sora因其“逼真”和“富有想象力”被广泛赞誉，其生成视频可达60秒也颠覆了传统视频生成领域平均只有4秒的视频生成长度。OpenAI官网介绍，Sora是一种扩散模型，它从看起来像静态噪声的视频开始生成视频，然后通过多个...……更多

2024-02-19 08:10:00颠覆,布局,行业,视频,公司,模型

最新美国国家人工智能科学院院士介绍

...言处理技术的实际应用具有重要意义，为智能问答、文本生成和机器翻译等任务提供了更好的解决方案。LucasBeyer，来自谷歌人工智能实验室。他在计算机视觉领域取得了重大突破，特别是在图像识别和物体检测方面，为谷歌的...……更多

2024-03-24 08:39:00人工智能,美国,院士,科学院,人工,智能

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...也不容易，因为我们需要的是多模态数据，但LLM无法直接生成图像，DALL-E、Stable Diffusion等图像生成模型又无法同步生成文本。一个直觉的解决方案是将二者结合在一起，直接生成但文生图模型实际上很难对图像细节做到细微精...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

苹果300亿参数大模型首亮相，还买了家AI公司｜焦点分析

...谨慎，他觉得苹果工作模式是先做再说，“我认为苹果在生成式人工智能和人工智能方面存在着巨大的机会，而无需透露更多细节或超出自己的范围。”据The Information2023年9月的一次报道，苹果每天在人工智能上投资数百万美元...……更多

2024-03-16 18:14:00模型,苹果,参数,焦点,分析,公司

Meta 公司发布 Imagine Yourself AI

...家 8 月 23 日消息，从社交媒体到虚拟现实，个性化图像生成因其在各种应用中的潜力而日益受到关注。传统方法通常需要针对每位用户进行大量调整，从而限制了效率和可扩展性，为此 Meta 公司创新提出了“Imagine Yourself” AI 模...……更多

2024-08-24 09:44:00模型,公司,模型,生成,图像,身份

Bengio团队提出多模态新基准，直指Claude 3.5和

...阅读原文即可直达，包含评用于模型评测和预训练的数据生成代码） Hugging Face 链接：huggingface.co/vcr-org VCR 数据集简介为了开发 VCR 任务，研究人员构建了一个由图像 - 文字生成 VCR 合成图像的流程。在该流程中可以通过控制遮...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

Meta推出AI新模型VFusion3D，微美全息布局AIG

...，Meta（META.US）和牛津大学的研究人员开发了一种新的3D生成式AI模型VFusion3D，能够从单张图像或文本描述生成高质量的3D对象，可能会改变虚拟现实、游戏和数字设计等领域。AI新模型VFusion3D来袭据悉，VFusion3D界面简单直观，允...……更多

2024-08-21 13:55:00全息,布局,模型,升级,产业,内容

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

...像。与大型语言模型（LLMs）相比，大语言模型在处理和生成文本数据方面有专长，而多模态大模型能够处理非文本数据，如图像等等。根据多模态权威综合评测平台OpenCompass的数据，Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综...……更多

2024-09-20 13:35:00模态,阿里,模型,能力,升级,国际

快手可灵大模型开放视频续写功能可生成最长约3分钟视频

本文转自：中国新闻网快手的视频生成大模型“可灵”自面世以来，以其惊艳效果引发了国内外的广泛关注。 6月21日，可灵再度进化，正式推出图生视频功能，支持用任意静态图像生成5s视频，并且可搭配不同的文本内容，实...……更多

2024-06-24 19:53:00可生,快手,视频,模型,开放,功能

OpenAI推出生成式模型Sora，内容创作领域开启新纪元

...们生活的方方面面。而就在2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。据了解，通过文本指令，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。这意...……更多

2024-02-18 23:32:00新纪元,生成,模型,创作,领域,内容

让人工智能模型训练提速10倍以上

...明团队发布了一项国际联合研究成果MDT，与人工智能文字生成视频大模型Sora核心组件DiT相比，训练速度提升10倍以上，再次刷新SoTA最佳图像生成质量和学习速度。近日，相关成果公布于预印本服务器arXiv。2024年初，美国OpenAI公...……更多

2024-04-03 07:20:00人工智能,提速,人工,模型,训练,智能

《卖身契》修复记：AI重现“打工人”喜剧魅力，留住老电影的黄

...首次将AIGC视觉大模型引入到影片修复，对大模型进行了生成质量和效率等方面的算法优化。如今随着Sora等大模型在视觉领域的发展，视觉大模型不仅运用在视频生成、修改、融合和延伸等多种场景，还可以应用到剪辑和特效制...……更多

2024-04-22 20:30:00卖身契,喜剧,魅力,电影,电影,火山

2022生成模型进展有多快，新论文盘点9类生成模型代表作

ChatGPT的出现，彻底将生成AI推向爆发。但别忘了，AI生成模型可不止ChatGPT一个，光是基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年，效果好的AI生成模型层出不穷，又以OpenAI、Meta...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

单图解锁全景视角！北大/港中文/腾讯等推出ViewCraft

...腾讯等机构的研究人员提出，可以从单张或稀疏输入图像生成精确相机可控的新视角视频。还支持场景级文生3D、图生3D、以及稀疏视角重建等应用。目前论文和代码均已开源，并提供了在线Huggingface demo供用户使用。ViewCrafter：...……更多

2024-09-19 13:37:00全景,腾讯,中文,视角,北大,视角

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视

...图模型霸主Stable Diffusion原班人马，宣布推出全新的图像生成模型FLUX.1。FLUX.1包含专业版、开发者版、快速版三种模型，其中前两款模型击败SD3-Ultra等主流模型，较小规模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的……更多

2024-08-05 09:39:00文生,人马,模型,生成,视频,模型