• 我的订阅
  • 科技

腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议

类别:科技 发布时间:2024-12-04 09:49:00 来源:智东西

腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议

智东西12月3日报道,今天,腾讯混元大模型正式上线视频生成能力,这是在腾讯文生文、文生图、3D生成之后的最新技术进展。

据腾讯混元多模态生成技术负责人凯撒现场介绍,此次更新中,HunYuan-Video模型经历了四项核心改进:

1、引入超大规模数据处理系统,提升视频画质;

2、采用多模态大语言模型(MLLM),优化文本与图像的对齐;

3、使用130亿参数的全注意力机制(DIT)和双模态ScalingLaw,增强时空建模与动态表现;

4、采用自研3D VAE架构,提升图像和视频的重建能力。

与此同时,腾讯宣布将这款拥有130亿参数规模的视频生成模型开源。目前,该模型已在APP与Web端发布,其标准模式下的视频生成大约需要120秒完成。

腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议

一、腾讯HunYuan-Video模型技术升级与应用拓展

腾讯对HunYuan-Video模型进行了四项技术升级,涵盖了数据处理系统、文本编码、算力优化等多个方面,提升了视频生成的质量与可控性。此外,腾讯还通过微调、应用拓展及开源等措施进一步强化了模型的实际应用能力。

腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议

1、四项关键技术升级

首先,模型采用了一个超大规模的数据处理系统,能够混合处理图像与视频数据。该系统包括文字检测、转景检测、美学打分、动作检测、准确度检测等多个维度的功能,进一步提升视频画质。

其次,模型引入了多模态大语言模型(Decoder-only MLLM)作为文本编码器,提升了复杂文本的理解能力,同时支持多语言理解。这一升级使得文本与图像之间的对齐性得到了加强,能够根据用户提供的提示词精确生成符合要求的视频内容。

腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议

另外,模型架构使用了130亿参数的全注意力机制(DIT)和双模态ScalingLaw,能够在视频生成中有效利用算力和数据资源,增强时空建模能力,并优化视频生成过程中的动态表现。此架构支持原生转场,可实现了多个镜头间的自然切换,并保持主体一致性。

腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议

最后,HunYuan-Video采用了自研的3D VAE架构,以提升图像和视频重建的能力,特别在小人脸和大幅运动场景下表现更加流畅。

腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议

2、六大微调领域强化定向能力

在预训练之后,腾讯混元大模型目前正在进行微调(SFT)工作,进一步增强其视频生成的定向能力。HunYuan-Video在六个关键方面进行了专项微调,包括画质优化、高动态效果、艺术镜头、手写文本、转场效果以及连续动作的生成,其中一些调整仍在进行中。

3、Recaption模型与两种生成模式

此外,HunYuan-Video还推出了Recaption模型,提供了两种生成模式:常规模式和导演模式。

常规模式侧重于简化用户输入的文本,强化自我修正功能,适合专业用户进行精细操作;而导演模式则侧重于提升画面质感,强化镜头运用、光影设计和构图美学等方面的描述,适合非专业用户使用。

腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议

4、性能评估与同行对比

据了解,混元大模型经过了千题盲测的定量分析,在总体排序中以41.3%的表现领先,优于其他模型如CNTOpA(37.7%)、CNTopB(37.5%)和GEN-3(27.4%)。

在特定场景类别中,混元表现尤为突出,特别是在处理人文场景、人工场所以及多主体组合场景时,其生成效果优于其他模型。在物品和动物/微生物类目中,混元也具有一定的优势,而在虚拟场景和自然场景的生成效果相对较弱。

从维度来看,混元运动质量的合格率排名第一,文本与视频的对齐合格率位居第二。但从数据中可以看出,行业里的这些模型总体成功率都仍然较低,视频生成的内容仍存在一定的优化空间。

腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议

5、视频配音、配乐与数字人技术

除了基础的视频生成能力外,腾讯还拓展了HunYuan-Video的应用功能,推出了视频配音与配乐功能,能够为生成的视频提供音效与背景音乐,进一步提升视频的完整性和表现。

此外,腾讯还推出了驱动2D照片数字人的技术,支持通过语音、姿态和表情等多种驱动方式控制照片数字人的动态表现,增强了生成内容的自然度、一致性和可控性。

腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议

6、开源发布与生态支持

目前,腾讯宣布开源该视频生成大模型已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。

腾讯混元视频生成开源项目相关链接如下:

官网:https://aivideo.hunyuan.tencent.com

代码:https://github.com/Tencent/HunyuanVideo

模型:https://huggingface.co/tencent/HunyuanVideo

技术报告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

二、腾讯混元的下一步:提高视频分辨率和生成速度

腾讯混元多模态生成技术负责人凯撒谈道,文生视频与图像生成在技术上有着密切联系。虽然视频生成建立在图像生成的基础上,但它对动态时序信息和场景变化处理能力提出了更高的要求。

视频生成的一个核心挑战是在快速变化的场景中维持图像的连贯性和一致性。虽然图像生成技术已经取得了显著的进步,但将其扩展至动态视频生成仍面临许多技术障碍。未来,图像与视频生成可能会趋向一体化发展,但这需要在多个技术领域取得突破。

此外,视频主体的一致性问题也是关键所在。当前的技术能够在较短时间(约5秒)内较好地保持一致性,但随着视频长度增加,尤其是在镜头切换时,保持主体一致性就会变得困难,这在行业内是一个普遍存在的难题。

关于视频分辨率,目前大多数视频生成技术能够达到720P。腾讯混元计划逐步提升这一标准,首先达到1080P,最终目标是4K乃至8K,以增强视觉体验中的清晰度与细节表现力。

算力的提升对于提高视频分辨率及加快生成速度至关重要。腾讯混元正在探索两条主要路径:一是通过改进算法来直接提升分辨率;二是利用放大算法来提高视频质量。这两方面的工作都在积极进行中。

目前,腾讯混元已经开始内部测试其视频生成功能,并计划逐步推向市场应用。然而,要实现大规模商业化还需经过一定的时间以及市场的验证。

结语:AI视频生成领域竞争加剧

随着腾讯混元大模型视频生成能力的发布,AI视频生成领域的竞争格局进一步加剧。除了腾讯,国外AI视频生成平台如Runway、Luma、Pika,以及国内的快手可灵、字节即梦、智谱清影等也在争夺市场份额,形成了多方竞争的态势。

开源已成为腾讯混元大模型的一个战略选择。从年初以来,腾讯混元系列模型的开源速度不断加快。此前,腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此,腾讯混元系列大模型已实现全面开源。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-04 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
想要体验文生视频的小伙伴又多了一个选择!今日,腾讯宣布旗下的混元视频生成大模型(HunYuan-Video )对外开源
2024-12-04 09:48:00
赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键
...)昨日,腾讯混元大模型正式上线视频生成能力,这是继文生文、文生图、3D生成之后,混元大模型的最新业务进展。与此同时,腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频
2024-12-04 09:56:00
腾讯元宝文生图功能重磅升级:混元+DeepSeek双模型支持
快科技5月7日消息,腾讯元宝今天正式官宣文生图功能升级,混元和DeepSeek双模型均支持生图,只需要一句话,元宝就能直接生成图片。官方介绍,这项功能结合了腾讯混元最新文生图模型
2025-05-07 17:10:00
Sora冲击波 抢人“饭碗”促生新职业?
2月19日,春节后第一个交易日,Sora相关概念(文生视频)股集体走高,会畅通讯、C易点、当虹科技、因赛集团、万兴科技20CM涨停,华扬联众、新国脉、新华网涨停封板。在文生视频的
2024-03-02 09:59:00
单图解锁全景视角!北大/港中文/腾讯等推出ViewCrafter | 已开源
...输入图像生成精确相机可控的新视角视频。还支持场景级文生3D、图生3D、以及稀疏视角重建等应用。目前论文和代码均已开源
2024-09-19 13:37:00
快手“可灵”意外走红,字节紧急追赶,AI文生视频赛道竞争加剧
...技术表现相对“佛系”的快手。6月7日,快手突然上线了文生视频模型“可灵”(Kling),并可支持长达2分钟的视频生成。此外,与Sora至今仍在“期货”阶段相比,可灵一经公布便
2024-08-01 09:32:00
文博会观察:大模型为文化产业发展提供新机遇
...和产品。这些为文化产业发展带来新机遇。广告公司利用文生图技术,将图片生成技术用于素材生成,提升内容制作效率……在文博会腾讯展区,腾讯混元文生图大模型吸引了众多观众前来互动。“
2024-05-26 20:39:00
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...能否符合描述?下面结合实例一一拆解。 实测腾讯首个文生视频模型首先是冲浪题材,涉及到画面大幅度运动,水的物理模拟等难点。提示词中还特别指定了摄像头的运动,腾讯混元表现出流畅
2024-12-04 09:50:00
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
...应用清影生成6秒视频只需要30秒的时间,该功能不仅支持文生视频、图生视频,也支持视频生成视频(以下是利用网络梗应用清影生成的视频 )。2024年过半,经过一轮“价格战”后,各
2024-07-27 14:18:00
更多关于科技的资讯:
近日,字节跳动推出的AI视频生成模型Seedance2.0在海内外互联网上再度刷屏。据官方介绍,该模型能够根据文本或图像生成电影级视频
2026-02-10 23:41:00
江南时报讯 近日,苏州农商银行与人保财险苏州市分公司深化协同,成功落地全国首单银保合作“科创贷”。该企业作为国家级高新技术企业
2026-02-10 21:42:00
西秀食品“双星”冲刺首季“开门红”
连日来,位于西秀区的贵州安顺云鹫食品有限公司和贵州好味达食品有限公司呈现一派热火朝天的生产景象。作为本土食品行业的标杆企业
2026-02-10 22:10:00
锦江国际集团启动马年春节多元促消费活动,激发假日市场新活力
马年春节临近,锦江国际集团依托“吃、住、行、游”全产业链优势,为海内外宾客准备了丰富的年娱、年味项目,陪伴大家一起过个精彩中国年
2026-02-10 17:24:00
潮新闻讯 目光所及,即是世界。此刻,我们站在迈向高水平科技自立自强的时代关口。“科技创新和产业创新深度融合”“概念验证”“中试平台”“职务科技成果赋权”“资产单列管理”“技术经理人”等成为了中国科技成果转化行业的热词
2026-02-10 18:06:00
中国消费者报北京讯(记者吴博峰)记者近日从江苏省储能行业协会获悉,即将于今年5月举办的CESC2026第四届储能大会主论坛将汇聚行业各方人士
2026-02-10 18:33:00
中国消费者报报道(记者何永鹏)近日,由市场监管总局发展研究中心、中国社会科学院财经战略研究院课题组联合完成的《2025直播电商行业发展白皮书》(以下简称《白皮书》)正式发布
2026-02-10 19:03:00
2025年池州市累计完成以旧换新交易11.24万笔 带动社会消费22.6亿元
大皖新闻讯 记者从2月9日召开的池州市提质增效实施消费品以旧换新政策新闻发布会上获悉,2025年,池州市累计完成消费品以旧换新交易11
2026-02-10 18:14:00
记者今天(2月10日)了解到,市场监管总局(国家标准委)批准发布一批重要国家标准。在新兴领域方面,发布脑机接口、数字孪生等5项国家标准
2026-02-10 14:15:00
滨州移动科技赋能年货盛会 铸就网络保障新典范
鲁网2月10日讯2026年2月6日至8日,“购在中国·2026滨州迎新春消费季暨乐购滨州年货大集”在滨州市全民健康文化中心体育场南广场盛大举办
2026-02-10 15:09:00
西北工业大学科研团队在脑机接口关键领域取得新突破
想象一下,当瘫痪者用意念操控机械臂,稳稳端起水杯;当失语者的思维被直接“翻译”成流畅语音;当帕金森患者的颤抖经神经调控逐渐平息……这些曾出现在科幻电影里的场景
2026-02-10 16:06:00
创新潮涌!温州乐清科技创新指数连续八年领跑全省
日前,位于温州乐清北白象镇中方智能园区的温州合力自动化仪表有限公司,成功研发出AI智能物联直行程电动执行器。作为流体控制领域的领军企业
2026-02-10 16:20:00
诺特兰德公益创新获认可,一举摘得公益节三项荣誉
鲁网2月10日讯1月22日至23日,第十五届公益节暨2025ESG影响力年会在北京举行。全球膳食营养品牌诺特兰德凭借其在公益领域的持续深耕与创新实践
2026-02-10 16:22:00
中国消费者报重庆讯(记者刘文新)2月6日,重庆举行低空经济重大成果发布会,发布《重庆市低空装备产业链产品名录》(2025版)
2026-02-10 16:03:00
中交一航局二公司检测中心研发一款基于若依结构的档案管理系统
鲁网2月10日讯近日,中交一航局二公司检测中心研发一款基于若依结构的档案管理系统,该系统依托若依架构精准破解行业痛点,集成RBAC权限管控
2026-02-10 15:09:00