我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

类别：科技发布时间：2024-12-04 09:48:00 来源：机器之心Pro

想要体验文生视频的小伙伴又多了一个选择！

今日，腾讯宣布旗下的混元视频生成大模型（HunYuan-Video ）对外开源，模型参数量 130 亿，可供企业与个人开发者免费使用。目前该模型已上线腾讯元宝 APP，用户可在 AI 应用中的「AI 视频」板块申请试用。

腾讯混元视频生成开源项目相关链接：

官网：https://aivideo.hunyuan.tencent.com 代码：https://github.com/Tencent/HunyuanVideo 模型：https://huggingface.co/tencent/HunyuanVideo 技术报告：https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

腾讯混元视频生成模型 HunYuan-Video（HY-Video）是一款突破性的视频生成模型，提供超写实画质质感，能够在真实与虚拟之间自由切换。它打破了小幅度动态图的限制，实现完整大幅度动作的流畅演绎。

HY-Video 具备导演级的运镜效果，具备业界少有的多视角镜头切换主体保持能力，艺术镜头无缝衔接，一镜直出，展现出如梦似幻的视觉叙事。同时，模型在光影反射上遵循物理定律，降低了观众的跳戏感，带来更具沉浸感的观影体验。模型还具备强大的语意遵从能力，用户只需简单的指令即可实现多主体准确的描绘和流畅的创作，激发无限的创意与灵感，充分展现 AI 超写实影像的独特魅力。

总的来说，HunYuan-Video 生成的视频内容具备以下特点：

卓越画质：呈现超写实的视觉体验，轻松实现真实与虚拟风格的切换。动态流畅：突破动态图像的局限，完美展现每一个动作的流畅过程。语义遵从：业界首个以多模态大语言模型为文本编码器的视频生成模型，天然具备超高语义理解能力，在处理多主体及属性绑定等生成领域的难点挑战时表现出色。原生镜头转换：多视角镜头切换主体保持能力，艺术镜头无缝衔接，打破传统单一镜头生成形式，达到导演级的无缝镜头切换效果。

AI 文生图开源生态蓬勃发展，众多创作者与开发者为生态贡献作品与插件。然而，视频生成领域的开源模型与闭源模型差距较大。腾讯混元作为第一梯队大模型，将视频生成开源，相当于将闭源模型的最强水平带到开源社区，有望促进视频生成开源生态像图像生成社区一样繁荣。

通过腾讯元宝 APP-AI 应用-AI 视频即可使用该功能（前期需申请）

能力展示

HunYuan-Video 在文生视频的画质、流畅度与语义一致性等方面都具有较高的质量。

超写实画质

腾讯混元视频生成模型提示词：超大水管浪尖，冲浪者在浪尖起跳，完成空中转体。摄影机从海浪内部穿越而出，捕捉阳光透过海水的瞬间。水花在空中形成完美弧线，冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

腾讯混元视频生成模型提示词：穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中，阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围，电影打光。

原生镜头切换

视频由腾讯混元视频生成，提示词：一位中国美女穿着汉服，头发飘扬，背景是伦敦，然后镜头切换到特写镜头

腾讯混元视频生成模型提示词：特写镜头拍摄的是一位 60 多岁、留着胡须的灰发男子，他坐在巴黎的一家咖啡馆里，沉思着宇宙的历史，他的眼睛聚焦在画外走动的人们身上，而他自己则基本一动不动地坐着，他身穿羊毛大衣西装外套，内衬系扣衬衫，戴着棕色贝雷帽和眼镜，看上去很有教授风范，片尾他露出一丝微妙的闭嘴微笑，仿佛找到了生命之谜的答案，灯光非常具有电影感，金色的灯光，背景是巴黎的街道和城市，景深，35 毫米电影胶片。

腾讯混元视频生成模型提示词：一个男人在书房对着电脑，敲打键盘，认真地工作，镜头切换到卧室里，暖黄色的灯光下，他的妻子在床边读着故事书，轻柔地拍着孩子的胸口，哄孩子入睡。温馨的氛围。

高语义一致

一位戴着复古飞行护目镜的机械师，半跪在蒸汽朋克风格的工作室里。她棕色卷发挽成发髻，零星的银色发丝闪着金属光泽。深棕色皮质工装背带裤上沾满机油污渍，袖口卷起露出布满齿轮纹身的手臂。特写她正用黄铜工具调试一只机械鸟，齿轮间冒出缕缕蒸汽，工作台上散落着铜管、发条和老式图纸。

固定机位的老公寓内景，自然光透过纱帘漫射，青色街灯渗入，茶烟袅袅升起，老式家具静静陈列，定格岁月流逝的时光。

采用多种创新技术

加速行业创新步伐

基于腾讯混元的开源模型，开发者及企业无需从头训练，即可直接用于推理，并可基于腾讯混元系列打造专属应用及服务，能够节约大量人力及算力。同时，各大模型研发团队均可基于腾讯混元模型进行研究与创新，加速行业创新步伐。

据技术报告，在混元视频生成模型架构设计与训练中，采用了多个创新技术：包括通过新一代本文编码器提升语义遵循，自研 3D 视觉编码器支持图像视频混合训练，通过全注意力机制提升画面运镜能力，并根据自研的图像视频 Scaling Law 设计和训练了最优配比模型。

模型方法介绍

Hunyuan-Video 是一个综合的视频训练系统，涵盖了从数据处理到模型部署的各个方面。本技术报告介绍了我们的数据预处理技术，包括数据过滤算子和重新标注模型，并详细说明了 Hunyuan-Video 所有组件的架构，和我们发现的视频生成模型 scaling law，以及我们的训练和推理策略。

我们讨论了加速模型训练和推理的方法，使得开发一个拥有 130 亿参数的大型模型成为可能，并评估了我们的文本到视频基础模型的性能，与最先进的视频生成模型（包括开源和专有模型）进行了比较。

最后，我们展示了基于预训练基础模型构建的各种应用，并附上相关的可视化效果。

精细的数据处理架构

我们采用自动化数据过滤和人工过滤相结合的方式，从粗到细构建多个阶段训练数据集。在 256p、360p、540p 和 720p 训练阶段，采用各种过滤器对图片、视频数据过滤，并逐步提高过滤算子的阈值。在 SFT 阶段训练阶段，采用人工过滤的方式以充分保障训练数据质量。

该图突出显示了在每个阶段使用的一些最重要的过滤器。在每个阶段，将会移除大量数据，移除的比例从前一阶段的数据的一半到五分之一不等。在这里，灰色条表示每个过滤器过滤掉的数据量，而彩色条则表示每个阶段剩余的数据量。

模型架构设计

首个适配 MLLM 作为文本编码器的视频生成模型，具备强大的语义跟随能力，可以轻松应对多个主体描绘。

在文生图和文生视频等视觉生成模型中，负责处理文本、理解文字的文本编码器起着关键作用。目前行业中大部分的视觉生成模型的文本编码器，适配的主要是上一代语言模型。

混元视频生成是业界适配最新一代大语言模型 MLLM （Multimodal Large Language Model）作为文本编码器的视频生成模型，具备强大的语义跟随能力，更好地应对多个主体描绘，实现更加细节的指令和画面呈现。

文本到视频等生成任务中，文本编码器在隐式表征空间中提供的指导信息起着关键作用。业界常见模型通常使用预训练的 CLIP 和 T5 作为文本编码器，其中 CLIP 使用 Transformer Encoder，而 T5 使用的是 Encoder-Decoder 结构。相比之下，我们利用最先进的多模态大语言模型（MLLM）进行编码操作，它具有以下优势：（1）与 T5 相比，MLLM 在视觉指令微调后的表征空间中具有更好的图像 - 文本对齐性，这减轻了扩散模型中指令跟随的难度；（2）与 CLIP 相比，MLLM 在图像细节描述和复杂推理方面有着更加优越的能力；（3）MLLM 可以通过设计系统指令前置于用户提示来充当零样本学习器，帮助文本特征更加关注关键词。此外，如图 8 所示，MLLM 基于因果注意力，而 T5-XXL 利用双向注意力，为扩散模型产生更好的文本指导。因此，我们遵循的方法，引入了一个额外的双向令牌细化器，以增强文本特征。此外，CLIP 文本特征也是文本信息的摘要。如图所示。我们采用了 CLIP-Large 文本特征的最终非填充令牌作为全局指导，将其整合到双流和单流的 DiT 块中。—— 腾讯混元视频生成模型开源技术报告

通过自研的 3D 视觉编码器支持混合图片和视频训练 / 先进的图像视频混合 VAE（3D 变分编码器），让模型在重建能力场景有明显提升，具备小人脸和动作的极高上限。

视觉编码器在压缩图片 / 视频数据，保留细节信息方面起着关键作用。混元团队通过自研的 3D 视觉编码器支持混合图片 / 视频训练，同时优化了编码器训练算法，显著提升了编码器在快速运行、纹理细节上的压缩重建性能，使得视频生成模型在细节表现上，特别是小人脸、高速镜头等场景有明显提升

从头到尾用 full attention（全注意力）的机制，没有用时空模块，提升画面流畅度。

混元视频生成模型采用基于单双流模型机制的全注意力网络架构，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换。与「分离的时空注意力机制」分别关注视频中的空间特征和时间特征，相比之下，全注意力机制则更像一个纯视频模型，表现出更优越的效果。其次，它支持图像和视频的统一生成，简化了训练过程并提高了模型的可扩展性。最后，它更有效地利用了现有的大型语言模型（LLM）相关的加速能力，从而提升了训练和推理的效率。

根据自研的图像视频 Scaling Law 设计和训练了最优配比模型。

Scaling Law 通常用来描述模型性能如何随着模型大小、训练数据和计算资源的增加而变化。在人工智能研究的早期，训练模型往往需要在诸多超参数之间反复尝试，而 Scaling Law 提供了指导如何扩展这些参数的经验公式，使模型达到更好的性能‌。

Scaling Law 在 AI 领域的应用非常广泛。尤其是在大模型的训练中，帮助科学家们确定，如果需要模型有更好的表现，应该优先增加模型参数、训练数据的规模还是训练计算量。

Google、OpenAI 等领先的科技公司对 Scaling Law 进行了大量的探索，这些研究为现代大型 AI 模型的成功奠定了基础‌。但是多模态模型领域（如图像、视频、音频等）的 Scaling Law 尚没有被真真切切地验证过。

腾讯混元团队在过亿级别的图像视频数据上，较为系统的训练验证了图像视频生成模型的 Scaling Law。根据我们的发现，我们可以准确的设计出最优的模型参数 / 数据 / 算力配比，也给了后续学术界和业界开发更大规模模型一个经验公式，到底什么样规模的模型需要多少训练数据和算力，使模型达到更好的效果性能，可以推动业界在视频生成领域的发展。

‌腾讯混元系列大模型全面开源

从年初以来，腾讯混元系列模型的开源速度就在不断加快。

5 月 14 日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源，这是业内首个中文原生的 DiT 架构（DiT，即 Diffusion With Transformer）文生图开源模型，支持中英文双语输入及理解，参数量 15 亿，整体能力属于国际领先水平。

11 月 5 日，腾讯混元宣布最新的 MoE 模型「混元 Large」以及混元 3D 生成大模型「Hunyuan3D-1」正式开源。

Hunyuan-Large 总参数量约 389B，激活参数量约 52B，文本长度 256k。这是当前业界参数规模最大、效果排名第一的 MoE 开源模型。其在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先，超过 Llama3.1、Mixtral 等一流的开源大模型。

混元 3D 生成大模型则是首个同时支持文字、图像生成 3D 的开源大模型。一期开源模型包含轻量版和标准版，轻量版仅需 10s 即可生成高质量 3D 资产。该模型在今年年初已在腾讯内部上线发布并应用于实际业务中，如 UGC 3D 创作、商品素材合成、游戏 3D 资产生成等。

本次视频生成大模型的开源，也是腾讯混元拥抱开源，用技术反馈社区的一大成果。至此，腾讯混元全系列大模型已实现全面开源。

腾讯在开源上一直持开放态度，已开源了超 170 个优质项目，均来源于腾讯真实业务场景，覆盖微信、腾讯云、腾讯游戏、腾讯 AI、腾讯安全等核心业务板块，目前在 Github 上已累计获得超 47 万开发者关注及点赞。

腾讯混元也会继续保持开放，将更多经过腾讯应用场景经验的模型开源出来，促进大模型生态的繁荣发展。

未来衍生模型和生态插件展示

未来我们会开源更多基于视频创作生态的模型，这里小小剧透一些片段。

视频配音

语音驱动数字人

姿态控制

文内视频链接：https://mp.weixin.qq.com/s/k0P4zoCYOoM7GFz1curPnA?token=406859070&lang=zh_CN

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-12-04 12:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于文生,腾讯,模型,参数,社区,视频的资讯：

腾讯混元上线文生视频并开源，120秒内成片！还有提示词建议

...天，腾讯混元大模型正式上线视频生成能力，这是在腾讯文生文、文生图、3D生成之后的最新技术进展。据腾讯混元多模态生成技术负责人凯撒现场介绍，此次更新中，HunYuan-Vide

2024-12-04 09:49:00

赛道正在变得拥挤腾讯混元大模型杀入文生视频让用户 “用起

...）昨日，腾讯混元大模型正式上线视频生成能力，这是继文生文、文生图、3D生成之后，混元大模型的最新业务进展。与此同时，腾讯开源该视频生成大模型，参数量130亿，是当前最大的视频

2024-12-04 09:56:00

AIGC落地应用：腾讯云如何助力产业智能化升级？

...在多模态能力上也持续迭代升级。在生图领域，腾讯混元文生图基础架构已全面升级至Sora同款的DiT架构，支持中英文双语输入及理解，具备多轮绘图能力，测评结果国内领先；在生视频领

2024-06-26 12:45:00

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...恢复出3D资产的几何形状和纹理细节，泛化能力出色。其文生3D能力支持在45秒内基于文本生成3D资产，图生3D能力支持在30秒内基于文本生成3D资产。文生/图生3D内网接口已上

2024-11-06 09:41:00

“杜甫很忙”梗图变视频！智谱AI生成视频模型上线

...应用清影生成6秒视频只需要30秒的时间，该功能不仅支持文生视频、图生视频，也支持视频生成视频（以下是利用网络梗应用清影生成的视频）。2024年过半，经过一轮“价格战”后，各

2024-07-27 14:18:00

腾讯云公布多项大模型产品进展

...面，混元大模型也持续迭代升级。在生图领域，腾讯混元文生图基础架构已全面升级至Sora同款的DiT架构，支持中英文双语输入及理解，具备多轮绘图能力，测评结果国内领先；在生视频领

2024-05-22 04:24:00

不要小看「实而不华」的腾讯 AI

...答卷。上周，腾讯一连开了两场发布会，第一场宣布混元文生图升级采用 DiT 架构并开源，第二场，腾讯重申了以「产业实用」作为发展大模型的核心战略，并从模型侧、工具侧、应用侧三大

2024-05-21 21:25:00

最新财报：腾讯混元大模型参数规模扩展至万亿

...规模。自亮相以来，腾讯混元大模型持续迭代升级，具备文生图、视频生成等能力。目前，腾讯内部超过400个业务及场景已接入腾讯混元测试。企业微信、腾讯会议及腾讯文档部署了生成式AI

2024-03-20 19:32:00

腾讯混元文生图大模型升级并对外开源

5月14日消息，腾讯宣布旗下的混元文生图大模型升级并对外开源，目前已经在HuggingFace及Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发

2024-05-15 14:23:00

更多关于科技的资讯：

邦德激光正式入驻Dream Park全球总部基地

近日，邦德激光总部员工全部迁入位于济南市历城区春晖路3999号的Dream Park全球总部基地，标志着公司发展进入全新阶段

2026-02-06 20:50:00

2026年WGS世界政府峰会迪拜王储乘坐百度萝卜快跑无人车

“解放双手、未来已来！”在体验完萝卜快跑全无人驾驶后，迪拜王储谢赫·哈姆丹主动在海外社交媒体上发文，赞叹这次“非常丝滑”的未来出行

2026-02-06 17:08:00

三联家电章丘首店世茂店盛大开业，一站式高端家电消费新升级

鲁网2月6日讯春启新程，盛境绽放！2月6日，扎根齐鲁四十一载的山东家电零售领军品牌三联家电，携章丘区域首店正式入驻章丘世茂广场

2026-02-06 17:12:00

面对“网络黑嘴”，你公司能扛过几道关

2026-02-06 17:46:00

“合作费”还是“封口费”？起底网络“黑嘴”的生意经

造谣一张嘴，辟谣跑断腿。一段时间以来，网络“黑嘴”伤企现象时有发生，严重影响企业正常发展。现摘编山东青岛市网信办文章《守护营商网络净土

2026-02-06 17:46:00

蚂蚁集团发布《2025年消费者权益保护年报》：金融普惠教育系

中国消费者报报道（记者司宇萌）日前，蚂蚁集团正式发布《2025年消费者权益保护年报》（以下简称《年报》）。《年报》显示

2026-02-06 18:11:00

第四届储能大会将于5月22日至24日在南京举办

中国消费者报北京讯（记者吴博峰）2月5日，以“技术突围•生态协同”为主题、由江苏省储能行业协会联合行业媒体共同主办的CESC2026第四届储能大会暨储能及智能电网设备应用展览会媒体见面会在京举行

2026-02-06 18:11:00

聚焦国际优质内容京东图书推动法国与英国经典作品销量与影响力

当下，法国文学在中国阅读市场的热度持续攀升，相关数据显示2025对华出口额同比增长超过30%。作为引进与销售海外文化作品的渠道之一

2026-02-06 18:17:00

河钢集团张宣科技：聚力体系构建推动智能制造向高端跃迁

河北新闻网讯（王杨、曹莹莹）曾经，以“氢冶炼”替代“碳冶炼”实现了行业突围。如今，产业向智造升级，河钢集团张宣科技又该如何续写传奇

2026-02-06 20:00:00

华工激光(HGLASER)：激光装备领域的全球引领者与智能制

在全球制造业向高端化、智能化转型的浪潮中，激光技术作为核心支撑力量，正重塑产业发展格局。武汉华工激光工程有限责任公司(以下简称 “华工激光”)作为中国激光工业化应用的开创者与引领者

2026-02-06 15:27:00

国家超算互联网核心节点上线试运行，托举中国AI算力应用关键一

2月5日，国家超算互联网应用技术大会暨核心节点上线试运行仪式在郑州隆重举行。发改委、科技部、工信部、国家数据局、国家自然科学基金委等单位莅临现场

2026-02-06 15:28:00

河北交投禄发集团徐水服务区升级改造换新颜顾客出行体验再提升

视频摄制：周明哲河北新闻网讯（牟岚）2月4日，位于京港澳高速公路京石段121公里处的河北交投禄发集团所属徐水服务区升级改造后重新亮相

2026-02-06 15:29:00

梨花教育助力银发族“轻装上阵”，畅享快乐学习之旅

随着银发经济从基础保障型供给向精神文化型消费升级，银发文教正在成为银发产业中最具潜力的细分赛道。与早期的兴趣培训不同，如今的银发文教已经覆盖文化素养

2026-02-06 15:39:00

倍轻松“早睡娃娃”全球巡展在即，海内外战略布局多点开花

近日，倍轻松推出的“早睡娃娃”系列以现象级热度席卷社交网络，成为年货消费市场的一抹亮色。1月23日至25日，全国巡展首站在深圳KKONE购物中心启动

2026-02-06 15:47:00

“钰”见雄安Vlog | 火遍全网的“哭哭马”老家就在雄安

毛绒玩具产业是雄安新区容城县的特色优势产业。马年春节将至，位于容城县的中国（雄安新区）玩具总部基地内，上百款马年毛绒玩具扎堆上新

2026-02-06 13:57:00

头条订阅服务

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用