• 我的订阅
  • 科技

腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放

类别:科技 发布时间:2024-12-04 09:50:00 来源:量子位

腾讯版Sora,发布即开源!

130亿参数,成为目前参数量最大的开源视频生成模型。模型权重、推理代码、模型算法等全部上传GitHub与Hugging Face,一点没藏着。

腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放

实际效果如何呢?

目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。

API同步开放测试,开发者可通过腾讯云接入。

腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放

腾讯混元视频生成主打四大特点:

超写实画质,模型生成的视频内容具备高清质感、真实感,可用于工业级商业场景例如广告宣传、创意视频生成等商业应用。 高语义一致,用户可以进行细致的刻画,例如生成主体的细节,人物概念的组合等。模型可以准确的表达出文本的内容。 运动画面流畅,可生成大幅度的合理运动,运动镜头流畅、符合物理规律,不易变形。 原生镜头转换,模型原生具备自动生成多视角同主体的镜头切换画面,增强画面叙事感。

那么实际表现能否符合描述?下面结合实例一一拆解。

实测腾讯首个文生视频模型

首先是冲浪题材,涉及到画面大幅度运动,水的物理模拟等难点。

提示词中还特别指定了摄像头的运动,腾讯混元表现出流畅运镜的能力,只是在“最后定格在…”这个要求上稍显不足。

提示词:超大海浪,冲浪者在浪花上起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

镜子题材,考验模型对光影的理解,以及镜子内外主体运动是否能保持一致。

提示词中的白床单元素又加大了难度,涉及到的布料模拟,也符合物理规律。

不过人们想象中的幽灵一般没有脚,AI似乎没学到,又或者是跳舞涉及大量腿部动作,产生了冲突。

穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围,电影打光。

接下来是腾讯混元视频生成主推的功能之一,在画面主角保持不变的情况下自动切镜头,据了解是业界大部分模型所不具备的能力。

一位中国美女穿着汉服,头发飘扬,背景是伦敦,然后镜头切换到特写镜头。

腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放

https://mp.weixin.qq.com/s/6_ciIeZBqkFMuizUmjKV4Q?token=1748535864&lang=zh_CN

再来一个综合型的复杂提示词,对主角外貌、动作、环境都有细致描述,画面中还出现其他人物,腾讯混元表现也不错。

特写镜头拍摄的是一位60多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35毫米电影胶片。

最后附上来自官方的写prompt小tips:

用法1:提示词=主体+场景+运动 用法2:提示词=主体(主体描述)+场景(场景描述)+运动(运动描述)+(镜头语言)+(氛围描述)+(风格表达) 用法3:提示词=主体+场景+运动+(风格表达)+(氛围描述)+(运镜方式)+(光线)+(景别) 多镜头生成:提示词=[场景1]+镜头切换到[场景2] 两个动作生成:提示词=[主体描述]+[动作描述]+[然后、过了一会等连接词]+[动作描述2]

怎么样,你学会了吗?

更多腾讯混元生成的视频,以及与Sora同提示词PK,还可以看看量子位在内测阶段的尝试。

最大的开源视频生成模型。

看完效果,再看看技术层面有哪些亮点。

首先从官方评估结果看,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先。

腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放

然后从目前公开资料看,腾讯混元视频生成模型还有三个亮点。

1、文本编码器部分,已经适配多模态大模型

当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。

腾讯在开源图像生成模型Hunyuan-DiT中适配的是T5和CLIP的结合,这次更进一步,直接升级到了新一代多模态大语言模型(Multimodal Large Language Model)。

由此能够获得更强大的语义跟随能力,体现在能够更好地应对画面中存在的多个主体,以及完成指令中更多的细节。

2、视觉编码器部分,支持混合图片/视频训练,提升压缩重建性能

视频生成模型中的视觉编码器,在压缩图片/视频数据,保留细节信息方面起着关键作用。

混元团队自研了3D视觉编码器支持混合图片/视频训练,同时优化了编码器训练算法,显著提升了编码器在快速运行、纹理细节上的压缩重建性能,使得视频生成模型在细节表现上,特别是小人脸、高速镜头等场景有明显提升。

3、从头到尾用full attention(全注意力)的机制,没有用时空模块,提升画面流畅度。

混元视频生成模型采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换。

与“分离的时空注意力机制”分别关注视频中的空间特征和时间特征,相比之下,全注意力机制则更像一个纯视频模型,表现出更优越的效果。

更多细节,可以参见完整技术报告~

官网:https://aivideo.hunyuan.tencent.com

代码:https://github.com/Tencent/HunyuanVideo

模型:https://huggingface.co/tencent/HunyuanVideo

技术报告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-04 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
智东西11月5日报道,今日,腾讯宣布开源MoE大语言模型混元Large、腾讯混元3D生成模型Hunyuan3D-1.0正式开源
2024-11-06 09:41:00
权威AI开源标准1.0版发布:Llama也不算开源
...创建; 用于构建和运行 AI 的完整代码; 训练中的设置和权重,帮助 AI 产生相应的结果。这一定义直接直击 Meta 推动的 Llama 大模型
2024-10-30 09:52:00
腾讯混元文生图大模型升级并对外开源
5月14日消息,腾讯宣布旗下的混元文生图大模型升级并对外开源,目前已经在HuggingFace及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发
2024-05-15 14:23:00
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...40 亿参数的混合专家(MoE)模型‘Grok-1’,以及该模型的权重和网络架构。这也使得Grok-1成为当前参数量最大的开源大语言模型
2024-03-18 11:51:00
微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑
...然后这篇内容只有6页的论文引发热议:BitNet b1.58模型的权重被量化为三元值{-1, 0, 1},相当于在二进制系统中使用了1
2024-10-23 12:05:00
360智脑7b参数模型采用3.4万亿tokens训练
...中文大海捞针测试,同样做到了98%以上的准确率。除模型权重外,该模型的微调训练代码,推理代码等全套工具集也被一并开源,大模型相关开发者可做到“开箱即用”。据IT之家此前报道,
2024-04-14 01:04:00
王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线
...布也遵循开源精神,baichuan-7B代码采用Apache-2.0协议,模型权重采用了免费商用协议,只需进行简单登记即可免费商用
2023-06-15 16:53:00
赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键
《科创板日报》12月4日讯(记者 张洋洋)昨日,腾讯混元大模型正式上线视频生成能力,这是继文生文、文生图、3D生成之后,混元大模型的最新业务进展。与此同时,腾讯开源该视频生成大模
2024-12-04 09:56:00
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
...具备向全社会开放的产品能力。而在更早的10月,元象与腾讯音乐联合推出lyraXVERSE加速大模型,并借助该技术全面升级音乐助手“AI小琴”的问答、聊天与创作能力,让她情商与
2024-09-18 13:36:00
更多关于科技的资讯:
聚焦2025中国国际数字经济博览会·访谈|沈昌祥:发挥优势,不断筑牢人工智能安全底座
发挥优势,不断筑牢人工智能安全底座——访中国工程院院士沈昌祥中国工程院院士沈昌祥。 河北日报记者 李东宇摄2025中国国际数字经济博览会的主题为“可信数据赋能产业发展”
2025-10-18 08:25:00
10月17日,2025中国国际数字经济博览会,一款AI绘画机器人精准识别人脸神态,快速绘画出人脸素描,被这只机械臂画得心服口服。(摄制:苏畅、白中豪、朱泊宇)
2025-10-18 08:27:00
深化开发利用,让高质量数据“动”起来——2025中国国际数字经济博览会探新之一机器人亮绝活、大模型总动员、虚拟空间沉浸体验……10月17日
2025-10-18 08:37:00
厦门网讯(厦门日报记者 薛尧)苹果iPhone17 Air昨日正式开启预售,这款取消实体卡槽、仅支持eSIM(嵌入式虚拟SIM卡)的新机
2025-10-18 08:59:00
近日,建设银行正式启动“‘享趣’玩·惠游中华”信用卡活动,为客户提供涵盖景区票务、特色餐饮、文创消费等多方面的用卡优惠
2025-10-18 10:41:00
海信贾少谦:AI重塑企业管理模式,打法要快,生意要慢
10月17日,第十五届中国管理·全球论坛暨首届“中国企业管理最佳实践榜”发布盛典在青岛举办。作为C50+2025年度轮值企业家召集人
2025-10-18 10:57:00
竹溪县数字经济产业链招商签约超亿元
十堰广电讯(全媒体记者 白孟尧 通讯员 付延峰)竞逐数字经济新赛道,孕育产业链招商硕果。10月18日,湖北十堰竹溪县竹溪数字经济产业链招商暨2025“国芯一号”生态合作伙伴大会在桃花岛夯土小镇举行
2025-10-18 13:47:00
东南网龙岩10月17日讯(通讯员 陈碧霞)近日,工行龙岩漳平支行组织青年志愿者主动深入当地企业园区,精心开展集“个人金融产品精准营销”与“金融反诈知识普及”于一体的“一站式”综合服务活动
2025-10-18 16:32:00
烟台银行荣登2025上半年度高质量数字化转型十大典型案例榜单
近日,由中国信通院主办的以“洞见十五五”为主题的2025数字生态发展大会暨“铸基计划”年中会议在北京盛大召开。会上,烟台银行联合长亮科技申报的《DataOps赋能烟台银行建设高质量智能数据中枢》案例
2025-10-18 17:45:00
视源股份广交会展示AI全场景创新实力,机器人机器人系列产品亮相成焦点
在第138届中国进出口商品交易会(广交会)上,视源股份以“AI+未来教育、AI+企业服务、AI+机器人、AI+生活”为主线
2025-10-18 18:18:00
本土智造重磅升级,医科达将八度亮相进博
第八届中国国际进口博览会(进博会)进入倒计时,作为八年“全勤生”,全球精准放疗先锋医科达将以“共建本土生态,共筑抗癌未来”为主题
2025-10-18 18:42:00
不用等到20号了!现在来京东11.11 iPhone 17 Pro系列可领300元惊喜券
每年11.11对于广大果粉而言无疑是换新的绝佳时机,无论是追求最新款还是预算有限入手上一代机型都能享受到极具吸引力的价格
2025-10-18 18:43:00
破局重构引领前行,联众优车持续锻造二手车服务新基建
近年来,在国内汽车消费结构持续升级的背景下,二手车市场已成为拉动汽车消费的重要引擎。特别是随着国家一系列利好政策的推出
2025-10-18 18:43:00
从龙虎到鹤年堂 京东七鲜十月品牌日再造下一个老字号联名爆款
随着“养生年轻化”与“即食化养生”成为主流,当代消费者愈发青睐“轻松养生、即时进补”。如何让传统养生智慧通过自有品牌融入日常
2025-10-18 18:43:00
全时段畅飞 全年不限次:长龙航空“365畅飞卡”10月19日在京东旅行限时开售
国内随心飞历史新低,全时段畅飞、全年不限次!在推出海航随心飞,并创下2天超25万用户下单、2亿销售额的纪录之后,京东11
2025-10-18 18:45:00