• 我的订阅
  • 科技

腾讯3D大模型全面开源,文本图像10秒转3D资产

类别:科技 发布时间:2024-11-06 09:43:00 来源:量子位

3D生成开源界首个同时支持文字、图像转3D的模型来了,效果还是SOTA级别。

就在刚刚,腾讯宣布推出Hunyuan3D-1.0,一口气开源轻量版和标准版两个模型。

最快10秒就能端到端生成。

先生成6个多视角图像,再进行多视角重建,“啪”的一下360度无死角的3D资产就造出来了。

腾讯3D大模型全面开源,文本图像10秒转3D资产

无论是人物形象:

腾讯3D大模型全面开源,文本图像10秒转3D资产

还是像下面这样婶儿的葡萄等复杂结构生成,细节都蛮不错:

腾讯3D大模型全面开源,文本图像10秒转3D资产

薄薄的枫叶也能完整生成:

腾讯3D大模型全面开源,文本图像10秒转3D资产

镂空雕刻花纹生成效果Belike:

腾讯3D大模型全面开源,文本图像10秒转3D资产

实验中,Hunyuan3D-1.0定性定量评估均超越此前SOTA开源模型,推理性能提升很大,轻量版A100 GPU上生成时间约10秒,标准版约25秒。

目前Hunyuan3D-1.0模型权重、推理代码、模型算法等,已全部开源。

量子位童鞋在发布现场,还拿到了3D生成后直接拿来3D打印的小手办~

腾讯3D大模型全面开源,文本图像10秒转3D资产

多视图生成、重建两步炼成

技术实现上,腾讯混元团队发布了一份技术报告。

腾讯3D大模型全面开源,文本图像10秒转3D资产

Hunyuan3D-1.0模型架构如下,采用多视图生成、多视图重建两阶段生成方法。

腾讯3D大模型全面开源,文本图像10秒转3D资产

对于输入图像,首先使用多视角扩散模型在固定相机视角下合成6个新视角图像,从不同的视角捕捉了3D资产丰富的纹理和几何先验,将3D生成任务从单视角重建转化为难度更低的多视角重建任务。

腾讯3D大模型全面开源,文本图像10秒转3D资产

然后将生成的多视角图像输入基于Transformer的稀疏视角大规模重建模型。

利用上一阶段生成的多视角图像,重建模型学习处理多视角扩散引入的噪声和不一致性,并利用条件图像中的可用信息高效恢复3D结构。

腾讯3D大模型全面开源,文本图像10秒转3D资产

最终,该模型可以实现输入任意单视角生成3D资产。

腾讯3D大模型全面开源,文本图像10秒转3D资产

具体来说,第一阶段多视图生成采用了自适应CFG(classifer-free guidance),为不同视角和time steps设置不同的CFG尺度值。

在输入视角的临近视角CFG大,保证生成控制更强,与输入图更接近;较远视角CFG小,生成diversity更大,保证生成图像的真实性。

腾讯3D大模型全面开源,文本图像10秒转3D资产

另外,为了保证角度鲁棒性、兼容任意输入视角,渲染训练数据时候,渲染不同俯仰角作为输入,输出0°俯仰角的多视图。

输入任意视角图像,生成环绕一圈的俯仰角elevation=0的6张图,最大化多视图间的可见区域,并通过attention保持多视角一致,为下一步的多视图重建模型提供高一致性、高真实性的多视图图像。

在第二阶段多视图重建方面,Hunyuan3D-1.0结合了已校准(生成的多视角图像)和未校准(用户输入)的混合输入,通过专门的视角无关分支整合条件图像信息,由此以提升生成图像中的不可见部分精度。

图像信息通过cross-attention注入triplane token中。

Hunyuan3D-1.0还通过线性层将特征平面的分辨率从64上采样到256,使得特征表征更加细腻,生成物体细节更丰富。

腾讯3D大模型全面开源,文本图像10秒转3D资产

值得一提的是,Hunyuan3D-1.0还采用了Signed distance function(SDF)的隐式表示,最后通过Marching cube算法在三维空间进行采样查询得到signed distance来输出3D mesh,可以直接与3D管线结合。

拿下开源新SOTA

实验结果显示,Hunyuan3D-1.0具有强大泛化能力和可控性,可重建各类尺度物体,大到建筑,小到工具花草。

在两个公开3D数据集GSO、OmniObject3D上定量评估3D生成质量,包括Chamfer Distance(CD)、F-score (FS)指标,Hunyuan3D-1.0表现总体最优。

腾讯3D大模型全面开源,文本图像10秒转3D资产

定性评估方面,Hunyuan3D-1.0在几何细节、纹理细节、纹理-几何一致性、3D合理性、指令遵循等评价维度上,全面超越SOTA开源模型。

腾讯3D大模型全面开源,文本图像10秒转3D资产

用户喜好打分结果如下:

腾讯3D大模型全面开源,文本图像10秒转3D资产

Hunyuan3D-1.0在保证高质量、多样化生成之外,推理性能也大幅提升,显著减少了3D资产生产的耗时。

腾讯3D大模型全面开源,文本图像10秒转3D资产

“3D生成技术今年已进入快速发展阶段”

推出Hunyuan3D-1.0的同时,腾讯混元3D大模型也正在落地应用中——

据了解,腾讯地图目前就已基于腾讯混元3D大模型,发布了自定义3D导航车标功能,支持用户创作个性化的3D导航车标。

腾讯元宝APP也上线了“3D角色梦工厂”,支持个性化的UGC 3D人物生成。

腾讯3D大模型全面开源,文本图像10秒转3D资产

今年3D赛道实属火炎焱。

国内有VAST、AVAR AI等,初创公司多来自全球知名高校和科研机构;国外有AI教母李飞飞首次创业成立的空间智能公司World Labs,也着眼于3D生成世界,宣布长期目标是构建大世界模型(LWM)来感知、生成3D世界并与之交互。

鹅厂这波开源操作,无疑是把大伙儿玩3D模型的门槛又打下来了。

正如腾讯混元3D负责人郭春超所说:

3D生成技术今年已进入快速发展阶段,3D AIGC作为新的生产力工具,能为复杂的传统3D制作流程提效,可应用于游戏、工业制造、社交娱乐等领域,未来可能会与机器人等领域结合,赋能空间智能。

官网地址:https://3d.hunyuan.tencent.com/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-06 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
想要体验文生视频的小伙伴又多了一个选择!今日,腾讯宣布旗下的混元视频生成大模型(HunYuan-Video )对外开源
2024-12-04 09:48:00
刚刚,重磅发布!阿里、腾讯、科大讯飞在列
...办公室发布境内深度合成服务算法备案清单,包括阿里、腾讯、百度、科大讯飞等巨头的41个算法入围,这也是国内首批公开的算法备案清单。值得注意的是,此次名单中大模型算法并不多,除了
2023-06-20 17:00:00
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
智东西11月5日报道,今日,腾讯宣布开源MoE大语言模型混元Large、腾讯混元3D生成模型Hunyuan3D-1.0正式开源
2024-11-06 09:41:00
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
智东西12月3日报道,今天,腾讯混元大模型正式上线视频生成能力,这是在腾讯文生文、文生图、3D生成之后的最新技术进展。据腾讯混元多模态生成技术负责人凯撒现场介绍,此次更新中,Hu
2024-12-04 09:49:00
腾讯联手多所大学推出StyleCrafter 可用于视频模型
【CNMO新闻】近日,根据品玩报道,腾讯AI实验室近日联手清华大学和香港中文大学,共同推出一种名为StyleCrafter的通用方法
2023-12-06 15:24:00
腾讯混元文生图大模型升级并对外开源
5月14日消息,腾讯宣布旗下的混元文生图大模型升级并对外开源,目前已经在HuggingFace及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发
2024-05-15 14:23:00
国内首批!腾讯云AI绘画通过中国信通院AIGC平台评估
...通院开展的“AIGC绘画平台基础能力评估”结果重磅发布,腾讯云AI绘画成为国内首批通过该评估标准的AIGC绘画平台。伴随着生成式人工智能技术在文本、图像、音视频等内容生成上的
2023-12-29 04:02:00
单图解锁全景视角!北大/港中文/腾讯等推出ViewCrafter | 已开源
...衔接也非常丝滑。以上来自ViewCrafter,由北大、港中文、腾讯等机构的研究人员提出,可以从单张或稀疏输入图像生成精确相机可控的新视角视频。还支持场景级文生3D、图生3D
2024-09-19 13:37:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2
2024-12-13 09:19:00
更多关于科技的资讯:
以“兴趣”为引,开启银龄健康生活新方式:简橙太极如何助力科学养生、乐享晚年
在当今社会,随着健康老龄化的理念日益深入人心,越来越多的中老年人开始积极追求丰富多彩的退休生活和身心和谐的健康状态。这一趋势催生了对优质
2026-02-18 12:53:00
【网络中国节·春节】AI机器人带来新春消费新体验 带旺厦门文旅市场
AI机器人带来新春消费新体验厦门通过AI赋能打造新业态新场景,带旺假期文旅消费市场市民游客观看机器人咖啡师制作咖啡。(夏商咖啡供图)厦门网讯(厦门日报记者 沈彦彦 王元晖)厦门中山路“两岸数智非遗年”现场
2026-02-18 09:55:00
全力保交付 海辰储能厦门基地春节期间维持满负荷生产
位于同翔高新城的海辰储能厦门基地春节期间——满负荷生产 全力保交付春节期间,海辰储能满负荷生产。(厦门日报记者 卢剑豪 摄)厦门网讯(厦门日报记者 林露虹)大年初一
2026-02-18 10:26:00
成功捕获到约6500光年外的宇宙线信号网通院参研的LACT首台望远镜完成“首光”河北新闻网讯(河北日报记者王璐丹)近日
2026-02-18 07:58:00
2026年央视马年春晚,成为机器人扎堆亮相的“超级秀场”。而最牵动人心的,当属杭州宇树科技机器人与河南塔沟武术学校的小朋友同台呈现的节目《武BOT》
2026-02-18 07:04:00
2026年央视春晚演出现场,观众席间不少人佩戴的红围巾火了。微博上有网友实时提问:哪里能买到同款?这条名为“骐骥驰骋”的红围巾
2026-02-18 07:04:00
杭州智造“飞”上春晚 全球首次极寒载人飞行惊艳哈尔滨
图为央视春晚哈尔滨分会场彩排画面。除夕夜,央视春晚哈尔滨分会场以精彩的《冰雪暖世界》演出,带来了属于“冰城”的浪漫和温暖
2026-02-18 07:04:00
宇树春晚的表演,创下至少五个全球第一
网友热议“浙江黑科技” “太硬核了”“不愧是诞生‘六小龙’的地方”当虹科技8K超高清编码技术支持下,演员衣服上的刺绣纹理清晰可见
2026-02-18 07:34:00
豆包除夕AI互动19亿次 Seedance2.0为春晚提供技术支持
河北新闻网讯(记者 李春炜)2月16日,字节跳动旗下AI助手豆包与央视总台春晚联动,面向全国观众送出10万份科技好礼,并推出多项AI互动玩法
2026-02-17 20:35:00
中新经纬2月17日电 千问App数据显示,春节活动期间,全国超过1.3亿人第一次体验AI购物,说了50亿次“千问帮我”
2026-02-17 14:16:00
新春走基层|港口老司机“秀”新操作
2月16日,秦港股份九公司集控中心操作员曹宏璐在工作中。河北日报记者 张辉摄2月16日,农历除夕。下午2时30分许,随着“航旭鑫海”轮进入秦皇岛港902泊位
2026-02-17 08:53:00
1.3亿人春节首次体验AI购物,千问一跃成为国民级AI助手
2月17日大年初一凌晨,千问发布的数据显示,春节活动期间,全国超过1.3亿人第一次体验AI购物,说了50亿次“千问帮我”
2026-02-17 10:22:00
这一年,杭产机器人忙着进化忙着上岗
宇树机器人化身武林高手亮相春晚“这才一年,太震惊了!”昨晚的央视春晚上,宇树机器人和河南塔沟武术学校带来的《武BOT》一亮相
2026-02-17 07:17:00
新春走基层|总台春晚这条“骐骥驰骋”红色羊绒围巾出自河北品牌
见习记者于歆2026年总台春晚舞台上部分演员及嘉宾佩戴的“骐骥驰骋”红色羊绒围巾,出自河北品牌!由邢台市清河县的河北红太集团生产
2026-02-17 01:36:00
阿里发布千问3.5,性能媲美Gemini 3, Token价格仅为其1/18
2月16日除夕当天,阿里巴巴开源全新一代大模型千问Qwen3.5-Plus,性能媲美Gemini 3 Pro,登顶全球最强开源模型
2026-02-16 17:34:00