我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

AI出图更快、更懂你心意，高美感文生图模型修炼了哪些技术秘籍？

类别：科技发布时间：2024-08-13 09:39:00 来源：机器之心Pro

随着大模型的落地按下加速键，文生图无疑是最火热的应用方向之一。

自从 Stable Diffusion 诞生以来，海内外的文生图大模型层出不穷，一时有「神仙打架」之感。短短几个月，「最强 AI 画师」的称号几次易主。每一次技术迭代，都不断刷新着AI图像生成质量和速度的上限。

于是现在，我们输入几个文字就能得到任何想要的画面。无论是专业级别的商业海报，还是超写实画风的写真照片，AI 制图的逼真程度已经让我们叹为观止。甚至 AI 赢下了 2023 年度的索尼世界摄影奖。在大奖公布之前，这幅「照片」已经在伦敦萨默赛特宫进行展览——如果作者不公开说明，可能没有人会发现这张照片实际出自 AI 之手。

Eldagse和他的AI生成作品《电工》

如何让 AI 画出来的图片更具美感，这离不开 AI 技术人员持之以恒的付出。第六期的《AIGC体验派》就邀请到了豆包文生图技术专家李亮、NVIDIA 解决方案架构师赵一嘉，为我们深入剖析了文生图模型出图更美、更快、更懂用户心意背后的技术链路。

直播开始，李亮首先详细拆解了近期国产大模型「顶流」—— 字节跳动豆包大模型在文生图模型方面的技术升级。

李亮表示，豆包团队想解决的问题主要包含三个方面：一是如何实现更强的图文匹配来满足用户的想法设计；第二个是如何生成更具美感的图像来提供更极致的用户体验；第三个是如何更快速地出图来满足超大规模的服务调用。

在图文匹配方面，豆包团队从数据入手，对海量图文数据做精细化筛选和过滤，最终入库了千亿量级的高质量图像。此外，团队还专门训练了一个多模态大语言模型进行 recapiton 任务。这个模型将更加全面、客观地描述图片中图像的物理关系。

有了高质量高细节的图文对数据之后，想要更好地发挥出模型的实力，还需要提升文本理解模块的能力。团队采用原生双语大语言模型作为文本编码器，显著提升了模型理解中文的能力，因此，面对「唐代」、「元宵节」等国风元素，豆包・文生图模型也展现出了更加深刻的理解力。

对于 Diffsuion 模型架构，豆包团队也注入了独门秘籍，他们 UNet 进行了有效地scaling，通过增加参数量，豆包・文生图模型进一步地提升了图像文本对的理解和高保真的生成能力。

针对用户直观感受最明显的美学风格，豆包团队引入了专业的美学指导，也时刻关注用户和大众审美的偏好。与此同时，团队也在数据和模型架构上下了一番功夫。很多时候，用户得到的图像和 demo 展示的效果对比好比「买家秀」和「卖家秀」，实际上是给出的 prompt 对于模型来说不够详细和明确，而豆包·文生图模型引入了一个「Rephraser」，在遵循用户原始意图的同时，为提示词增加更多的细节描述，所有用户也将因此体验到更完美的生成效果。

为了让模型出图速度更快，每张图消耗的成本更低，豆包团队在模型的蒸馏方式上也给出了新的解题思路，一项代表性的成果是 Hyber-SD，这是一种新颖的扩散模型蒸馏框架，在压缩去噪步数的同时可保持接近无损的性能。

接下来，英伟达解决方案架构师赵一嘉从底层技术出发，讲解了文生图最主流的基于Unet的SD和DIT两种模型架构及其相应的特性，并介绍了英伟达的Tensorrt, Tensorrt-LLM, Triton, Nemo Megatron 等工具如何为部署模型提供支持，助力大模型更加高效地推理。

赵一嘉首先分享了 Stable Diffusion 背后模型的原理详解，细致地阐述了 Clip、VAE 和 Unet 等关键组件的工作原理。随着 Sora 爆火，也带火了背后的 DiT（扩散 Transformer）架构。赵一嘉进一步从模型结构、特性和算力消耗三方面，从模型结构、特性和资源消耗三个方面，对 SD 和 DiT 的优势进行了全面的比较。

使用 Stable diffusion 生成图像时，往往会感觉提示词内容在生成结果中都得到了呈现，但图不是自己想要的，这是因为基于文字出图的 Stable diffusion 并不擅长控制图像的细节，例如构图、动作、面部特征、空间关系等。因此，基于Stable diffusion 的工作原理，研究人员们设计了许多控制模块，弥补 Stable diffusion 的短板。赵一嘉补充了其中具有代表性的 IP-adapter 和 ControlNet。

想要加快吃算力的文生图模型的推理速度，英伟达的技术支持发挥了关键作用。赵一嘉介绍了 Nvidia TensorRT 和 TensorRT-LLM 工具，这些工具通过高性能卷积、高效调度和分布式部署等技术，优化了图文生成模型的推理过程。同时，英伟达的 Ada、Hopper 以及即将推出的 BlackWell 硬件架构，都已支持 FP8 训练和推理，将为模型训练带来更加丝滑的体验。

经历了六场精彩的直播，由火山引擎、NVIDIA 联手机器之心和 CMO CLUB 共同推出的《AIGC体验派》迎来了圆满收官。通过这六期节目，相信大家对 AIGC 如何从「有趣」变为「有用」有了更深的理解。我们也期待着《AIGC 体验派》不止停留在节目的讨论中，并更能在实际中加速营销领域智能化升级的进程。

《AIGC 体验派》全六期回顾地址：https://vtizr.xetlk.com/s/7CjTy

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-13 12:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于文生,出图,美感,秘籍,心意,更快的资讯：

ai视频渲染应用，你了解多少？

...表现，它未来将会成为一些AIPC标配的AIGC软件。我们使用文生图功能输出5张512x512分辨率的高质量图片，它主要利用GPU来执行出图任务

2024-10-08 02:00:00

终于拿到内测！豆包-PixelDance真是字节视频生成大杀

...译）的多模态大模型，同时给之前已有的通用语言模型、文生图模型、语音模型来了一波大升级。这些模型共同构建起了火山引擎的「豆包全模态大模型家族」。家族新秀：豆包视频生成模型 Pi

2024-09-30 09:51:00

腾讯混元大模型开放文生图功能

...（记者魏蔚）10月26日，腾讯混元大模型正式对外开放“文生图”功能。目前该功能已被用于素材创作、商品合成、游戏出图等多项业务中，在广告业务下的多轮测评中，腾讯混元文生图的案

2023-10-26 18:20:00

为什么2024年买电脑推荐AI轻薄本？这几点原因足以说服你！

...本地运行最高200亿参数的大模型，不联网也能进行本地AI文生文、文生图等，在CPU+GPU+NPU协同的超强AI算力下

2024-03-24 17:50:00

Black Forest Labs推出Flux1.1Pro

...注于开发最先进的生成性人工智能模型。Flux简介Flux在AI文生图领域有着“最强”称号，在多个方面有着卓越表现：生成质量：Flux在图像生成的质量上表现出色，能够处理多种风

2024-10-05 04:52:00

外媒希望《GTA6》有作弊秘籍能让玩家更快乐

...，然而外媒gamerant表示，《GTA6》最有趣的部分可能是作弊秘籍。了解游戏的老玩家们可能知道，《GTA》系列很多作品都有着作弊秘籍，这可以让玩家在游戏中获得一些超常的能

2023-03-18 18:39:00

产品周报262期 | 快手职级体系调整，微信公众号新增图片修

...试。一旦通过申请，用户可以率先体验各种AI服务，包括文生文、文生图、角色化对话以及AI创作等功能，这些服务目前都限时免费。钉钉个人版以AI为核心，提供“贾维斯”文生文AI和“

2023-08-18 09:00:00

异地追女秘籍：距离不是问题，行动才是关键

你是否曾为了一个心仪的女孩辗转反侧，而她却远在千里之外？异地恋情，听起来就充满了挑战与未知，但别灰心，距离并不是无法逾越的鸿沟。就让我来传授你几招异地追女孩的秘诀，助你抱得美人归

2024-06-07 13:55:00

轻薄本+AI怎么玩？华硕首款AI PC即将发布

...得到普及，用户可以更简单、更便利地使用AI功能，包括文生文、文生图、文生音乐这些功能，比如视频、音乐创作等创意表达，AI配音、变声、视频会议眼神矫正，还有AI抠图、手势识别、

2023-12-10 14:24:00

更多关于科技的资讯：

西北农林科技大学研发的司牧大模型发布为智慧牧业注入AI新引

近日，在第三届智慧牧业发展校企联盟年会上，由西北农林科技大学动科学院李曼菲副教授牵头研发的一个面向智慧牧业的产学研一体化人工智能创新平台—司牧大模型发布

2025-11-13 20:26:00

长春机场电梯无线报警系统有效释放人力资源

近日，长春机场“电梯无线报警系统”科创项目顺利投入使用。该系统融合4G无线通信、移动值守与智能终端管理等先进技术，实现了对传统电梯紧急报警系统的全面智能化升级

2025-11-13 13:34:00

海尔L+洗衣机在泰国售价6万泰铢高端增速最快

海尔智家以“全球化”为核心战略，依托技术创新推动高端产品出海落地，L+洗衣机正是这一战略的重要落地成果。该产品率先在中国高端市场获得成功

2025-11-13 10:35:00

央视二套《消费主张》强推！从一扇门到全屋智能，王力安防重新定

近日，“双十一”消费季热潮正劲，亿万消费者聚焦高品质家居好物。央视二套《消费主张》于11月11日晚黄金时段播出《聚焦双十一

2025-11-13 11:14:00

全球首个系统级伦理垂域大模型“问道”发布

给“狂飙”的AI套上伦理的“缰绳”全球首个系统级伦理垂域大模型“问道”发布南报网讯（记者何洁通讯员孙艳）让AI也能像学者一样

2025-11-13 08:06:00

第八届进博会搭建国际合作桥梁——汉诺金携手湖南卫视快乐购共促

近日，第八届中国国际进口博览会（进博会）在上海国家会展中心隆重开幕。作为全球关注的年度经贸盛会，进博会汇聚来自世界各地的顶尖企业与行业代表

2025-11-13 08:57:00

京东“双十一”战报出炉江西人下单量增速居全国第五

本报讯(全媒体记者左阳天)指尖滑动屏幕，货物飞速流转，一场持续了一个多月的年度消费盛宴，正悄然重塑江西消费者的购物车与江西商家的生产线

2025-11-13 06:45:00

新闻纵深｜“人机共生”让绿钢更绿

河钢集团石钢公司五十六个智能模型构建“数字工厂”“人机共生”让绿钢更绿阅读提示订单排产从48小时压缩到30分钟，钢水样品2分40秒完成27种元素分析

2025-11-12 08:14:00

京东发布今年“双11”福建消费热点：最爱囤运动板鞋买手机舍

厦门网讯（厦门日报记者沈彦彦）11月11日，京东发布2025年“双11”购物狂欢节（以下简称“双11”）福建消费热点相关情况

2025-11-12 08:22:00

厦门电商军团战绩不俗多个品类登上全国热销榜单

厦门网讯（厦门日报记者沈彦彦）昨日，抖音美洋官方旗舰店的直播间里热闹非凡，主播“上链接”话音刚落，新品针织衫链接的下单人数瞬间破百

2025-11-12 08:22:00

鹭江观察丨借“金鸡”生金蛋含金量高含科量足

厦门网讯（厦门日报记者邬秀君）顶峰人文影视艺术会客厅项目签约金额20亿元；同文文化艺术影视科技街区项目签约金额16亿元

2025-11-12 08:22:00

餐品要好吃下单还得好玩一些年轻人点单爱上“参与感”

厦门网讯（文/厦门日报记者谭心怡）在思明区禾祥西路，一个红色小窗口内闪着金元宝形的灯，客人抽完签、摇响铃铛、再把签递进窗口——冰激凌就会从里面递出

2025-11-12 08:22:00

厦门软件园企业:科技赋能打开光影新视野

借助XR虚拟拍摄技术，可实现场景自由切换。图为厦门火炬元宇宙（XR）公共技术服务平台。（甚妙视觉供图）厦门网讯（厦门日报记者林露虹通讯员管轩雷飏）光影闪耀鹭岛

2025-11-12 08:22:00

鹭江茶桌仔：“小咖啡”如何萃取“大产业”

●席恺前不久，星巴克以40亿美元出售中国业务60%股权。消息一传出，众人的目光很快聚焦在瑞幸咖啡上：这个总部设在厦门的咖啡品牌

2025-11-12 08:22:00

德州扒鸡®美食城三八路店重装开业——铸就州城美好生活新业态升

鲁网11月11日讯（记者赵洪斌吴美琳）11月11日，德州扒鸡®美食城三八路店重装开业，焕新启幕，美耀州城！溯源四十载

2025-11-12 08:43:00

头条订阅服务

AI出图更快、更懂你心意，高美感文生图模型修炼了哪些技术秘籍？