• 我的订阅
  • 科技

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

类别:科技 发布时间:2024-08-13 09:39:00 来源:机器之心Pro

随着大模型的落地按下加速键,文生图无疑是最火热的应用方向之一。

自从 Stable Diffusion 诞生以来,海内外的文生图大模型层出不穷,一时有「神仙打架」之感。短短几个月,「最强 AI 画师」的称号几次易主。每一次技术迭代,都不断刷新着AI图像生成质量和速度的上限。

于是现在,我们输入几个文字就能得到任何想要的画面。无论是专业级别的商业海报,还是超写实画风的写真照片,AI 制图的逼真程度已经让我们叹为观止。甚至 AI 赢下了 2023 年度的索尼世界摄影奖。在大奖公布之前,这幅「照片」已经在伦敦萨默赛特宫进行展览——如果作者不公开说明,可能没有人会发现这张照片实际出自 AI 之手。

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

Eldagse和他的AI生成作品《电工》

如何让 AI 画出来的图片更具美感,这离不开 AI 技术人员持之以恒的付出。第六期的《AIGC体验派》就邀请到了豆包文生图技术专家李亮、NVIDIA 解决方案架构师赵一嘉,为我们深入剖析了文生图模型出图更美、更快、更懂用户心意背后的技术链路。

直播开始,李亮首先详细拆解了近期国产大模型「顶流」—— 字节跳动豆包大模型在文生图模型方面的技术升级。

李亮表示,豆包团队想解决的问题主要包含三个方面:一是如何实现更强的图文匹配来满足用户的想法设计;第二个是如何生成更具美感的图像来提供更极致的用户体验;第三个是如何更快速地出图来满足超大规模的服务调用。

在图文匹配方面,豆包团队从数据入手,对海量图文数据做精细化筛选和过滤,最终入库了千亿量级的高质量图像。此外,团队还专门训练了一个多模态大语言模型进行 recapiton 任务。这个模型将更加全面、客观地描述图片中图像的物理关系。

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

有了高质量高细节的图文对数据之后,想要更好地发挥出模型的实力,还需要提升文本理解模块的能力。团队采用原生双语大语言模型作为文本编码器,显著提升了模型理解中文的能力,因此,面对「唐代」、「元宵节」等国风元素,豆包・文生图模型也展现出了更加深刻的理解力。

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

对于 Diffsuion 模型架构,豆包团队也注入了独门秘籍,他们 UNet 进行了有效地scaling,通过增加参数量,豆包・文生图模型进一步地提升了图像文本对的理解和高保真的生成能力。

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

针对用户直观感受最明显的美学风格,豆包团队引入了专业的美学指导,也时刻关注用户和大众审美的偏好。与此同时,团队也在数据和模型架构上下了一番功夫。很多时候,用户得到的图像和 demo 展示的效果对比好比「买家秀」和「卖家秀」,实际上是给出的 prompt 对于模型来说不够详细和明确,而豆包·文生图模型引入了一个「Rephraser」,在遵循用户原始意图的同时,为提示词增加更多的细节描述,所有用户也将因此体验到更完美的生成效果。

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

为了让模型出图速度更快,每张图消耗的成本更低,豆包团队在模型的蒸馏方式上也给出了新的解题思路,一项代表性的成果是 Hyber-SD,这是一种新颖的扩散模型蒸馏框架,在压缩去噪步数的同时可保持接近无损的性能。

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

接下来,英伟达解决方案架构师赵一嘉从底层技术出发,讲解了文生图最主流的基于Unet的SD和DIT两种模型架构及其相应的特性,并介绍了英伟达的Tensorrt, Tensorrt-LLM, Triton, Nemo Megatron 等工具如何为部署模型提供支持,助力大模型更加高效地推理。

赵一嘉首先分享了 Stable Diffusion 背后模型的原理详解,细致地阐述了 Clip、VAE 和 Unet 等关键组件的工作原理。随着 Sora 爆火,也带火了背后的 DiT(扩散 Transformer)架构。赵一嘉进一步从模型结构、特性和算力消耗三方面,从模型结构、特性和资源消耗三个方面,对 SD 和 DiT 的优势进行了全面的比较。

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

使用 Stable diffusion 生成图像时,往往会感觉提示词内容在生成结果中都得到了呈现,但图不是自己想要的,这是因为基于文字出图的 Stable diffusion 并不擅长控制图像的细节,例如构图、动作、面部特征、空间关系等。因此,基于Stable diffusion 的工作原理,研究人员们设计了许多控制模块,弥补 Stable diffusion 的短板。赵一嘉补充了其中具有代表性的 IP-adapter 和 ControlNet。

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

想要加快吃算力的文生图模型的推理速度,英伟达的技术支持发挥了关键作用。赵一嘉介绍了 Nvidia TensorRT 和 TensorRT-LLM 工具,这些工具通过高性能卷积、高效调度和分布式部署等技术,优化了图文生成模型的推理过程。同时,英伟达的 Ada、Hopper 以及即将推出的 BlackWell 硬件架构,都已支持 FP8 训练和推理,将为模型训练带来更加丝滑的体验。

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?

经历了六场精彩的直播,由火山引擎、NVIDIA 联手机器之心和 CMO CLUB 共同推出的《AIGC体验派》迎来了圆满收官。通过这六期节目,相信大家对 AIGC 如何从「有趣」变为「有用」有了更深的理解。我们也期待着《AIGC 体验派》不止停留在节目的讨论中,并更能在实际中加速营销领域智能化升级的进程。

《AIGC 体验派》全六期回顾地址:https://vtizr.xetlk.com/s/7CjTy

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-13 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

ai视频渲染应用,你了解多少?
...表现,它未来将会成为一些AIPC标配的AIGC软件。我们使用文生图功能输出5张512x512分辨率的高质量图片,它主要利用GPU来执行出图任务
2024-10-08 02:00:00
终于拿到内测!豆包-PixelDance真是字节视频生成大杀器
...译)的多模态大模型,同时给之前已有的通用语言模型、文生图模型、语音模型来了一波大升级。这些模型共同构建起了火山引擎的「豆包全模态大模型家族」。家族新秀:豆包视频生成模型 Pi
2024-09-30 09:51:00
...(记者 魏蔚)10月26日,腾讯混元大模型正式对外开放“文生图”功能。目前该功能已被用于素材创作、商品合成、游戏出图等多项业务中,在广告业务下的多轮测评中,腾讯混元文生图的案
2023-10-26 18:20:00
为什么2024年买电脑推荐AI轻薄本?这几点原因足以说服你!
...本地运行最高200亿参数的大模型,不联网也能进行本地AI文生文、文生图等,在CPU+GPU+NPU协同的超强AI算力下
2024-03-24 17:50:00
Black Forest Labs推出Flux1.1Pro
...注于开发最先进的生成性人工智能模型。Flux简介Flux在AI文生图领域有着“最强”称号,在多个方面有着卓越表现:生成质量:Flux在图像生成的质量上表现出色,能够处理多种风
2024-10-05 04:52:00
外媒希望《GTA6》有作弊秘籍 能让玩家更快乐
...,然而外媒gamerant表示,《GTA6》最有趣的部分可能是作弊秘籍。了解游戏的老玩家们可能知道,《GTA》系列很多作品都有着作弊秘籍,这可以让玩家在游戏中获得一些超常的能
2023-03-18 18:39:00
产品周报262期 | 快手职级体系调整,微信公众号新增图片修改功能
...试。一旦通过申请,用户可以率先体验各种AI服务,包括文生文、文生图、角色化对话以及AI创作等功能,这些服务目前都限时免费。钉钉个人版以AI为核心,提供“贾维斯”文生文AI和“
2023-08-18 09:00:00
异地追女秘籍:距离不是问题,行动才是关键
你是否曾为了一个心仪的女孩辗转反侧,而她却远在千里之外?异地恋情,听起来就充满了挑战与未知,但别灰心,距离并不是无法逾越的鸿沟。就让我来传授你几招异地追女孩的秘诀,助你抱得美人归
2024-06-07 13:55:00
轻薄本+AI怎么玩?华硕首款AI PC即将发布
...得到普及,用户可以更简单、更便利地使用AI功能,包括文生文、文生图、文生音乐这些功能,比如视频、音乐创作等创意表达,AI配音、变声、视频会议眼神矫正,还有AI抠图、手势识别、
2023-12-10 14:24:00
更多关于科技的资讯:
新发路观察+|“文化+”背后的吉林机遇
盛夏,7月下旬。第五届中国新电商大会如约而至。中国吉林网注意到,在本届中国新电商大会上,很多来自文化产业的从业者汇聚而至
2025-08-01 14:29:00
纳美科学电动双管双组份牙膏推动行业进入技术性革命
据中国口腔清洁护理用品工业协会《2024年中国口腔护理行业白皮书》显示:中国美白牙膏市场规模达217.3亿元,占牙膏总市场54
2025-08-01 14:43:00
跨界破圈迎增长,30周年重磅献礼 开启家居产业新纪元
——2025浦东家具家居双展9月启幕,规模逆势扩张,看点多元升级在当下挑战与机遇并存的全球经贸环境下,由中国家具协会与上海博华展览有限公司举办的中国国际家具展览会迎来了30周年的荣耀时刻
2025-08-01 14:43:00
为持续提升柜面服务效率与客户体验,锻造一支业务精湛、服务高效的运营队伍,近日,南京银行连云港分行举办了2025年度运营条线业务技能竞赛的首阶段竞技活动——汉字录入与数字录入项目现场测评
2025-08-01 14:52:00
WAIC 2025:开普勒大黄蜂挑战8小时直播圆满收官,引领具身智能商业化新征程
7月26日-29日,2025世界人工智能大会暨人工智能全球治理高级别会议(简称"WAIC 2025")在上海举行。大会聚焦人工智能发展的关键命题
2025-08-01 15:13:00
不少消费者都接到过各种营销电话,有的营销电话还是用普通电话号码打过来的,让人防不胜防。为落实“信息通信暖心服务实事”,解决用户反映突出的通信业务电话营销虚假宣传
2025-08-01 15:33:00
微信提现手续费下限调为0.01元,客服称7月25日进行了更新
近日,有网友发帖称:微信提现手续费下限调为0.01元。对此,腾讯客服表示,7月25日进行了全量更新。单笔服务费小于0.01元的
2025-08-01 15:42:00
烟台餐饮企业力挺外卖平台良性竞争,激发消费烟火气
7月28日,由山东烟台市场监管部门指导,烟台市餐饮与住宿行业协会主办的“强化政企、监协合作,推动正餐品牌数字化转型”商家座谈会落地
2025-08-01 15:43:00
宋轶、李一桐代言难逃“差评” 《这城有良田》虚假宣传、未保缺失如何解?
消费日报网讯(记者 王鑫坤)“适合本地宝宝体质的种地游戏!”“都搁这种地是吧,我也来!”“一起体验做城主的快感吧!”经常刷短视频的消费者
2025-08-01 15:55:00
龙湖烟台龙口天街巨幅海报震撼亮相,官宣9月30日盛大开业!
8月1日,一幅气势恢宏的巨幅海报在龙口城市核心区的高楼上震撼呈现,瞬间成为全城瞩目的焦点!这正是备受期待的龙湖烟台龙口天街官宣盛大开业时间而精心打造的视觉地标
2025-08-01 15:58:00
BBA“智驾同盟”现象观察:合资豪车如何在中国找到技术突围口?
近期,宝马集团正式宣布与智能驾驶公司Momenta达成战略合作,计划在国产新世代车型上搭载其智能驾驶方案。至此,奔驰、宝马
2025-08-01 15:58:00
快速发展的坚蛋运动:创新、共赢与服务的制胜之道
在健身行业大变革的当下,能一直稳定增长的品牌,必然有其过人之处。作为近年具有行业代表性的健身品牌,坚蛋运动既没有依赖传统健身品牌的重资产扩张路径
2025-08-01 16:00:00
湖里区四家企业获厦门市专利奖东南网8月1日讯(海峡导报记者 林少蓉 通讯员 阮腮媚 陈琼英)第十届厦门市专利奖获奖名单近日揭晓
2025-08-01 16:05:00
以“场景矩阵化”破局,桃李面包用实际行动展现品牌实力
烘焙食品的消费场景正经历多元化转变——从传统正餐延伸至日常加餐、休闲零食、DIY制作等多个维度,聚会、出游等休闲场景增长也为行业带来全新机遇
2025-08-01 16:06:00
中欧游戏企业在沪对话,完美世界分享“东西互鉴”合作新方向
伊迪阐述了中国游戏产业与欧洲的互动与演进,并结合未来趋势,提出AI技术协同、跨文化创意共创、全球化人才培养三大方向深化合作
2025-08-01 16:06:00