• 我的订阅
  • 科技

stablediffusion3:文字渲染能力大升级

类别:科技 发布时间:2024-02-25 03:03:00 来源:浅语科技

那个和Midjourney打得难舍难分,引发了一波买显卡“炼丹”“炼妹子”风潮的StableDiffusion,又推出船新版本了。

stablediffusion3:文字渲染能力大升级

就在昨天晚上,StabilityAI在官网来了一波更新,预告了一波 StableDiffusion3 。

根据介绍,新版本在多主题提示、图片质量还有文字渲染能力上都进行了次大升级,模型参数量在800M-8B之间,并且延续了他们家一如既往开源的优秀传统。

更重要的是,它和Sora一样当起了维新派,摒弃了业内常用的U-NET架构,加入Transformer和Diffusion结合的大家族。

stablediffusion3:文字渲染能力大升级

而具体的原理和进步啥的,看不懂没关系,咱们过会儿再聊。

直接先来一波全新的高清无码大图,让大伙们见识下StableDiffusion3的斤两。

stablediffusion3:文字渲染能力大升级

其中文字渲染能力,是这次StableDiffusion3比较突出的一个亮点。

因为不咋识字儿、不怎么会写字儿,可以说是目前文生图、文生视频的通病了。

就拿世超用DALL·E3生成的“Chaping青花瓷”为例,上面汉字不明所以。。。最重要的"Chaping"还拼写错了。。。

基本上可以说自AI画图不会画手之后,把文本渲染成图像里准确的文字,也是个难题。

stablediffusion3:文字渲染能力大升级

而新版本的StableDiffusion,文化水平就明显高了不少。

根据官网给出的案例,给它提示词是“一辆跑车的夜间照片,侧面写着' SD3 ',汽车在赛道上高速行驶,巨大的路标上写着'Faster'的文字”。

生成的图片不但符合描述,文字的位置也没毛病,字体也很清晰。

stablediffusion3:文字渲染能力大升级

但当我们用同样的提示词在DALL·E3生成的时候,文字渲染效果就有些一言难尽了。

Faster倒是没错,但侧面的SD3没有一张图是准确的。

stablediffusion3:文字渲染能力大升级

还有这张,StableDiffusion3生成的是这样的。

stablediffusion3:文字渲染能力大升级

而DALL·E3连incredible都没拼对。

stablediffusion3:文字渲染能力大升级

只不过,现在目前的文字渲染暂时只支持英文,中文还得等上那么一段时间。

再来看这次StableDiffusion3的另一大更新——多主题提示,大伙儿可以把这个理解成,AI在生成图片的过程中漏没漏提示词。

举个例子,这张图的提示词里,大致包括了宇航员、穿着芭蕾舞短裙撑着粉色雨伞的猪、戴着礼帽的知更鸟、还有角落里的“StableDiffusion”几个关键。

stablediffusion3:文字渲染能力大升级

咱先不提图片的质量如何,但该生成的东西起码AI都没落下。

不过有意思的是,在这条推文下有网友把同样的提示词,分别喂给了Midjourney、DALLE-3和Bing。

stablediffusion3:文字渲染能力大升级

看下来,DALLE-3、Bing和Midjourney要不就是知更鸟少了帽子,要不就是“StableDiffusion”单词拼写错误,没一个能打的。

最后,是文生图模型最为关键的图像质量。

StableDiffusion3也是人狠话不多,po了一张这样的图片。

stablediffusion3:文字渲染能力大升级

世超第一眼看到的反应:这难道不是照片???

手帕上的纹理还有老虎刺绣,未免有点过于逼真了吧。。。

还有这张苹果,也是能以假乱真的程度。

stablediffusion3:文字渲染能力大升级

而之所以StableDiffusion3这次能有这么大改变,很大可能要归功于一个跟Sora同源的架构。

以前的StableDiffusion,一般都是用U-net架构+Diffusion扩散模型。而Transformer,也多是用在像GPT类大语言模型上,两种技术各管各的。

而OpenAI则觉得GPT这把咱用Transformer 打赢了,就不改banpick了吧。。。于是就把Transformer架构和Diffusion结合了起来,用在视频上,一顿魔改和大力出奇迹后,就整出了Sora。

StabilityAI团队也是英雄所见略同,把DiffusionTransformer (简称Dit架构)用在了StableDiffusion3上。

有意思的是,关于DiT架构的论文是AI大佬谢赛宁和WilliamPeebles一起写的。

stablediffusion3:文字渲染能力大升级

这个WilliamPeebles,正好是Sora团队的负责人之一。

StabilityAI的老板Emad也在X(推特)上表示,这次确实用到了和sora类似的技术。

stablediffusion3:文字渲染能力大升级

另外,这次StableDiffusion3还用到了一个FlowMatching(流匹配)技术。

因为技术原理过于复杂,咱们可以简单理解成,这是一种用来训练扩散模型的方法。

如果把扩散模型比作魔法画笔,那这个流匹配的作用就是升级画笔,让画笔可以更快、更准确地画出你想要的东西。

世超估计也正是因为这个技术,StableDiffusion3的文化水平才暴增的。

总而言之,光从现有的官方效果图和技术公开来看,这次StableDiffusion3的出现,又把文生图卷到了一个新高度,也证明了Dit架构在文生图、文生视频领域确实是个可行的新方向。

stablediffusion3:文字渲染能力大升级

反正这么下去,保不齐下一波谁家又会拿出重磅更新。

不过大伙儿也别太焦虑,该吃吃该喝喝,要是有时间学学怎么用AI也行。

最后提个醒,StableDiffusion3现在还没正式公测,千万别又让卖课的给骗了。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-25 09:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?
...LLM, Triton, Nemo Megatron 等工具如何为部署模型提供支持,助力大模型更加高效地推理。赵一嘉首先分享了 Stable Diffusion 背后模型的原理详解
2024-08-13 09:39:00
...吕家俊告诉36氪,当前Akool主要有三块生成式AI业务,覆盖文字、图片、视频。电商商家可以通过Akool的平台,生成自身所需的营销素材。在视频场景中,Akool首先可以帮助
2023-05-30 08:11:00
...力,包括广告、网络营销等降本的领域,还有短剧创造、文字IP类等相关领域。(文中观点仅供参考,不构成投资建议,投资有风险,入市需谨慎。)(记者 董湘依 制作 赵晨羽 郑铮 宅男
2024-02-20 15:15:00
商汤升级“日日新5.0”大模型,对标GPT-4Turbo
...立带来了3段完全由大模型生成的视频。未来,输入一段文字或一个完整描述就可以生成一段视频,人物的服饰、发型、场景可预先设定,保持视频内容的连贯性和一致性,“我们会在很短时间内发
2024-04-24 09:32:00
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
...据处理系统,能够混合处理图像与视频数据。该系统包括文字检测、转景检测、美学打分、动作检测、准确度检测等多个维度的功能,进一步提升视频画质。其次,模型引入了多模态大语言模型(D
2024-12-04 09:49:00
腾讯混元文生图大模型升级并对外开源
5月14日消息,腾讯宣布旗下的混元文生图大模型升级并对外开源,目前已经在HuggingFace及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发
2024-05-15 14:23:00
万兴科技AIGC概念迷雾:60秒文生视频能力遭质疑,开月薪10万招AI人才
...至发稿申请仍未通过审核。官网信息显示,天幕主要具备文字生成视频、已有视频风格化处理、文字生成背景音乐、视频配乐、文字生成音效、文字生成图片,以及图片生成图片等7项能力。以市场
2024-05-07 11:13:00
英伟达推出全新文生图ai模型
...更多支持和帮助:更高水平的详细提示,可让图像更符合文字提示。更长的提示:支持更复杂、更长的提示,最多250个单词。先进的镜头控制:更好地控制镜头类型和景深输出。作为更新的一部
2024-07-31 02:34:00
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...;2、图像大模型创新:推出中文原生文生图大模型,突破文字可控生成技术难题;3、全模态技术扩展:新增语音和多模态理解大模型,实现全模态AI技术升级;4、端侧大模型发布:隆重推出
2024-10-14 01:53:00
更多关于科技的资讯:
明势、BAI和蚂蚁,AI投资的乐观派、悲观派和中间派聚在一场圆桌上
文|周鑫雨编辑|苏建勋如今的AI投资人,也分“乐观派”和“悲观派”。2025年9月12日,Inclusion外滩大会。在由36氪CEO冯大刚主持的圆桌论坛“AI应用落地首战
2025-09-14 17:16:00
王兴兴、朱啸虎们说了些AI创业真心话
文|周鑫雨 富充编辑|苏建勋2025年9月11日开幕的Inclusion外滩大会,为当下的AI创业者、学者和投资人,攒了一个“真心话”局
2025-09-14 19:30:00
厦门网讯(厦门日报记者 林钦圣 通讯员 江安娜)近日,我市申报的“车路协同·公交智行可视化”项目入选自然资源部、国家数据局联合发布的2025年实景三维数据赋能高质量发展创新应用典型案例
2025-09-14 08:20:00
AnPro®酵母蛋白获美国GRAS认证,定义未来可持续蛋白新标准
近日,安琪公司自主研发的AnPro®酵母蛋白(海外市场命名:AngeoPro®)正式获得美国食品药品监督管理局(FDA)的GRAS认证
2025-09-14 09:00:00
中新经纬9月13日电 (周奕航 李自曼)“编程教育的核心,不是为了培养未来的程序员,而是通过学习代码来锻炼孩子的认知能力
2025-09-14 09:11:00
合肥博主128万购买纯电动飞机 用于科技测评
大皖新闻讯 9月13日下午,在六安市金安通用机场,合肥知名科技自媒体博主张梦龙(@科技九洲君)领到了证书和钥匙,成为皖企零重力飞机工业旗下纯电动飞机“锐翔RX1E-A”的一名新机主
2025-09-14 11:12:00
沂河之滨续华章,点亮发展新路径——第九届临沂核医学与分子影像会议圆满落幕
鲁网9月14日讯9月13日,第九届临沂核医学与分子影像会议进入第二天议程,众多国内外权威专家继续围绕放射性药物研发、影像技术创新
2025-09-14 13:07:00
海尔金秋家装节 全鲁南抢海尔
当金秋的风吹过海尔智家鲁南区域的大街小巷,你只需要做一件事—打开海尔金秋家装节,全鲁南抢海尔,让"省"成为这个秋天最爽的事
2025-09-14 16:28:00
近日,一部以“2050·慈爱守护智行椅”为主题的公益视频引发关注。该作品聚焦盲人与老年人出行难题,通过科技叙事展现智能辅具如何重塑特殊群体的出行体验
2025-09-14 16:29:00
广东辰奕智能科技股份有限公司因出口商品商标侵权被行政处罚
近日,中华人民共和国大鹏海关发布对广东辰奕智能科技股份有限公司出口侵犯“SONY”、“LG”商标专用权商品案行政处罚结果公示(深鹏关知罚字〔2025〕0154号)
2025-09-14 20:20:00
文具大礼包到数码全家桶,黔西南兴义“开学经济”多元消费场景火爆
随着贵州省2025年秋季学期正式开学,黔西南州各中小学和幼儿园敲响了上课铃,沉寂了一个暑假的校园,恢复了琅琅书声。新学期
2025-09-14 19:28:00
强数字动能,拓发展新局!贵州推动数字经济高质量发展
在国家大数据(贵州)综合试验区交流体验中心,正门口一个由圆形LED屏构成的“数据之眼”十分醒目。这个独特的设计,寓意世界将从这里看见不一样的贵州
2025-09-14 12:11:00
2025年上半年,工银私人银行凭借在综合实力、数字化运营、专业服务、全球网络及绿色可持续发展领域的突出优势,荣获“卓越私人银行奖”“中国最佳数字化营销与传播私人银行”“中国最佳数
2025-09-14 11:45:00
脱口秀演员「炸现场」,喜剧综艺「炸市场」
伴随《喜剧之王单口季》第二季(下称《喜单2》)圆满收官,一众“小人物”也终于走出心底的浪浪山:翟佳宁一语点醒内耗人:唯心主义的最高境界是唯我独尊
2025-09-14 06:43:00
日前,山西转型综改示范区入区企业潞安化工机械(集团)有限公司成功通过国家市场监督管理总局的严格审核,获颁压力容器分析设计(SAD)许可资质
2025-09-14 07:28:00