• 我的订阅
  • 科技

专访HiDream.ai梅涛:视觉模型还未智能涌现,现在还有机会打造一家超越Midjourney的公司|年度AI对话

类别:科技 发布时间:2023-06-25 10:53:00 来源:36氪

文|真梓(315159284)

来源|数字时氪(ID:digital36kr)

5月底的北京神州数码大厦5层,似乎看不出有公司办公的影子。

在这层的东南角,几名装修工人正架着梯子修缮屋顶设施;旁边的墙壁上,前租户字节跳动的Logo还未完全取下;前台没有人影,只有一张红色待客沙发躺在墙角。

而伴着隐隐电钻声往内走两步,一面印着“HiDream.ai”公司字样的墙壁却出现在眼前。

这家名为HiDream.ai(智象未来)的公司,主打人工智能业务,由前京东副总裁、加拿大工程院外籍院士梅涛于今年3月成立。

“最早的办公室是一间在亚运村的公寓。”梅涛向36氪介绍,虽然成立不足三个月,但这处还未完全装修完毕的场所,已是HiDream.ai的第二个办公地点。

用一个月完成从大厂高管到创业者的身份转变,等不及找到电费划算的商用办公地,也不在乎装修的完善度——自从开始创业,梅涛一直处在一种“急迫”的氛围中。他向36氪解释,之所以赶在一个月走完辞职、创业流程,是觉得“再不做就晚了”,会“miss掉整个时代”。

这个在今天如此被重视的机会,必然是生成式AI。

“ChatGPT太‘猛’了。”梅涛向36氪回忆第一次使用这款应用的瞬间,发现它和自己此前在微软参与的、需要强人工协助的对话Bot完全不同,真正称得上“智能化”。

而让他彻底决定入局的,则是Stable Diffusion、Midjourney这类文生图产品。

“五年以前我们生成图片用GAN,其实是判别式的算法,生成内容不可控、细节也不好。”作为以多媒体和视觉为主要研究方向、论文被引用超三万次的专家,梅涛在体验过Stable Diffusion、Midjourney的图片生成效果后,意识到视觉领域同样迎来生成式AI的里程碑。

但技术只是一方面。在京东的产业实践经历让他相信,能否进入工作流才是真正检验一款产品价值的试金石。对比之下,虽然Midjourney已是世界级流行产品,但仍存在着生成的内容不可控,进入工作流困难的问题。

HiDream.ai的切入点也正来于此。它希望围绕视觉,打造生成式多模态基础模型及应用,并让基于此生成的内容,真正进入营销、设计场景的业务流中。

“这是适合我们团队的机会。”梅涛总结。

HiDream.ai种子轮投资人,阿尔法公社创始合伙人许四清也认同这一点。他告诉36氪,梅涛选择的垂类模型+实际应用的赛道,是最匹配他本人背景、经验的选择,也是AIGC走向多模态应用的必经之路,“梅涛在微软、京东经历了学界、业界快二十年的洗礼,既能做模型也能做产品”。因此,阿尔法公社在一周内完成了投资流程。

在这间还在装修的办公室里,梅涛介绍,HiDream.ai已在训练60亿参数的视觉模型,并计划在年底前让模型参数量超过百亿。

而36氪还在demo中看到,针对设计师群体的优化工具,已经和文生图、图生图、文案嵌入等功能一起体现在HiDream.ai的产品中。

当这些成果出现在刚诞生三个月的HiDream.ai身上,似乎证明梅涛的雷厉风行正产生正向效果。

但想跨越Stable Diffusion、Midjourney已建立起的壁垒,就好似一家大语言模型公司,说自己想和OpenAI叫板。而在全球范围内,除却OpenAI,似乎还没有人真正成为生成式AI时代的赢家。

HiDream.ai的dream,刚刚开始。

专访HiDream.ai梅涛:视觉模型还未智能涌现,现在还有机会打造一家超越Midjourney的公司|年度AI对话

HiDream.ai创始人、前京东副总裁、加拿大工程院外籍院士梅涛

以下是36氪和梅涛的对话部分(经编辑):切入营销领域,做超越Midjourney的产品

36氪:第一次用ChatGPT,你的感受是怎样的?

梅涛:当时第一次用,我就发现这个东西太“猛”了,至少开始能听懂人类的指令了。

其实在2009年,我们就在微软研究院内部成立了一个7人小组敢死队,想要破除传统Bot的边界。当时我们希望让大家打开手机,通过一个了解自己喜好的Bot直接获得最合适的购物、娱乐等推荐。但是,当时这种方式需要人工强参与,需要个人输入自己的时间、地点等信息,一个一个去填。

现在,ChatGPT越来越流畅,越来越智能,不需要人工强协助。当我看到它的效果,就觉得如果我再不去做人工智能创业,就miss掉了整个时代。

36氪:ChatGPT背后是语言大模型,看到你更加关注多模态和视觉方向。

梅涛:对,其实十几年前我就开始做AIGC了。最早我们在微软,已经可以通过Video生成一些精彩片段的摘要,放在搜索引擎中替代传统静态的图片结果。后来我们在京东,也做了类似图文营销、文案生成产品,也属于AIGC。但是更深的落地应该是在两年前,我们在公司里立了一个AIGC项目,用3D生成各种商品SKU的数字资产。之前这些素材要请人拍照,或者扫描变成3D的东西再使用,代价很高。所以我们想做一个非常便宜、能够应用的,把二维变成3D资产的项目。

36氪:两年前的探索效果怎样?

梅涛:比较困难。因为当时的算法速度特别慢,需要的算力也非常多,用户体验不是很好。后来,我们就发现每天都有新的模型出来,不管社区还是大公司,大模型出来的速度显然加快了。所以我认为到了一个非常好的时机,如果再不做的话就晚了。

36氪:具体哪个模型让你下定了决心?

梅涛:Diffusion Model。以前我们用GAN做,但它经常不可控,而且生成结果里面10个里可能一半都不太行,细节上也很难提升。后来发现Diffusion Model出来,逼真度确实很好,我当时觉得这就是视觉里面的GPT模型。

GAN的优化目标是,让一个机器来区别图像是人生成的还是机器生成的,只是一个yes or no的区别。其实很多时候机器是可以去欺骗这个判断标准的,因为它的判别式标准的粒度比较粗。

Diffusion Model的逻辑不一样,是说我的图像能不能经过很多步迭代后恢复出原图像。这种方案,将来我们要可控的话很简单,在噪声补偿图上加入一些Prompt或Condition,让它满足我们输入的控制。也就是,把Prompt当作一个条件,放在噪声图像里面,生成一个和Prompt相关的原始图像,结果比GAN好很多,等于可控、细节又自然。

36氪:看到HiDream.ai的定位也在视觉模型范围。

梅涛:我们想做的是生成式视觉多模态基础模型及应用。

我没有说大模型,因为视觉的foundation model和语言相比小很多。现在语言大模型动辄就是千亿级或者大几百亿级的。视觉模型,目前大概是十几个亿二十几个亿的参数,还处于GPT的1.0时代。所以,我们想做一个百亿级的这种视觉基础模型,能够让整个视觉技术模型能力提升一个台阶,类似于从GPT-2跨越到GPT-3。

视觉基础模型包括和视觉相关的几个模态,图像、视频、3D这三种模态都在其中,所以也可以叫它多模态。当然,我们说的模态也是跨模态,可以从文字到图片,文字到视频、文字到3D甚至可以从图片到视频,或者是图片到3D。我们希望用一个基础模型实现跨很多模态的能力,只不过所有的模态都和视觉相关,最后展现的结果就是视觉。

36氪:为什么一定要模型和上层应用一起做?很多应用也基于Diffusion。

梅涛:基础模型一定是要做的,这是我们创业的根本。我自己本身做这个技术做了很多年,我觉得如果自己不做基础层,只做应用,很可能会被下面的模型颠覆、甚至击穿。

所以,我们首先一定要坚持做全球领先的、视觉方面的生成式基础模型,来解决文字和视频、文字和图片、文字和3D之间的相关性问题。

第二我们要再去做一个应用,证明我们基于自己的模型,可以衍生出一个通用的生产力工具。

我们要做一个世界级别的生成式视觉基础模型。首先从模型层面上来说,一定要超过Stable Diffusion。基于这个Model,我们会在上面build一些应用,第一个应用就是文字生成图片,而且是可控的文字生成图片。你可以想象,我们未来要超越Midjourney。

36氪:现在我们的进度是?

梅涛:现在我们已经有一个60亿参数的模型。今年,首先我们的基础模型要做到百亿级参数,进入全球第一梯队,我不能说超过谁,但至少要成为一个全球领先的代表,参数要超过百亿级。第二个指标就是产品,希望能够达到甚至超越目前的Midjourney。

36氪:你觉得超越Midjourney的标准是什么?

梅涛:Midjourney做的非常好,切入的点也非常好,效果也确实不错。它已经把数据和模型的飞轮运转起来,且有反馈。

但其实,它也有很多不足。第一,它满足的要求是非常浅层的,今天大部分用户还是用它来做概念的参考,并没有进入生产流程。第二,它只是一个从文字到图片的生成应用,而且是一次性的,不能修改,无法满足设计师对一些确定性内容的需求,比如,IP形象不能变。

再比如,营销文案里面有些文字和图片结合,所谓的图文混排它现在也做不了。所以,现在Midjourney只是满足了一个非常浅层的需求,并没有到达整个营销工作流程的端到端环节。

当然,Midjourney目前还只是做了一个文字生成图片,但视频的生成会是一个更难的技术,也是一个更大的想像空间。

36氪:所以HiDream.ai至少想在营销场景做的更专业?

梅涛:具体场景可以对比供应链。从产品的设计到生产、运输、物流、再到消费、营销、客服,这个价值链很长。我们现在认为,这个链条里和创意相关的工作就是我们想做的。比如,产品设计和营销这一块是特别需要创意的,对我们来说很重要。

36氪:“创意”这个维度在其中的逻辑是?

梅涛:创意,第一并没有一个客观标准,但要求也不低;第二,创意场景对错误的容忍度是比较高的。今天一个设计师做张图,图看上去挺逼真,但有些地方有点错,没关系,通过一些简单的交互,人为去调一调就调好了。总体来说,首先这个场景对创意的新颖性要求很高,但对错误的容忍度会好一点,这是生成式人工智能最适合切入的场景。

而且,产品的设计和营销的环节是相对来说比较通用的。做好基础模型和应用,游戏、电商、广告各种场景都可以去赋能。

36氪:可以写Prompt控制变量,看到一些分镜剧本已经这么操作。

梅涛:现在不能做到100%的控制。看上去连贯,但做一模一样的,其实还是挺难的。我们的模型,目标也包括提升生成内容的可控性。

理解语义,训练出更聪明的视觉多模态模型

36氪:相比语言大模型,你怎么看视觉模型的进展?

梅涛:GPT的技能,可以认为它把整个世界的知识都记住,存储在它的神经元里面。当你想问任何一个问题的时候,它能够把相关性找出来,串成一个逻辑比较自洽的答案。

现在视觉的一些model,总共才只有十几个二十几个亿参数,它当然记不住。当你问它的时候,可能都不一定找到相应的信息能拼在一起。

图片是整个世界的最原始的表现。语言是文字,可以把整个世界事实存储、压缩,并去掉一些没有用的信息。但我们图片的信息,人眼看到的信息其实比文字类型大得多,而且是没有经过处理的原始信号。

图片、视频其实就是这个世界真实的视觉感知和思维表达,但它是没有任何语义的,要通过理解才能表达出来。比如,今天我们两个人会谈,面前一张桌上有很多水果,那我们到底是在做什么?是开会还是聊天?你要把它转成语义,这个图片才有意义。

所以,视觉本身是比文字要复杂得多的一种模态,并且目前我们最缺一个很好的工具或者算法,能够把图片或者视频很好地投给基础模型,把它变成一个类似文字的、清晰的语义表达。

36氪:高质量数据不足而导致的视觉模型语义理解问题,HiDream.ai准备怎么解决?

梅涛:大参数量可以解决其中的很多问题。第一我们机器能够看到越来越多的训练图片,也就是让机器的素材越来越多。另外我们想把图片、视频还有3D的内容放在同一个框架里面用。

我们也会发布文字到视频的产品,但今天大家训练视频的数据量是有限的。这里数据量有限,指的是一个好的视频和它的文本描述的配对,高质量的配对是很难的。

怎么样才能互补?我们希望能够把视频的内容放进来,和图片形成互补。视频一分钟有60秒,一秒钟有30帧,这么多的冗余细节,加上好的配对,可以极大增强整个数据的容量。那么反过来,图片的质量往往比较好,所以图片数据就可以反过来补充视频。另外,3D的景深信息也能够帮助到生成更逼真的图片内容。总之,图片、视频、3D放在同一个框架里面,可以互相增强,互相形成飞轮。

36氪:这种方案的可行性有多少?

梅涛:我们以前就发现这个是可行的,现在我们还在做大规模的测试。过去这个方向,会有人提出来这些 idea,但是做的效果不好。我们今天是第一次把它做出来。这样做模型的效果是,我们自己对图片、视频的理解更加精细,对图片的可控性,还有细节会做得更好。

可控性有两种。首先基于自研的基础模型,我们能设计一些功能,让设计师在对话框里或者以其他形式去修改,这样就不会出现下一个场景和上一个场景生成的东西完全不一样的情况,解决一致性的问题。另外一种,就是通过加入精细的控制指令,让图片做的更好。

36氪:整体你觉得和语言大模型相比,视觉大模型的训练难点在于?

梅涛:为什么ChatGPT能做到很大规模?除了整个模型架构的记忆能力很强以外,还有一个问题是在于,文字是可以做到自监督学习的,就是说我拿出一个词,用前面的词来预测这个词的产生,或者我中间去掉一个词,根据前后来预测一个词。所以文字很容易做到不经过标注自己来学习。但图片不行,图片你挖掉一块再去恢复,是没有太大的意义的。

图片现在学得更多的是,图里的内容如果用文字来表达,是一个什么样的表达方式。比如我拍了一段视频、拍了一个图片,我可能让5个人来标,每个人标的可能都不一样。当然,我希望标的越细越好,最后把所有的文字拿过来,让模型去学一种图片和文字之间的结构对应关系。

这样高质量的配对是很少的,今天我们要做到大参数量,让图片数量增加,还是得先通过人工或者半人工半自动的方式,才能够产生出很多这样高质量的图片和文本的匹配。

36氪:之前也有不少人用ChatGPT给Midjourney写Prompt,你觉得这种方案怎么样?

梅涛:我们发现直接用语言大模型,其实并不能解决视觉大模型的一些问题。

因为语言大模型侧重对文字本身语义的理解,但是在视觉模型里面,我们用指令来控制图片或者视频的生产时,学到的是文字和视觉信号之间的相关性,这是一个跨模态的东西。

单纯把语言大模型接过来,效果上,产品可能变得没有特别多创意,也不可控。我们现在用的最多的底层模型之一是CLIP,它让我们学到很多文字和图片之间的配对关系,这种相关性使得我们在控制图像生产上更有效。如果直接拿ChatGPT来用,它还是翻译成文字,文字token和图片之间的联系是缺失的。

HiDream.ai要做一个更好、更大的视觉模型,同时它也要具备一个重要功能,就是要理解文字的Prompt。

36氪:如果超大的视觉大模型出现智能涌现,在你的想象中会是什么样的?

梅涛:很难想象。但我首先觉得可能是生成的内容更精细和新颖。将来我们还可以想象它有没有可能生产很多长视频和高逼真的3D内容等等,能够真的把文字、图像、视频、声音放在一起做理解和生成。或许,那就是真正的AGI。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-25 11:45:36

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

作为一家16岁AI公司的董事长,思必驰创始人高始兴在今年初第一次使用ChatGPT时依旧难掩惊艳,“至少,发言稿可以不用专人写作了。”然而,伴随惊艳而来的,还有当时外界对几乎所有
2023-07-27 11:54:00
对话博拉童毅:熬过冬天,矢志成为数字商业的“华为”∣36氪专访
摘要:一家数字科技企业,何以3年增长3倍? 2022年,可能是过去十年来大家感觉最艰难的一年。然而,正如36氪CEO冯大刚在去年底举行的第十届36氪WISE2022 新经济大会致
2023-01-19 17:37:00
36氪专访 | 美图创始人吴欣鸿:AI让我如履薄冰
...着语速翻页的提词器。为什么会有这样的转变?吴欣鸿在专访中回应:VIP订阅的渗透率还有增长的空间,这就迫使美图从生活场景往生产力场景延伸,“要么切实帮用户赚到钱,要么能给用户心
2023-06-30 09:25:00
谁能最早看见AIGC的未来?专访昆仑万维董事长兼CEO方汉丨文娱行业AI巡礼
...平台Club Koala 也即将上市。近日,娱乐资本论·视智未来专访昆仑万维董事长兼CEO方汉,深入探讨了公司在AI方面的最新动向及未来愿景
2023-10-12 17:44:00
思谋科技总裁谢佶隽:变革前夕,500强产业老兵牵手初创独角兽|36氪专访
作者 | 周倩编辑 | 袁斯来整个2023年,人们很难找到另一个行业的热度能和AI媲美。 如果去掉那些围绕科幻小说场景的讨论,怀揣实用主义的行业人士更关注AI技术如何作为一种变革
2023-12-29 09:16:00
作者 | 潘心怡编辑 | 郑怀舟2月26日,MWC 2024(世界移动通信大会)在西班牙巴塞罗那成功开幕,超过300家中国企业参展
2024-03-17 19:11:00
追一科技吴悦:一家做了7年NLP的公司,如何抓住大模型浪潮? | 36氪专访
作者 | 邓咏仪编辑 | 苏建勋2022年11月,ChatGPT面世,带动了大模型的全球热潮,仅仅一年,这波新AI浪潮就迅速快进到在企业侧落地——从AI大厂、创业公司到企业客户,
2023-12-06 14:07:00
对话智谱AI CEO张鹏:我们不做中国的ChatGPT|36氪专访
采访|杨轩 周鑫雨文|周鑫雨编辑|苏建勋守在清华科技园赛尓大厦的大厅,能撞见许多前来拜访的投资人和FA。他们会按下电梯的这几层:17F,今年5月刚搬进了王小川的百川智能;2层和5
2023-09-05 09:22:00
专访小竹财税AI袁林:在通用大模型浪潮中寻找财税大模型的蓝海
引言:在人工智能的浪潮中,大模型技术正逐步成为推动行业发展的关键力量。然而,大模型在实际应用中的落地难题,也引起了行业的广泛关注。为了深入了解大模型技术的发展现状和未来趋势,安徽
2024-04-25 10:30:00
更多关于科技的资讯:
武汉智博会:三翼鸟小场景蕴含大智慧
随着技术变革与消费升级的交织演进,智能家居领域逐渐从单品智能向全屋智能加速升级。在这一过程中,面对越来越多的设备数量,纷繁复杂的产品功能
2025-11-05 21:22:00
家电院评测:海尔智家APP获评“数字孪生3D智慧家庭”
智慧家能被完整“搬”进手机吗?答案是肯定的。日前,海尔智家APP正式上线“3D智慧家庭视图”功能,将平面的APP操控变成3D立体化的可视家
2025-11-05 21:24:00
禾蛙以AI智能体+定向顾问筛选,助力新能源出海项目顺利交付
当前新能源行业蓬勃发展,企业出海已成新常态。然而,海外人才招聘却成为许多企业面临的共同难题——既要精准匹配行业经验与资质
2025-11-05 21:25:00
在武汉智博会,看见三翼鸟智慧家庭的3个进阶
当2025国际(武汉)智能建造产业博览会以前沿科技叩问居住未来时,三翼鸟在核心展区的呈现,正在印证行业的一个关键转变:智能家居的竞争
2025-11-05 21:25:00
在快节奏的现代餐饮业中,商用炒菜机器人以其高效、稳定、卫生的特点,逐渐成为各大餐厅、食堂后厨的得力助手。今天,我们特别推荐包括鸿博智成在内的10款商用炒菜机器人
2025-11-05 21:26:00
中国东航×MSC邮轮首推“航空+邮轮”梦旅计划
记者从中国东航获悉,2025年11月5日起,中国东航将与全球著名邮轮品牌MSC地中海邮轮正式启动国内首个“航空+邮轮”联合会员计划——“东方航空MSC地中海邮轮联合会员”
2025-11-05 15:29:00
海工核心装备自主化取得新突破全国首台(套)船用SCV模块化装置成功交付南报网讯(通讯员张正平记者张希)近日,由江宁高新区企业中圣科技集团旗下中圣高科公司自主研发的全国首台(套)应
2025-11-05 08:17:00
□南京日报/紫金山新闻记者余梦娇通讯员彭蓉10月31日,在“向栖霞·享未来”2025年栖霞区秋季引才校园行南京财经大学站专场招聘会上
2025-11-05 09:56:00
智艺共生:AI赋能传播设计研究生作品展开幕
展览开幕历经三十余载积淀与发展,中国传媒大学广告与品牌学院以教学、科研与创意实践的融合创新,持续引领设计教育的前沿进程
2025-11-05 10:56:00
大皖新闻讯 11月5日,威马汽车在其官方微信号发布消息称,“我们很高兴地宣布,小威随行APP于2025年11月5日重新上线iOS和Android平台
2025-11-05 11:00:00
钉钉AI表格支持千万热行,超复杂实时计算真实可用
11月5日,钉钉AI表格宣布成为业内首个单表容量支持1000万热行的智能表格,目前已率先应用于“老字号”餐饮德香苑烤鸭等多家连锁零售
2025-11-05 11:23:00
沂南农商银行:助力科技企业打造新领域标杆
鲁网11月5日讯一根摩丝仅比头发丝略粗一点,但中间却是空的,这款膜组件直径36毫米,里面装了2000多根摩丝,直径最大的膜组件超过600毫米
2025-11-05 11:44:00
科技为骨,情感为魂:米连科技如何用温度重塑品牌连接
在竞争激烈的市场中,技术和服务是骨架,而品牌情感则是血肉。米连科技的过人之处,在于它成功地将“帮助用户获得爱与归属感”这一企业使命
2025-11-05 13:58:00
2025留学机构推荐:高口碑中介综合评测
在当前全球教育交流日益频繁的趋势下,越来越多的学生选择出国深造,出国留学中介机构因此承担起连接国内外教育资源的重要角色
2025-11-05 11:09:00
在线许愿,“听劝”的Leader统帅成了年轻人最想@的家电品牌
一条评论区里的留言,一次产品论坛里的建议,甚至是一段短视频下的“许愿”……这些散落在互联网角落的零散声音,正被统帅仔细收集起来
2025-11-05 11:07:00