• 我的订阅
  • 科技

紫东.太初再进化,揭秘全模态大模型的想象力

类别:科技 发布时间:2023-05-12 06:00:00 来源:砍柴网

作者:Alter

半个月前的一场内部分享中,奇绩创坛创始人陆奇直言:他已经跟不上大模型时代的“狂飙”速度了。

在ChatGPT引发的现象级讨论下,千亿级大模型的军备竞赛愈演愈烈,不少企业赶趟儿式的交出了自家的大模型答卷。尽管大模型的质量参差不齐,却再一次诠释了“量变引起质变”的哲学规律。

日前结束的昇腾AI开发者峰会2023上,中国科学院自动化研究所“紫东.太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥在演讲中介绍了基于昇腾AI与昇思MindSpore AI框架打造的全模态大模型紫东.太初2.0,并首次提出全模态多任务统一生成式学习框架。

借用Hugging Face联合创始人Thomas Wolf的说法:“在过去的几年里,好的多模态模型一直是许多大型技术实验室的圣杯。”当大模型进入到全模态时代,将对整个产业链带来哪些影响?

01 什么是全模态大模型?

以往提到大模型的时候,最惹眼的名词无疑是“参数”,从1.1亿参数的GPT到1750亿参数的GPT-3,千亿级参数几乎成了大模型的“准入门槛”,毕竟模型的参数量越大,泛化性可能就越强。

其实还有另外一种分类标准,即模态,分别对应单模态、多模态、全模态等不同类型,比如一鸣惊人的GPT-3就属单模态大模型,紫东.太初1.0和GPT-4属于多模态大模型,紫东.太初2.0是全球首个全模态大模型。

紫东.太初再进化,揭秘全模态大模型的想象力

至于其中的差别,可以从三个维度进行拆解:

首先是原理。

所谓的模态,即大模型可以处理的数据类型。单模态大模型只能处理一种类型的数据,也是出现语言、语音、视觉等不同模态大模型的原因所在,就像GPT-3系列就只有处理自然语言的能力。

顾名思义,多模态大模型意味着可以处理多个模态的数据,比如首个三模态大模型紫东.太初1.0,可以利用文本、图片、音频三种模态数据进行跨模态的统一表征和学习。对应到全模态大模型,泛指可以利用文本、图片、音频、视频、3D等不同模态的数据进行跨模态的统一表征和学习,更接近人类的学习方式。

其次是成本。

ChatGPT刚刚走红的时候,不少人在讨论OpenAI的训练成本,据悉GPT-3训练一次的硬件和电力成本高达1200万美元,由此出现了这样一种流行说法:每一个大模型都是一台昂贵的“碎钞机”。

有别于单模态大模型的是,紫东.太初1.0代表的多模态大模型,通过建立弱关联多模态数据语义统一表示,支持三种或任两种模态数据混合训练,进而减少了数据收集清洗的代价;到了全模态大模型阶段,紫东.太初2.0的一个鲜明特点在于全模态低成本协同优化学习,能够融合多任务全模态能力,进而降低训练成本。

最后是能力。

大模型领域有“大力出奇迹”的信仰,根源在于大模型的“涌现”现象,当大模型的参数量超过某个阈值(一般说法是参数量达到600-1000亿),模型会出现一些意想不到的复杂能力,譬如类似人类的思维和推理能力。

正如前面所提到的,紫东.太初2.0首次提出了全模态多任务统一生成式学习框架,即全模态分组对齐、分组解码和联合解码的学习方式,形成了全模态逻辑推理链。而跨模态迁移更有利于知识获取,产生更多新的能力,紫东.太初2.0有望加速能力涌现,进一步突破感知、认知和决策的交互屏障。

相较于比拼参数、算力和数据的“大模型炼丹术”,由单模态到多模态再到全模态的进化,可以自动学习到复杂的特征和模式,实现更准确和更高效的预测和决策,同样是走向通用人工智能的必由之路。

02 大模型为何需要开源?

如果说“全模态”是紫东.太初2.0的第一个闪光点,另一个值得关注的消息是:紫东.太初2.0-3.8B模型已经在昇思MindSpore社区开源,相比于紫东.太初1.0,支持更细粒度的图像识别、更具知识的视觉问答、更丰富的图像描述。

似乎有必要重温下开源和闭源的故事。

1997年,著名黑客埃里克·斯蒂芬·雷蒙在《大教堂与市集》一书中预测了两种不同的自由软件开发模式:一种是大教堂模式,原始代码是公开的,但每个版本的开发过程由一个专属的团队管控;一种是市集模式,原始代码同样是公开的,不过是放在互联网上供人检视及开发,最直接的例子就是Linux。

最终“市集模式”证明了开源比闭源更加高效,全球99%的组织在IT系统中使用了大量的开源代码,开源的价值也被越来越多的企业重视。

紫东.太初再进化,揭秘全模态大模型的想象力

2020年以前的时候,OpenAI信奉的也是开源策略,但在商业利益的诱惑下,GPT-3选择了闭源,只针对开发者提供API,OpenAI由此被戏称为ClosedAI,以至于国内的几家大模型厂商也选择了API模式。

再来理解紫东.太初系列大模型在昇思MindSpore社区开源的现实意义,或许可以找到一些不同的答案。

一是价格层面。开源没有所谓的许可或使用费,只要有足够的算力和数据,就可以在昇思社区上下载紫东.太初2.0-3.8B训练自己的大模型。而闭源的成本取决于软件的规模,目前OpenAI的ChatGPT API的最新接口调用费是每千次token约0.002美元,折合人民币0.014元,还是多次降价的结果。

二是安全层面。开源软件有一个完整的社区来审查代码,而闭源是由单一平台负责修改漏洞,出现了错误可能无法被及时改正。况且大模型的安全问题远不止于此,据传三星电子引入ChatGPT不到20天时间,就曝出有机密数据外泄,明令宣布禁止员工使用ChatGPT、Google Bard、Bing等生成式AI工具。

三是产业层面。开源世界里流传着一句格言:社区重于代码,因为开源社区的聚合和放大效应比开源代码更有价值。特别是方兴未艾的大模型领域,开源的本质是协同和创新,协同是全世界所有开源方力量的协同,创新是一个技术的创新,相比于各自为战的闭源模式,开源更利于产业生态的培养和繁荣。

紫东.太初2.0宣布开源的同时,同步升级了紫东.太初开放服务平台,不仅支持公有云、私有云、混合云在内的多种部署方式,兼容昇腾、英伟达、AMD、英特尔等不同AI硬件,作为AI框架的昇思MindSpore还提供了数据中心、训练中心、模型中心、推理中心在内大模型微调套件,进一步降低了大模型的开发门槛,并通过一键式微调、低参数调优等提高了开发效率。

全模态大模型的“神奇能力”,于开发者而言不再遥不可及。

03 大模型的价值在“落地”

也许就现阶段而言,还无法为开源和闭源的胜败下定论。可对于呼唤大模型的千万家企业来说,比部署方式更重要的其实是落地,如果大模型的能力不能转变为产业价值,再美好的故事也将是泡沫。

所以在对话式机器人舆情汹涌时,不少大模型并未急于跟进,因为大模型领域的参与者们都很清楚:华而不实地凑热闹终归会被狂飙的车轮碾压,产业落地才是大模型赛道避免泡沫化的铁律。

再确切一些的话,大模型通常在大规模无标记数据上进行训练,以学习某种特征和规则,而基于大模型开发应用时,只需对大模型进行微调,就可以完成多个应用场景的任务。如果说过去的AI应用是“手工作坊”式的,在大模型的驱动下,人工智能的产业落地正在向“工厂流水线”模式演变。

至少基于昇思MindSpore AI框架的紫东.太初大模型已经印证了这一点。

比如面向开发者和个人用户,武汉人工智能研究院推出了“江城洛神”AI内容创作平台,通过紫东.太初的图像描述能力、跨模态检索能力,“江城洛神”能够自动构建AIGC的训练数据,通过文本对于生成图片的细粒度信息进行控制,例如头发的颜色、人物的表情、背景的效果、风格的定义等等。

同类平台需要输入多个提示词才能准确生图时,“江城洛神”已经通过自然语言实现了“一语成画”。鉴于紫东.太初2.0的视觉知识推理和生成,不排除会衍生出图生文、图像分类识别等个性化的新玩法。

再比如面向行业的多模态人工智能产业联合体,目的是整合产学研用各方资源,打造多模态人工智能行业应用,探索通用人工智能产业化路径,目前已经有华为、中国移动、长安汽车等66位成员参与其中。

紫东.太初再进化,揭秘全模态大模型的想象力

直接的例子就是大模型在智能座舱中的应用。基于“紫东.太初”多模态大模型,长安汽车引入了元宇宙的概念,创造出了YYDS虚拟数字人。和其他车内语音助手最大的不同,“YYDS”允许用户复刻自己或亲人的形象、声音,可以捏出自己专属的语音助手,实现了千人千面的个性化需求满足。

可以找到的案例还有很多,比如紫东.太初2.0大模型在智慧法律、智慧交通、智慧政务、智慧医疗等场景中的深入落地。

或许这才是全模态大模型的正确打开方式,正在从过去的“一专一能”向“多专多能”过渡。在昇思MindSpore等开源社区的推动下,大模型不仅赋予了普通开发者使用AI的能力,也拉近了千行百业智能化转型的距离。

不出意外的话,紫东.太初2.0开创的将不只是“全模态大模型”的先河,一场以落地考验价值的产业大考悄悄拉开了帷幕。

04 写在最后

即使从2018年OpenAI的GPT算起,“大数据+大模型”的行业布道也不过才进入第五个年头,期间或许有挫折,但井喷式爆发已经是注定的事实。

而在文本、图片、音频等数据的基础上,进一步融入3D、视频、传感信号等多模态数据的紫东.太初2.0,注定了大模型进阶之路的新转折点,通过优化语音、视频和文本的融合认知以及常识计算等功能,正在让人工智能从感知世界进化为认知世界,延伸出更加强大的通用能力,不断刷新人们的想象空间。返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-05-12 12:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全球首个全模态大模型紫东太初2.0发布,中科院王金桥:希望实现更类人的智能
...。会上,基于昇思AI框架的全球首个全模态大模型“紫东.太初2.0”正式发布,支持多轮问答、文本创作、图像生成、3D理解、信号分析等跨模态任务。“我们的初心就是希望机器实现更类
2023-06-18 15:00:00
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token
...正如阿里巴巴CEO吴泳铭在2024年云栖大会上指出,AI的最大想象力并非局限于创造新的移动应用,而在于彻底重塑物理世界
2024-09-20 09:51:00
两个周鸿祎 杀入“百模大战”
...是周鸿祎,还是360,都已然将靶心瞄准了大模型这一充满想象力的最新技术故事。事实上进入2023年之后,周鸿祎的所有一切便围绕着大模型展开。在微博,或者在一些公开会议场合,只要
2023-06-14 11:31:00
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...频生成领域。如张鹏曾感慨:“应该打造尽可能拓展用户想象力的产品,基于大模型的技术为用户提供优质的服务和全新的体验,把用户的想象力切实化作生产力,这是我们对想象力必答题的回答。
2024-07-27 10:00:00
吉利星睿AI大模型正式发布 引领中国汽车进入全场景AI时代
...故事,并声情并茂地进行导读,实现寓教于乐,激发孩子想象力和创造力。在刚刚上市的吉利银河E8上,吉利又进阶推出“AI语音”、“AI音乐律动”、“AI回忆”、“AI时光引擎”等多
2024-01-11 11:18:00
多模态能力的进化,是AI眼镜成为生活必需品的关键
AI 浪潮下,多模态能力成为 AI 领域,特别是 AI 眼镜行业的高频热词。不少专家坚信,这项技术是突破单一交互局限的关键,有望重塑 AI 眼镜的使用体验。所谓多模态能力,即整合
2025-04-08 17:49:00
小度、可口可乐强强联合,国内AIGC品牌与多模态大模型深度结合迎来里程碑产品
...度灵机大模型技术支持下,搭建起用户畅想3000年、释放想象力和创造力的平台,带来现实与虚拟世界之间的乐创互动体验。这也是可口可乐首次在国内与中国科技品牌在AIGC领域的深度联
2023-09-15 15:44:00
...专业人士都能将心中所想快速、自动化地实现,通过解放想象力进而提升创造力和生产力。以下是投资方投资人观点: 蚂蚁集团:预训练模型、扩散模型等关键算法和模型的出现与演进推动了生成
2023-06-19 09:03:00
●多模态使人形机器人能融合图像、语义、力感知、环境感知等多种因素,综合判断、生成任务并执行任务,是让人形机器人具有自主思考能力的关键核心技术●标志着成都在我国多模态模型应用于人形
2024-08-13 06:37:00
更多关于科技的资讯:
大河网讯 人工智能是新一轮科技革命和产业变革的重要驱动力量,对全球经济社会发展和人类文明进步产生了深远影响。9月5日,2025世界智能产业博览会在长江之畔重庆开幕
2025-09-06 13:08:00
国家级5G工厂,钟经开+1!
近日,工业和信息化部公示了《2025年5G工厂名录》钟楼经济开发区企业江苏电力装备有限公司成功入选成为继江苏精研科技股份有限公司后钟楼区第二家国家级5G工厂5G工厂是充分利用以5G为代表的新一代信息通信技术
2025-09-06 06:08:00
从玻璃到微纳新材料 从企业更名看龙口一家民企的转型跃迁
大众网记者 林晓冬 烟台报道说起玻璃大家都不陌生,餐桌玻璃、门窗玻璃都与我们的日常生活息息相关,但在烟台龙口有一家企业多年来持续在玻璃上“钻研”
2025-09-05 09:08:00
科创泉城 智启未来| “硬科创”需要“软传播”,网络达人共话“出圈”新思路
9月4日下午,在济南市委网信办联合山东省互联网传媒集团举办的“科创泉城 智启未来”知名网络达人济南采风活动的对话沙龙上
2025-09-05 09:51:00
本报讯(记者雷嘉)围绕国产车规级芯片搭载应用,北京市科委、中关村管委会会同北京市智慧城市基础设施与智能网联汽车协同发展办公室
2025-09-05 11:08:00
河北新闻网讯(王丽英)“后厨不只是生产中心,更是服务体验的心脏。”“服务不仅仅是完成交易的过程,更是以关怀为主利他主义精神的体现
2025-09-05 11:08:00
海信冰箱五款产品通过中国家用电器研究院自动制冰性能认证
日前,经中国家用电器研究院严格检测与评估,海信冰箱旗下五款产品成功通过“电冰箱自动制冰性能认证”,并获颁认证证书。此次获证不仅是对海信冰箱自动制冰技术性能的肯定
2025-09-05 11:57:00
京东全球80+高校招聘 清华、剑桥等80校专场 现场面试拿offer!
9月5日,京东招聘公众号发文:全球80+高校!京东2026校园招聘进校行程发布。文中称:将在全球20+城市,80+院校
2025-09-05 12:10:00
花一万元植入DeepSeek,一场没有终点的流量游戏
文|邓咏仪编辑|苏建勋让你的产品在DeepSeek的答案里有一席之地,需要多少钱?答案是:数千甚至上万元。人在哪,流量就在哪
2025-09-05 14:56:00
爱尔眼科开启老视多学科诊疗新时代
9月4日,2025年屈光性白内障手术国际论坛(IRCS)暨第一届老视矫正MDT管理国际高峰论坛在杭州举办我国超八成60岁以上老年人正面临老视(老花眼)与白内障的“双重眼病困扰”
2025-09-05 15:18:00
获SIAL创新奖:诺啦格兰诺拉脆片让生活更美好  
消费日报网讯 9月1日,在2025 SIAL西雅国际食品展(深圳)举办同期,第24届SIAL创新大赛获奖榜单正式发布。吉丽莎(广州)贸易有限公司选送的产品诺啦格兰诺拉脆片跻身TOP10
2025-09-05 15:18:00
桃李面包广告语引争议“五仁不好吃是你还年轻”官方账号发文:领导拍的板,这个锅只能他来背
近日,桃李面包一则电梯广告文案引发争议。社交平台上流传的图片显示,桃李蛋月烧产品的广告语写道:“有人说五仁不好吃,我们认为
2025-09-05 15:29:00
京东超市布局产地直采 加大力度进口澳洲水果 助力澳洲水果深耕中国市场
今年开始,京东超市加大力度布局澳洲水果的供给和销售,投入资源帮助澳洲橙子、提子等水果进一步扩大销量。近日,在2025中国国际水果展上
2025-09-05 15:30:00
潍坊寿光市圣城街道一企业酿出康养“新食尚”
大众网记者 刘建永 潍坊报道为企赋能、助企发展是区域经济高质量发展的推动器。潍坊寿光市圣城街道在政策引领、优化营商环境
2025-09-05 15:50:00
大众网记者 王帅 通讯员 孙丽霞 杨阳 潍坊报道走进山东禾汇食品有限公司黄豆酱生产车间,一排排瓶装黄豆酱准备打包装箱,发往各大连锁商超
2025-09-05 15:50:00