我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

紫东.太初再进化，揭秘全模态大模型的想象力

类别：科技发布时间：2023-05-12 06:00:00 来源：砍柴网

作者：Alter

半个月前的一场内部分享中，奇绩创坛创始人陆奇直言：他已经跟不上大模型时代的“狂飙”速度了。

在ChatGPT引发的现象级讨论下，千亿级大模型的军备竞赛愈演愈烈，不少企业赶趟儿式的交出了自家的大模型答卷。尽管大模型的质量参差不齐，却再一次诠释了“量变引起质变”的哲学规律。

日前结束的昇腾AI开发者峰会2023上，中国科学院自动化研究所“紫东.太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥在演讲中介绍了基于昇腾AI与昇思MindSpore AI框架打造的全模态大模型紫东.太初2.0，并首次提出全模态多任务统一生成式学习框架。

借用Hugging Face联合创始人Thomas Wolf的说法：“在过去的几年里，好的多模态模型一直是许多大型技术实验室的圣杯。”当大模型进入到全模态时代，将对整个产业链带来哪些影响？

01 什么是全模态大模型？

以往提到大模型的时候，最惹眼的名词无疑是“参数”，从1.1亿参数的GPT到1750亿参数的GPT-3，千亿级参数几乎成了大模型的“准入门槛”，毕竟模型的参数量越大，泛化性可能就越强。

其实还有另外一种分类标准，即模态，分别对应单模态、多模态、全模态等不同类型，比如一鸣惊人的GPT-3就属单模态大模型，紫东.太初1.0和GPT-4属于多模态大模型，紫东.太初2.0是全球首个全模态大模型。

至于其中的差别，可以从三个维度进行拆解：

首先是原理。

所谓的模态，即大模型可以处理的数据类型。单模态大模型只能处理一种类型的数据，也是出现语言、语音、视觉等不同模态大模型的原因所在，就像GPT-3系列就只有处理自然语言的能力。

顾名思义，多模态大模型意味着可以处理多个模态的数据，比如首个三模态大模型紫东.太初1.0，可以利用文本、图片、音频三种模态数据进行跨模态的统一表征和学习。对应到全模态大模型，泛指可以利用文本、图片、音频、视频、3D等不同模态的数据进行跨模态的统一表征和学习，更接近人类的学习方式。

其次是成本。

ChatGPT刚刚走红的时候，不少人在讨论OpenAI的训练成本，据悉GPT-3训练一次的硬件和电力成本高达1200万美元，由此出现了这样一种流行说法：每一个大模型都是一台昂贵的“碎钞机”。

有别于单模态大模型的是，紫东.太初1.0代表的多模态大模型，通过建立弱关联多模态数据语义统一表示，支持三种或任两种模态数据混合训练，进而减少了数据收集清洗的代价；到了全模态大模型阶段，紫东.太初2.0的一个鲜明特点在于全模态低成本协同优化学习，能够融合多任务全模态能力，进而降低训练成本。

最后是能力。

大模型领域有“大力出奇迹”的信仰，根源在于大模型的“涌现”现象，当大模型的参数量超过某个阈值（一般说法是参数量达到600-1000亿），模型会出现一些意想不到的复杂能力，譬如类似人类的思维和推理能力。

正如前面所提到的，紫东.太初2.0首次提出了全模态多任务统一生成式学习框架，即全模态分组对齐、分组解码和联合解码的学习方式，形成了全模态逻辑推理链。而跨模态迁移更有利于知识获取，产生更多新的能力，紫东.太初2.0有望加速能力涌现，进一步突破感知、认知和决策的交互屏障。

相较于比拼参数、算力和数据的“大模型炼丹术”，由单模态到多模态再到全模态的进化，可以自动学习到复杂的特征和模式，实现更准确和更高效的预测和决策，同样是走向通用人工智能的必由之路。

02 大模型为何需要开源？

如果说“全模态”是紫东.太初2.0的第一个闪光点，另一个值得关注的消息是：紫东.太初2.0-3.8B模型已经在昇思MindSpore社区开源，相比于紫东.太初1.0，支持更细粒度的图像识别、更具知识的视觉问答、更丰富的图像描述。

似乎有必要重温下开源和闭源的故事。

1997年，著名黑客埃里克·斯蒂芬·雷蒙在《大教堂与市集》一书中预测了两种不同的自由软件开发模式：一种是大教堂模式，原始代码是公开的，但每个版本的开发过程由一个专属的团队管控；一种是市集模式，原始代码同样是公开的，不过是放在互联网上供人检视及开发，最直接的例子就是Linux。

最终“市集模式”证明了开源比闭源更加高效，全球99%的组织在IT系统中使用了大量的开源代码，开源的价值也被越来越多的企业重视。

2020年以前的时候，OpenAI信奉的也是开源策略，但在商业利益的诱惑下，GPT-3选择了闭源，只针对开发者提供API，OpenAI由此被戏称为ClosedAI，以至于国内的几家大模型厂商也选择了API模式。

再来理解紫东.太初系列大模型在昇思MindSpore社区开源的现实意义，或许可以找到一些不同的答案。

一是价格层面。开源没有所谓的许可或使用费，只要有足够的算力和数据，就可以在昇思社区上下载紫东.太初2.0-3.8B训练自己的大模型。而闭源的成本取决于软件的规模，目前OpenAI的ChatGPT API的最新接口调用费是每千次token约0.002美元，折合人民币0.014元，还是多次降价的结果。

二是安全层面。开源软件有一个完整的社区来审查代码，而闭源是由单一平台负责修改漏洞，出现了错误可能无法被及时改正。况且大模型的安全问题远不止于此，据传三星电子引入ChatGPT不到20天时间，就曝出有机密数据外泄，明令宣布禁止员工使用ChatGPT、Google Bard、Bing等生成式AI工具。

三是产业层面。开源世界里流传着一句格言：社区重于代码，因为开源社区的聚合和放大效应比开源代码更有价值。特别是方兴未艾的大模型领域，开源的本质是协同和创新，协同是全世界所有开源方力量的协同，创新是一个技术的创新，相比于各自为战的闭源模式，开源更利于产业生态的培养和繁荣。

紫东.太初2.0宣布开源的同时，同步升级了紫东.太初开放服务平台，不仅支持公有云、私有云、混合云在内的多种部署方式，兼容昇腾、英伟达、AMD、英特尔等不同AI硬件，作为AI框架的昇思MindSpore还提供了数据中心、训练中心、模型中心、推理中心在内大模型微调套件，进一步降低了大模型的开发门槛，并通过一键式微调、低参数调优等提高了开发效率。

全模态大模型的“神奇能力”，于开发者而言不再遥不可及。

03 大模型的价值在“落地”

也许就现阶段而言，还无法为开源和闭源的胜败下定论。可对于呼唤大模型的千万家企业来说，比部署方式更重要的其实是落地，如果大模型的能力不能转变为产业价值，再美好的故事也将是泡沫。

所以在对话式机器人舆情汹涌时，不少大模型并未急于跟进，因为大模型领域的参与者们都很清楚：华而不实地凑热闹终归会被狂飙的车轮碾压，产业落地才是大模型赛道避免泡沫化的铁律。

再确切一些的话，大模型通常在大规模无标记数据上进行训练，以学习某种特征和规则，而基于大模型开发应用时，只需对大模型进行微调，就可以完成多个应用场景的任务。如果说过去的AI应用是“手工作坊”式的，在大模型的驱动下，人工智能的产业落地正在向“工厂流水线”模式演变。

至少基于昇思MindSpore AI框架的紫东.太初大模型已经印证了这一点。

比如面向开发者和个人用户，武汉人工智能研究院推出了“江城洛神”AI内容创作平台，通过紫东.太初的图像描述能力、跨模态检索能力，“江城洛神”能够自动构建AIGC的训练数据，通过文本对于生成图片的细粒度信息进行控制，例如头发的颜色、人物的表情、背景的效果、风格的定义等等。

同类平台需要输入多个提示词才能准确生图时，“江城洛神”已经通过自然语言实现了“一语成画”。鉴于紫东.太初2.0的视觉知识推理和生成，不排除会衍生出图生文、图像分类识别等个性化的新玩法。

再比如面向行业的多模态人工智能产业联合体，目的是整合产学研用各方资源，打造多模态人工智能行业应用，探索通用人工智能产业化路径，目前已经有华为、中国移动、长安汽车等66位成员参与其中。

直接的例子就是大模型在智能座舱中的应用。基于“紫东.太初”多模态大模型，长安汽车引入了元宇宙的概念，创造出了YYDS虚拟数字人。和其他车内语音助手最大的不同，“YYDS”允许用户复刻自己或亲人的形象、声音，可以捏出自己专属的语音助手，实现了千人千面的个性化需求满足。

可以找到的案例还有很多，比如紫东.太初2.0大模型在智慧法律、智慧交通、智慧政务、智慧医疗等场景中的深入落地。

或许这才是全模态大模型的正确打开方式，正在从过去的“一专一能”向“多专多能”过渡。在昇思MindSpore等开源社区的推动下，大模型不仅赋予了普通开发者使用AI的能力，也拉近了千行百业智能化转型的距离。

不出意外的话，紫东.太初2.0开创的将不只是“全模态大模型”的先河，一场以落地考验价值的产业大考悄悄拉开了帷幕。

04 写在最后

即使从2018年OpenAI的GPT算起，“大数据+大模型”的行业布道也不过才进入第五个年头，期间或许有挫折，但井喷式爆发已经是注定的事实。

而在文本、图片、音频等数据的基础上，进一步融入3D、视频、传感信号等多模态数据的紫东.太初2.0，注定了大模型进阶之路的新转折点，通过优化语音、视频和文本的融合认知以及常识计算等功能，正在让人工智能从感知世界进化为认知世界，延伸出更加强大的通用能力，不断刷新人们的想象空间。返回搜狐，查看更多

责任编辑：

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-05-12 12:45:12

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于太初,模态,想象力,进化,模型,模态的资讯：

全球首个全模态大模型紫东太初2.0发布，中科院王金桥：希望实

...。会上，基于昇思AI框架的全球首个全模态大模型“紫东.太初2.0”正式发布，支持多轮问答、文本创作、图像生成、3D理解、信号分析等跨模态任务。“我们的初心就是希望机器实现更类

2023-06-18 15:00:00

阿里CEO吴泳铭：生成式AI让世界有了一个统一的语言——To

...正如阿里巴巴CEO吴泳铭在2024年云栖大会上指出，AI的最大想象力并非局限于创造新的移动应用，而在于彻底重塑物理世界

2024-09-20 09:51:00

两个周鸿祎杀入“百模大战”

...是周鸿祎，还是360，都已然将靶心瞄准了大模型这一充满想象力的最新技术故事。事实上进入2023年之后，周鸿祎的所有一切便围绕着大模型展开。在微博，或者在一些公开会议场合，只要

2023-06-14 11:31:00

更快、更强、更可控：智谱“起舞弄清影”，视频生成卷出新高度！

...频生成领域。如张鹏曾感慨：“应该打造尽可能拓展用户想象力的产品，基于大模型的技术为用户提供优质的服务和全新的体验，把用户的想象力切实化作生产力，这是我们对想象力必答题的回答。

2024-07-27 10:00:00

吉利星睿AI大模型正式发布引领中国汽车进入全场景AI时代

...故事，并声情并茂地进行导读，实现寓教于乐，激发孩子想象力和创造力。在刚刚上市的吉利银河E8上，吉利又进阶推出“AI语音”、“AI音乐律动”、“AI回忆”、“AI时光引擎”等多

2024-01-11 11:18:00

多模态能力的进化，是AI眼镜成为生活必需品的关键

AI 浪潮下，多模态能力成为 AI 领域，特别是 AI 眼镜行业的高频热词。不少专家坚信，这项技术是突破单一交互局限的关键，有望重塑 AI 眼镜的使用体验。所谓多模态能力，即整合

2025-04-08 17:49:00

小度、可口可乐强强联合，国内AIGC品牌与多模态大模型深度结

...度灵机大模型技术支持下，搭建起用户畅想3000年、释放想象力和创造力的平台，带来现实与虚拟世界之间的乐创互动体验。这也是可口可乐首次在国内与中国科技品牌在AIGC领域的深度联

2023-09-15 15:44:00

聚焦产业级多模态大模型研发，清华团队「生数科技」完成近亿元天

...专业人士都能将心中所想快速、自动化地实现，通过解放想象力进而提升创造力和生产力。以下是投资方投资人观点：蚂蚁集团：预训练模型、扩散模型等关键算法和模型的出现与演进推动了生成

2023-06-19 09:03:00

机器人多模态模型及双臂协作系统在川发布

●多模态使人形机器人能融合图像、语义、力感知、环境感知等多种因素，综合判断、生成任务并执行任务，是让人形机器人具有自主思考能力的关键核心技术●标志着成都在我国多模态模型应用于人形

2024-08-13 06:37:00

更多关于科技的资讯：

1元租机器人，线下开首店：人形机器人打响大众化“发令枪”

大皖新闻讯 2025年的最后两天，中国的人形机器人产业以两件标志性事件，为即将到来的2026年按下了商业化加速键。一边是擎天租以“1元闪租”的体验价格将可以“打太极”的人形机器人推向大众市场

2025-12-30 21:48:00

$从\$

从"碳基"到"硅基"：中国首次构建"数字永生"全链条技术闭环

鲁网12月30日讯12月30日，在济南召开的"永生之手叩响仿生机器人元年之门"主题峰会上，山东未来机器人技术有限公司首次提出将人类生命划分为"碳基阶段"与"硅基阶段"的颠覆性理论框架

2025-12-30 22:13:00

贵州艺森源集团：从手工敲打到智能轰鸣书写酒包装产业升级答卷

多彩贵州网讯近日，贵州艺森源集团有限公司生产车间内，智能设备高效运转，自动化生产线有序作业，一派繁忙景象。历经十年深耕

2025-12-30 22:38:00

浪潮智慧文旅“智享商旅聚力同行”2025浪潮商旅服务日成功

鲁网12月30日讯12月25日，由山东浪潮智慧文旅产业发展有限公司主办、山东浪潮智慧空间技术服务有限公司承办的“智享商旅·聚力同行——2025浪潮商旅服务日”在浪潮科技园圆满落幕

2025-12-30 17:23:00

涌金楼丨浙江老板为何爱在“CNS”发论文？

潮新闻讯浙商，是商业期刊的常客。2025年，他们的名字却接连登上《细胞》（Cell）《自然》（Nature）《科学》（Science）等学术期刊的作者栏

2025-12-30 17:52:00

悟思想伟力·看实践创新｜出口全球的电池，来自乌蒙山区

扎根毕节十年，年产能超7500万只，出口覆盖欧非亚——贵州贵航新能源科技有限公司，已成为推动区域新能源产业链发展的“关键一环”

2025-12-30 18:35:00

肯悦咖啡苹果冰雕点亮冰城代言人白敬亭助阵亮灯迎新春

2025年12月29日，肯悦咖啡在哈尔滨中央大街举办了一场别开生面的“红苹果心愿季”冰雕点灯仪式。肯悦咖啡的巨型红色咖啡杯造型冰雕搭配“水晶”苹果

2025-12-30 18:50:00

博士创新站典型案例｜保定市鑫诺电科软件开发有限公司博士创新站

当前供水行业智能化转型加速推进，保定市鑫诺电科软件开发有限公司作为本地企业，在技术层面面临自主开发的智能客服系统缺乏适配技术

2025-12-30 19:36:00

京东京喜自营2025年成交额增长10倍 5大产业带订单量破亿

2025年即将结束，回看这一年，外贸逆袭、市场反内卷、AI全面爆发，用户消费需求回归理性，带动品质消费。今日，京东旗下特价购物品牌京喜自营披露了这一年的成绩单——2025年实现成交额10倍增长

2025-12-30 19:48:00

事关以旧换新！河南公开征集

大河网讯为深入推进2026年消费品以旧换新政策实施，河南省商务厅日前正式发布《河南省2026年消费品以旧换新家电及数码智能产品参与品牌厂家征集公告》

2025-12-30 19:55:00

博士创新站典型案例｜英利能源发展有限公司博士创新站：携手高校

在全球“双碳”目标推动下，光伏产业成为新能源领域核心赛道。晶体硅太阳电池占据光伏市场主要份额，但高效光伏电池需切割分片制成组件

2025-12-30 18:04:00

博士创新站典型案例｜石家庄数英仪器有限公司博士创新站：攻克高

随着新能源发电并网比例不断提高，光伏逆变引入的谐波频率日益升高，对电网谐波测量提出了新的技术要求。当前，国内市场主流谐波标准源的谐波次数普遍低于100次

2025-12-30 18:16:00

还在用App来回倒腾文件？鸿蒙6一碰即传，感受分享的魔法

傻瓜相机的发明，将人们从复杂的调焦、测光操作中解放出来，把摄影门槛拉低到有手就行。而在这个随身电子设备越来越多的时代，人们需要在跨设备文件

2025-12-30 13:04:00

把数字安全感还给用户：HarmonyOS 6的三道主动防御防

在万物互联的数字时代，个人隐私的边界正变得日益模糊。我们或许都曾经历过这样的时刻：经常接到诈骗骚扰电话，或是家人手机里充斥着乱七八糟

2025-12-30 13:05:00

如何挑选靠谱电动自行车头盔？浙江省台州市消保委提醒认准CCC

中国消费者报杭州讯（记者施本允）近日，浙江省台州市消费者权益保护委员会发布2025年电动自行车安全头盔比较试验报告。在随机购买的25款样品中

2025-12-30 14:20:00

头条订阅服务

紫东.太初再进化，揭秘全模态大模型的想象力