• 我的订阅
  • 科技

阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token

类别:科技 发布时间:2024-09-20 09:51:00 来源:数据猿
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token

笔者参加了几届阿里云栖大会,每一届都有不同的主题。但近两届,有一个越来越明晰的主线,那就是云与AI的融合。

这一届的阿里云栖大会,无论是从主题演讲还是展览设置,这种云+AI的感觉都很强。在阿里巴巴的高层中,吴泳铭作为技术派,对AI更是情有独钟。他主导阿里之后,从各条业务线,都能明显的看到AI化的痕迹。

其中,阿里云是承担整个阿里集团AI梦想的基石和载体。吴泳铭在担任阿里巴巴集团CEO的同时,还兼任阿里云智能集团董事长、CEO,可见其对于云业务的重视。

我一直以为,决定一个公司发展高度的,不在于在某个技术或者产品上的一时领先,而在于高层尤其是“话事人”的认知,他如何看待这件事情,才是决定事情走向的最关键变量。一旦认知和决心到位了,就会有一系列的行动,那资源、人才、资金自然会聚集,随之而来的技术产品创新,就是水到渠成的事情。回想当初,阿里巴巴在几家头部互联网公司中,也不是技术基因最强的,为什么云计算做的最好?马云当初的决绝和坚持,起到了关键作用。

所以,这一届阿里云栖大会,我最关心的不是阿里云又发布了什么产品,而是其“话事人”如何看待云和AI这件事情。

在上午的主论坛上,关于AI和云,吴泳铭说了不少很新颖的观点。其中,有一个观点挺有趣:生成式AI让世界有了一个统一的语言——Token。AI模型可以通过对物理世界数据的Token化,理解真实世界的方方面面。理解之后,AI就可以模仿人类去执行物理世界的任务,这将带来新的产业革命。

接下来,我们试图就这一观点来进行分析探讨。

信息世界的“巴别塔”,为什么AI至今无法通晓万物?

语言,是信息传递的基础。它不仅是人与人之间沟通的桥梁,更是技术世界中信息流通的核心。在人类社会中,语言承载了思想、文化和知识的传递。在技术领域,语言的作用更为关键——它是指令、数据、算法的表达形式,是所有信息交互的根本。

尤其在AI领域,语言的重要性愈发凸显。AI通过自然语言处理来理解和生成文本,通过代码语言来执行任务,通过视觉语言来识别和处理图像。这些不同的“语言”构成了AI理解世界的多种维度。然而,这些语言之间的割裂,成为了AI发展的最大障碍。

当前的数字化世界,信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立,彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色,但面对多模态信息时,却往往显得力不从心。

这种割裂,不仅增加了技术开发的复杂性,也极大限制了AI的智能表现。我们可以想象,一个AI能够精通各自独立的“语言”,但当这些语言需要被整合时,AI就如同陷入了信息的“巴别塔”,难以将所有信息串联起来,形成全面的理解。

这种多模态割裂直接导致了技术发展的瓶颈。以自动驾驶为例,自动驾驶汽车需要整合多种传感器的数据,如摄像头捕捉的视觉信息、雷达提供的距离测量、GPS带来的定位数据等。这些数据形式各不相同,处理它们的难度非常大。尽管每一种传感器的单独表现都很优异,但当所有数据需要整合成一个统一的驾驶决策时,AI常常会出现延迟、误判,甚至失效的情况。

在医疗领域,医生常常需要结合影像数据、化验报告、病历记录等多模态信息来做出诊断决策。AI在这些单一领域内表现优异,但在将这些多模态数据整合为一个全面的诊断模型时,依旧存在巨大挑战。多模态数据之间缺乏统一的表达方式,导致AI难以在复杂的诊疗场景中发挥出应有的智能水平。

要让AI突破这些限制,实现从“聪明”到“通晓”的进化,就必须有一种能够跨越各种信息形式的通用语言。这样的语言可以将不同模态的信息标准化、统一化,使AI能够在处理多模态信息时不再受制于割裂,而是能够像人类一样,自由地整合和应用各种信息。

这个通用语言的出现,不仅将为AI带来更强的理解力和适应力,也将为技术开发者带来更大的自由度和创造力。AI将不再被困在“巴别塔”中,而是能够在一个统一的语言环境中,真正展现出全面的智能。

这一切,都为Token的出现提供了广阔的舞台。那么,Token,作为信息世界的通用语言,将如何打破这些壁垒,成为AI的全新“语言”工具?

Token来了:AI终于找到了一种语言,它能“听懂”一切!

Token是信息世界的基本单位,类似于语言中的单词或语法结构,但其功能远超普通符号。它不仅是信息的最小表达单元,更是多模态信息处理的核心工具,能够将文字、图片、视频、语音等不同形式的信息标准化为统一的符号系统。这一标准化过程使得AI能够跨越模态边界,实现统一处理,进而在更复杂的任务中表现出色。

技术上,Token的生成过程包括将原始数据分割成最小的信息片段,这些片段可以是单词、图像的像素块、音频的片段等。这些片段通过编码过程被转化为固定长度的向量,代表了信息在AI模型中的特征。解码过程则将这些向量重新转换为可供人类理解的形式,比如文字、图片或声音。通过Token的编码和解码,AI可以在不同信息模态之间进行流畅的转换和整合。

以阿里巴巴的最新多模态大模型通义千问为例。在此次云栖大会上,阿里云的通义千问展示了最新的文生视频功能。至此,通义千问进化为一个集成了文本、图像、视频和语音处理能力的大模型,它展示了Token技术在跨模态信息处理中的应用。

举个具体的例子,假设你输入“中国风的小兔子,身着精致的唐装”,通义千问能够生成一段包含这些元素的视频。在这个过程中,通义千问将输入的文本内容首先分解为文本Token,然后将这些Token映射到一个语义空间中,生成相应的视觉。

阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token

可以说,Token的出现,为信息处理带来了革命性变化。它如同中国古代的“书同文、车同轨”,通过统一标准,使得原本各自为营的信息模态可以在同一个语义层次上互相交流。过去,AI只能在单一模态中发挥作用,而通过Token,AI实现了跨模态的信息整合,打破了原有的技术壁垒。

这种跨模态能力,使得AI在信息融合、理解和生成上的表现大幅提升,推动了人工智能从单一智能向全面智能的进化。

Token的商用化路径,云计算如何成为关键推手?

Token技术,虽然在理论和实验室环境中展现了巨大的潜力,但将其推向大规模商用并非易事。一个显著的挑战就是其高昂的计算和处理成本。

Token的处理,涉及海量的数据分割、编码、解码以及跨模态的信息融合。这些操作需要强大的计算能力和极高的资源消耗。特别是在面对复杂的多模态任务时,AI模型需要处理数以百万计的Token,这对计算资源提出了严苛的要求。传统的计算架构在应对这种大规模需求时,往往捉襟见肘,无法提供足够的计算能力和处理效率。

此外,Token的实际部署还涉及数据的实时处理和大规模分布式计算。无论是在自然语言处理、图像识别,还是在视频生成等应用中,Token化的过程都需要高速且稳定的计算资源。然而,现有的计算资源体系结构,尤其是在面临大规模并行任务时,常常无法高效应对。这导致了Token技术在商用化过程中遇到的瓶颈,严重制约了其在更广泛领域的应用。

解决Token商用化挑战的关键,正是在于云计算的技术推动。云计算通过其独特的优势,为Token的广泛应用提供了强有力的支撑。

例如,阿里云的分布式计算架构允许AI模型在多个节点上并行处理Token任务,极大地提高了计算效率。在数据存储方面,阿里云通过优化存储架构,使得Token化过程中产生的大量数据能够被快速读写和存取,减少了数据处理的延迟。此外,阿里云还通过智能调度算法优化了计算资源的分配,使得计算任务能够在最短时间内完成,同时最大限度地降低资源浪费。

阿里云在降低AI成本方面取得了卓越的成绩,尤其体现在通义千问推荐模型的价格调整上。最新数据显示,通义千问系列模型的价格降幅高达85%,这是一个极具竞争力的调整。具体来看,QwenPlus模型的价格降至0.0008元/千Token,QwenTurbo的价格则为0.0003元/千Token。

此外,阿里云还推出了新用户福利——5000万免费试用Token和4500张图像生成权限。这些优惠措施不仅降低了企业在AI应用中的前期投入,还显著提升了用户的体验和接触AI技术的机会。结合阿里云在推理输入方面的优化,这些降价和优惠策略大大减轻了企业在AI应用中的成本压力,使得高性能AI模型的普及成为可能。

阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token

通过云计算的支持,Token技术不再局限于实验室或小规模应用,而是能够在更大范围内进行推广和部署。这种协同效应不仅解决了Token商用中的瓶颈问题,还带来了更高效、更经济的AI部署模式。企业能够以更低的成本、更高的效率,利用Token技术实现智能化转型,从而在市场竞争中占据优势。

阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token

技术突破之后,如何让Token走向商用前线?

展望未来,随着大模型与云计算的深度融合,AI的应用前景变得更加广阔,潜力无穷。正如阿里巴巴CEO吴泳铭在2024年云栖大会上指出,AI的最大想象力并非局限于创造新的移动应用,而在于彻底重塑物理世界。

这一变革的核心驱动力正是生成式AI与Token技术的结合,Token作为信息世界的“通用语言”,能够将文字、图像、视频、声音等多模态信息统一处理,使AI不仅能够理解复杂的数据,还能够模仿人类行为,执行各种任务。这种能力将为AI在各行业中的应用开辟广阔的空间。

同时,随着先进AI模型的开发成本不断攀升,达到数十亿甚至数百亿美元,云计算的重要性愈发突出。阿里云这样的云厂商,凭借其强大的算力基础设施,正在为这一趋势提供必要的支持。

未来,云计算架构将从以CPU为主转向以GPU为主的AI计算体系,满足AI日益增长的算力需求。这种计算体系的转变,不仅将大幅降低AI应用的成本,还将加速AI在各行业的广泛渗透。

例如,在AI大模型的支持下,未来所有能够移动的物体都可能成为智能机器人——从工厂中的机械臂到家庭中的助理机器人,AI将无处不在。工厂将由智能机器人主导,生产效率将大幅提升;家庭生活也将因智能机器人的加入变得更加便利和高效。

当然,这种变革的影响不仅局限于机器人领域。随着AI驱动的数字世界与具备AI能力的物理世界的深度融合,全球生产力将迎来一次革命性的提升。无论是自动驾驶、智能医疗设备,还是金融风险管理系统,AI将成为推动各行业发展的核心力量。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-20 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术
2024-09-20 13:35:00
“百模大战”,国产 GPT 大全
...户体验甚至可以媲美ChatGPT。例如,Baidu的“文心一言”,阿里巴巴的“通义千问”,腾讯的“混元”以及华为的“盘古”都有非常强大的功能,可以实现流畅的对话,也能理解用户
2023-05-07 20:34:00
阿里云开源通义千问多模态大模型Qwen-VL 【阿里云开源通义千问多模态大模型Qwen-VL】《科创板日报》25日讯,阿里云今日推出大规模视觉语言模型Qwen-VL
2023-08-25 12:17:00
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
多模态检索增强生成(mRAG)也有o1思考推理那味儿了!阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题
2024-12-05 09:45:00
年度生成式AI大会上海站公布最新嘉宾,报名进入最后阶段
...中国生成式AI大会上海站定档12月,首批嘉宾公布》、《阿里腾讯齐聚,10位学者在列!年度生成式AI大会即将登陆上海,最新演讲嘉宾揭晓》)。今天,再向大家揭晓17位演讲嘉宾!首
2024-11-26 09:38:00
阿里云通义大模型家族迎来新成员,通义万相已开启定向邀测
...:钱江晚报潮新闻客户端 记者 张云山继通义千问之后,阿里云通义大模型家族迎来新成员。7月7日,在2023世界人工智能大会上,阿里云宣布AI绘画创作大模型通义万相开启定向邀测,
2023-07-07 16:55:00
智源研究院发布FlagEval“百模”评测结果
...w-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五
2024-12-20 11:22:00
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
...的能力,可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。例如借助“书生2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场
2023-03-15 13:30:00
聊聊ChatGPT:百度阿里京东齐齐下场 谁能赢得三国杀
...谷歌,国内的ChatGPT“竞争战”已经打响第一枪,百度、阿里等科技巨头都纷纷布局,加入到全球新一轮AIGC技术竞赛。百度众所周知,百度是最大的中文搜索引擎,也是全球领先的人
2023-02-11 07:00:00
更多关于科技的资讯: