我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

清华教授唐杰：Scaling Laws虽被质疑，但至今仍是提高大模型性能的重要方法

类别：科技发布时间：2024-06-05 18:36:00 来源：搜狐科技

清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任唐杰

出品｜搜狐科技

作者｜郑松毅

2024年已过半，大模型之争热度不减，通往AGI的路究竟该怎么走？

近日，清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任唐杰分享了对大模型发展历程的看法，并对AGI未来发展提出了一些思考。

他强调，人工智能大模型已成为国际科技“必争之地”，实现国产全自研、自主可控的人工智能基础模型迫在眉睫。

“除了超大算力、数据、算法创新需求，大模型创新发展面临的挑战还包括：打造安全可信的软硬件系统，同时大模型的应用需求也更加动态多样，要求对大模型的不同层次进行深入研究。”

回顾大模型发展历程，唐杰认为可分为四个阶段：算法之战（2018-2020），模型之战（2020-2022），产业落地之战（2023），及AGI元年（2024）。

自2017年谷歌提出Transformer机器学习模型架构后，该架构迅速席卷了整个人工智能领域，成为自然语言处理等相关研究的主要方法。

2018至2020年是算法创新年，先后出现了基于Transformer的BERT、GPT/GPT-2/GPT-3、T5等基于大规模无标注数据自监督学习的大规模预训练算法。这些算法模型均在大数据支持下拥有较大规模模型参数，具备较强的通用能力，可完成多场景任务，显著降低学习成本、提高学习效率。

2020至2022年，迎来了模型之战。GPT-3（拥有1750亿参数）是这一战的起点，随后全球范围内掀起了一股大模型研究的热潮，谷歌、Meta等公司开始不断发布百亿到千亿的大型语言模型，开源大语言模型也开始受到关注。

唐杰指出，“国内一直缺少原创的开源千亿基座模型，更重要的是产学研各界对大模型的发展和产业化还没有形成共识，对于应该发展大模型还是转而发展小模型，大家还没有达成统一认识。”

2022年11月30日，ChatGPT正式发布，唤醒了所有人对大模型的认知。大模型的发展不再仅限于模型技术的发展和模型训练本身，更重要的是如何实现模型的产业化应用。大模型开始在各个领域开花结果，在金融、互联网和教育等众多行业落地。

随后，全国多个产业纷纷投身大模型：短期的做AI升级，原来用分类算法、小模型实现的开始用大模型替代；中期的开始研究自己的定制化大模型。于是各种大模型纷纷推出，一时间形成了“百模大战”的情形。仅此一年，据不完全统计，全国实现大模型初步应用的企业和部门有数千个。2023年也被称为大模型产业落地元年。

时至今日，OpenAI在2024年初推出了文本到视频生成模型Sora，被认为是目前最好的视频生成模型，让大家看到了构建物理世界通用模型的可能路径。

唐杰分析，“OpenAI极有可能在2024年推出下一代模型GPT-5，也许会有全新的代号，无论如何比较肯定的是其认知能力将带来通用人工智能的再一次变革。其下一代模型在技术上可能解决目前ChatGPT中存在的事实性以及推理能力的缺陷，实现更精细的语义理解、多模态（文本、图像、语音、视频等）输入和输出，具备更强的个性化能力。”

“人工智能的发展会更多瞄向通用人工智能，实现AI的自我解释、自我评测和自我监督，构建超过人类水平的超级认知智能(super intelligence)，并且确保模型的表现符合人类的价值观和安全标准。”

谈及AGI研究面临的挑战，唐杰认为还有很多基础理论问题尚未得到根本解决。

很多人疑惑，未来AGI之路在哪里？

在他看来，这可能是所有做大模型研究的学者不断思考的事情。国内外前沿科技公司和科研机构基本上都形成了顶尖的大模型团队，这源于对创新型顶尖人才的汇聚，以及对基于大模型的AGI之路的执着和技术积累。

OpenAI曾经在看不到前景和没有明显效果的阶段(2018~2021年)，仍然坚定地投入大量人力和算力，这种长期的坚持和纯粹的创新精神是成功的必要条件。

AGI是否能够通过大模型的缩放定律(Scaling Laws)来实现？一直以来也是备受关注的问题。

唐杰认为，缩放定律描述了大模型性能与其参数量、数据规模、计算量之间的关系。虽然备受质疑，但直到今天，可能高质量的缩放仍然是提高大模型性能的重要方法。

“一方面，这几个因素相互关联，参数量更大的语言模型需要更多的高质量数据和训练量，以兼顾文本理解和生成任务上的规模扩展效果。另一方面，多模态超大规模预训练模型的兴起，要求模型算法具备在多模态数据（如图片、视频）输入输出条件下的规模扩展。这就要求在模型架构、训练算法、人类意图对齐等方法上不断创新。”

在人工智能的发展历程中，类脑研究一直在为其带来启发。

唐杰表示，“从理论的角度，AGI也需要参考人脑智能的实现机理。基于大模型的AGI或者说机器智能不一定要和人脑认知的机理一样，但剖析人脑的工作机理也许可以更好地启发AGI的实现。”

在大模型基座方面，目前的大模型主要基于Transformer架构，有三种主流架构：编码器(encoder-only，例如BERT)、编码器-解码器(encoder-decoder，例如T5)，以及解码器(decoder-only，例如GPT)。这几个架构都是国外设计并流行起来的。

“国内在原始创新和自主研发方面严重欠缺。清华大学和智谱AI结合了BERT和GPT的优势，设计了GLM架构。但如何从本质上改进预训练模型的基座能力，实现Transformer架构上的颠覆式创新还存在巨大挑战。”

他指出，“以GPT-4为代表的一系列语言模型基于互联网上海量的文本语料进行预训练，在语义理解、指令遵循等方面展现出了惊人的能力。然而，这些语言模型只能以文本形式处理内容，并无法处理图片等其他模态的信息。”

他补充解释道，形如GPT-4V等视觉文本多模态模型通过一个视觉编码器(Vision Encoder)和语言模型建立连接，使得模型初步具备一定的图片理解能力，但这种文本视觉的交互仍然处于浅层。如何利用好互联网上海量的多模态语料（图片、音频、视频）进行大规模训练仍然具有挑战。

2023年7月，OpenAI公布了由其首席科学家伊利亚·苏茨克维(Ilya Sutskever)和首席强化学习专家詹·雷克(Jan Leike)发起的超级对齐计划(Superalignment)，目标就是实现机器自动对齐人类智能和人类价值观，实现模型的自我反思和自我监控。

唐杰认为，真正做到管理AI风险还有很长的路要走，目前还是依赖于人类监管AI的能力。一个可能的方法是建立一个与人类水平相当的自动对齐系统，让AI能够自己判断自己的行为和输出。这不仅需要设计全新的算法实现可扩展训练、自动模型结果验证、自动对超级对齐结果进行评估，同时还需要超大规模的算力迭代实现超级智能对齐。

在很多人看来，芯片短缺扼住了人工智能发展的喉咙。

他表示，传统的大模型研究思维一直是围绕芯片进行算法设计，导致当前所有大模型的基础算法都只能在H100/A100类似体系架构上进行设计与实现。当前国产芯片被“卡脖子”的最关键技术是单GPU芯片的计算能力和芯片间的高速通信，尤其是后者。

“因此，有必要从底层开始，围绕大模型/AGI算法设计研发新型芯算一体大模型机。核心思想是首先设计全新的大模型算法，然后针对新算法优化内存使用，提升芯片计算效率和芯片间的通信效率。”

他指出，“通过设计全新的大模型算法和整合专用硬件构建全新大模型训练体系结构，实现全新的软硬体系架构也许是一条解决芯片被“卡脖子”的方法，实现我们自己的大模型之路。”返回搜狐，查看更多

责任编辑：

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-06-05 21:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于清华,模型,教授,性能,方法,模型的资讯：

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出S

...导读】一台4090笔记本，秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构，得益于核心架构创新，具备了惊人的图像生成速度

2024-10-18 09:49:00

首个多模态连续学习综述，港中文、清华、UIC联合发布

...分享，欢迎投稿或者联系报道。本文作者来自于港中文、清华和UIC。主要作者包括：余甸之，港中文博士生；张欣妮，港中文博士生；陈焱凯，港中文博士；刘瑷玮，清华大学博士生；张逸飞，

2024-11-14 09:46:00

清华UCSD提出全新微调方法，8B小模型媲美GPT-4o！科

【新智元导读】最近，一支来自UCSD和清华的研究团队提出了一种全新的微调方法。经过这种微调后，一个仅80亿参数的小模型，在科学问题上也能和GPT-4o一较高下！或许，单纯地卷AI

2024-12-03 13:34:00

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好

...码住了。论文一作为华人学者Tianhao Wu，导师之一是2011年清华特奖得主焦剑涛。团队提出了一种称作思考偏好优化（Thought Preference Optimization）的方法

2024-10-29 09:58:00

清华大学教授孙茂松：理解大模型机理建立AI新理论

...大模型的回答是宋代《野景》中的“白鹭一行登碧霄”。清华大学人工智能研究院教授、欧洲人文和自然科学院外籍院士孙茂松。7月25日，清华大学人工智能研究院教授、欧洲人文和自然科学院

2023-07-27 15:01:00

Claude团队喜提清华物理学霸姚顺宇！两个Yao Shun

清华物理系传奇特奖得主Yao Shunyu，正式投身大模型，加入Anthropic的Claude团队。有意思的是，另一位Yao Shunyu

2024-10-29 09:54:00

清华开源混合精度推理系统MixQ：大模型近无损量化并提升推理

...键部署LLM混合精度推理，端到端吞吐比AWQ最大提升6倍！清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ

2024-10-22 09:57:00

5年投资超1000亿，北京公布一系列AI重磅成果，北大清华百

...京大学教授、中国科学院院士鄂维南；中国工程院院士、清华大学信息科学技术学院院长戴琼海；百度CTO王海峰；蚂蚁集团CTO何征宇；微软全球资深副总裁、Microsoft AI亚太

2024-04-28 11:00:00

清华团队提出新型光计算架构，光训练速度提升1个数量级

近期，清华大学电子工程系方璐教授课题组、自动化系戴琼海教授课题组创新性地设计了全前向智能光计算训练架构，开发出一种名为“太极-II”的通用光训练芯片。该架构摆脱了对电计算离线训练

2024-08-09 09:57:00

更多关于科技的资讯：

王喜文：零首付租赁，机器人“普惠时代”来了

中新经纬11月1日电题：零首付租赁，机器人“普惠时代”来了作者王喜文北京华夏工联网智能技术研究院院长近期，智元机器人联合飞阔科技

2025-11-02 10:54:00

王忠民：GDP最大化不再是第一宏观经济指标

中新经纬11月1日电 (袁媛)近期，《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》(以下简称《建议》)发布

2025-11-02 10:58:00

鸿蒙电脑版微信强势升级：40+项功能释放办公社交新势能

作为超10亿人使用的国民级社交应用，微信深度适配鸿蒙电脑并不断进行版本更新。本次更新，鸿蒙电脑版微信一次性推出40+项实用功能

2025-11-02 14:26:00

正雅携手士卓曼，加速正雅技术在国际市场的拓展

正雅齿科与士卓曼集团宣布建立战略合作伙伴关系。此次合作将整合两家集团的核心优势，以更高的效率和速度推动全球口腔健康市场的增长

2025-11-02 14:26:00

京东服饰联合天纺标发布《新舒适内衣》团体标准共建行业品质新

10月31日，由京东服饰与天纺标检测认证股份有限公司联合主办的“中国内衣行业高品质供应链峰会暨京东服饰&天纺标联合发布会”在天津成功举办

2025-11-02 14:26:00

华为擎云 W515y登顶自主创新性能榜引领自主创新终端从可

在全球科技格局深刻演变、国际形势日趋复杂的背景下，自主创新产业正加速从可用向好用的真替真用阶段迈进。这不仅是技术发展的必然要求

2025-11-02 14:28:00

赛力斯2025前三季净利润超53亿元盈利能力持续增强

10月30日，赛力斯披露了2025年三季报，以亮眼的经营表现和持续攀升的交付数据，再次印证其在中国新能源豪华车市场的领跑地位

2025-11-02 14:29:00

雄安人工智能算力调度平台正式上线运行

中国雄安官网11月1日电近日，雄安人工智能算力调度平台在雄安城市计算中心正式部署完成并投入运行，标志着雄安新区在构建集约高效

2025-11-02 18:03:00

中国轻奢美护品牌黎科世亮相巴黎设计周，以生物科技融合感官美学

近日，中国轻奢美护品牌SENSLUX（黎科世）凭借其融合生物科技与感官美学的独特理念，在2025年9月举办的巴黎设计周中国创新馆中精彩亮相

2025-11-02 21:50:00

AI盛宴启幕！“科大讯飞1024科博展”燃动合肥

大皖新闻讯 11月2日，第八届世界声博会暨2025科大讯飞1024全球开发者节科博展在合肥体育中心盛大启幕。从萌趣幼教机器人到智能健康助手

2025-11-02 22:42:00

走进院士专家工作站系列报道丨专家工作站“破局” 双兴智能实现

编者按：科技是第一生产力，人才是第一资源。从田间地头到生产车间，从技术瓶颈到产业升级，十堰市科协主动作为，当好“科技红娘”

2025-11-02 20:13:00

英语培训机构教务系统高适配推荐：外教管理 + 分级排课 +

现代英语培训机构的高效运转，离不开专业教务系统的有力支撑。一套设计科学的英语培训机构教务管理系统，如同机构的智能中枢，将教学管理

2025-11-02 18:46:00

医学影像数据人工智能项目进入试运行阶段

日前，位于山西转型综改示范区学府总部经济园区的医学影像数据人工智能大模型产业发展项目进入试运行阶段。目前已完成平台建设和医院对接

2025-11-02 18:06:00

稳” “进” “新” ——3个关键词读懂南京经济前三季度“成

□南京日报/紫金山新闻记者张甜甜通讯员夏俊林娜10月31日，南京市统计局、国家统计局南京调查队发布南京经济“三季报”

2025-11-01 09:44:00

上海虹桥医院癫痫专病诊疗新高度：个性化方案，全程化守护

癫痫发作的不可预测性及其对记忆、情绪、社交、学业与工作等方面的深远影响，构成了广大患者面临的核心挑战。诊断的复杂、治疗方案的普适性困境以及持续管理的缺失

2025-11-01 10:05:00

头条订阅服务

清华教授唐杰：Scaling Laws虽被质疑，但至今仍是提高大模型性能的重要方法