• 我的订阅
  • 科技

林达华谈大模型发展之路:未来会有更高效的模型结构出现

类别:科技 发布时间:2024-03-25 10:53:00 来源:澎湃新闻

大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。

林达华谈大模型发展之路:未来会有更高效的模型结构出现

上海人工智能实验室领军科学家林达华。

过去一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。大模型的技术演进路在何方?

3月24日,在2024全球开发者先锋大会的大模型前沿论坛上,上海人工智能实验室领军科学家林达华分享了对大模型的思考。他表示,大规模生产高质量数据是大模型研发机构的竞争力所在。当前主流的大模型无一例外都建立在Transformer架构堆叠的基础上,但产业界和学术界在不断探索更加高效的架构,随着验证逐渐成功,未来它们会慢慢进入产业界,带来模型架构新的黄金期。

林达华表示,在大模型时代,技术演进有两股主要的驱动力量,一方面是研究人员对通用人工智能的追求和对尺度定律(Scaling Law)的信仰,从而不断突破边界,寻求接近通用人工智能的道路。另一方面,产业界也看到了大模型带来产业革命的可能性,无数企业投入了巨大资源。两股力量交织,促成了人工智能行业的迅猛发展。过去一年,人工智能领域所取得的技术突破远远超过了过去十年甚至几十年的突破和进展。

在模型架构方面,当前主流的大模型无一例外都建立在Transformer架构堆叠的基础上,但林达华表示,这种架构的问题是对计算资源的消耗特别大,反观人脑的效率远高于主流大模型架构。人脑有大约100万亿个神经连接,远远超过现有大模型体量,但人脑的运行功率只有20瓦,而千亿参数模型的推理功率是它的百倍以上,处理的信息也更单一。

过去一年,产业界和学术界在不断探索更加高效的架构,其中MoE是宏观结构稀疏化的一种简单形态,经过良好训练的MoE可取得比同等激活参数量的稠密模型更好的性能。“但这仅仅是一个起点,未来还会有更加高效的稀疏模型结构出现。”林达华表示,这些架构现在还停留在学术研究阶段,但随着验证的逐渐成功,它们会慢慢进入产业界,从而带来模型架构新的黄金时期。

在训练数据方面,最初训练数据并不被认为是大模型训练最重要的要素。2022年,DeepMind的研究报告提到,模型的数据量要跟参数量同步增长,才能训练出最佳模式。“从那时候起,人们开始关注模型的数据。”林达华表示,去年一年,大模型的参数体量没有呈现指数级的增长速度,但无论是开源模型还是闭源模型,数据量增长了近一个数量级。

到去年中期,大家慢慢观察到数据质量扮演了越来越重要的角色,高质量数据对模型能力和模型天花板有重要的正面意义,“大规模生产高质量的数据是一个开放性的问题,也是大模型研发机构的竞争力所在。”林达华表示,好的数据要有多样性,单一数据对模型性能具有破坏性影响,“10%的带有重复模式的数据注入到训练集里,有可能会使得模型降级到原来1/2的体量。”

在多模态方面,多模态融合将成为重要技术趋势,但技术探索仍在路上。相比语言,多模态模型的训练多了一个重要维度,即图像和视频的分辨率对多模态模型最终的性能表现有重要影响。如果使用非常高的分辨率进行多模态的训练和推理,模型能够得到巨大提升,但高分辨率会带来高计算成本。“如何在高分辨率和合理计算成本之间取得最佳平衡,这为架构研究带来了很大的创新空间。”

在上下文方面,上下文长度快速增长。去年上半年,上下文基本处于4K水平。GBT-4突破到32K,今年3月,支持1M或更长上下文的模型出现。超长上下文解锁新应用,2K的上下文只能从事简单的聊天和短文分析;32K可以长时间对话,完成长文分析;上下文支持能力突破到1M时,就能阅读长篇小说,实现项目级的代码分析和构建。但超长上下文的推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。

在智能体方面,随着GPT-4的突破,智能体在去年成为领域内的一个关注方向。林达华表示,智能体并不是一个简单的流程化过程,它需要建立在一个非常坚实的基础模型上,具有很强的指令跟随能力、理解能力、反思能力和执行能力。

在计算环境方面,林达华表示,芯片进入到后摩尔定律时代,未来算力会变成体量的拓展,越来越多的芯片连接在一起,建成越来越大的计算中心,支撑对通用人工智能的追求。最终瓶颈不再是芯片,而是能源。现在,小规格的大语言模型已具备较强性能水平和实用可能性,优秀的模型越做越小,可以进入到手机直接运行。林达华表示,端侧算力快速增长,端侧即将迎来黄金增长期,云端协同将成为未来重要趋势。

2024全球开发者先锋大会大模型前沿论坛由全球开发者先锋大会组委会指导,上海人工智能实验室及上海市人工智能行业协会共同主办。首届书生·浦源大模型挑战赛(春季赛)于现场揭晓比赛结果,同时启动2024浦源大模型系列挑战赛(夏季赛)。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-25 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...百层的深度神经网络,为如今的大模型奠定了技术基础。林达华,本科就读于中国科大,同样在麻省理工获得博士。他曾在2018年带领一个小团队,打造了国际最具影响力的视觉算法开源体系,
2023-07-08 07:46:00
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...景落地需要的关键能力。上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学
2024-06-24 09:22:00
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
...型复杂推理能力的短板,上海人工智能实验室领军科学家林达华此前在采访中对第一财经表示,未来大模型的训练不能单纯只依靠互联网数据的收集和灌注,而要更体系地构建。在复杂推理上关键是
2024-07-17 11:56:00
加码“AI+编程教育”!商汤科技与编程猫达成战略合作
...始人、执行董事及人工智能基础设施和大模型首席科学家林达华与编程猫创始人兼CEO李天驰共同出席了签约仪式。人工智能时代,编程已成为未来世界的通用语言、培养下一代创新者的关键工具
2025-04-29 16:22:00
以科技创新升级品质保障,得物App入选“科技创新服务示范案例”
...部“科技创新服务示范案例”开学前夕,上海的大二学生林达在得物App买了开学装备,“日常消费几乎被得物承包了”林达说,“得物会帮我把关商品的真假和质量,让我更放心。”据了解,不
2024-09-15 16:37:00
商汤大装置:打造人工智能算力“样板间”,从AI 1.0跨越到2.0时代
...施领域实现持续领先的关键所在。商汤大装置首席科学家林达华教授在深度学习和神经网络领域具有很高的学术地位和成就。林达华师从汤晓鸥教授,也是商汤联合创始人,在机器学习及计算机视觉
2024-04-01 09:24:00
打造创新“核爆点” 瞄准应用“新赛道”!在上海,人工智能正青春| 2023世界人工智能大会
...变成什么样?在一片惊呼和掌声中,上海人工智能实验室林达华教授完成了这样的演示。还没完,和大语言模型来上几轮对话已经稀松平常了,那你见过这般操作吗——图片里是根烟囱,点击,在对
2023-07-08 21:36:00
让现实场景成为大模型最佳“练兵场”
...级的AIGC提供了可能。”现场,上海人工智能实验室教授林达华介绍,未来大模型还将为数字孪生、城市信息模型(CIM)等应用提供数字空间底座。“让现实场景成为大模型最佳练兵场”,
2023-07-07 05:06:00
大模型“翻车”小学题?
...型复杂推理能力的短板,上海人工智能实验室领军科学家林达华此前在采访中对媒体记者表示,复杂推理的关键是要构造很多过程性的内容。例如,构造上亿条解几何题具体过程的数据,拿去给大模
2024-07-18 16:39:00
更多关于科技的资讯:
温特纳科技:为压力扫描阀和气动探针提供一站式校准服务
从航空航天到汽车动力,从风洞实验到无人机飞行测试,精确的流场测量和压力数据采集是确保产品设计和研发进度的重要保障。很多科研工作者在采购压力扫描阀和气动探针后
2025-08-08 15:27:00
智能饮品革命:东方慧影如何用“零成本”方案破解餐饮行业人工困局
一、餐饮行业的成本之痛,政策改变迫使餐饮商家做出调整截至2025年,餐饮行业人工成本高达32.7%,较疫情前上升了8%
2025-08-08 15:27:00
官方数据首度公开!TikTok Shop跨境日本、欧洲五国新市场大促双爆发
近日,TikTok Shop新市场捷报频传!日本站点开放仅一个月,首场大促便斩获“开门红”;与此同时,欧洲五国德法意西
2025-08-08 15:27:00
当连锁药房遇上“好老板”,通联支付助力“为了你”健康药房升级收银服务
药店买药免排队、秒支付!近日,通联支付与当地邮政联合,为云南“为了你健康药房”上线“好老板”轻应用,助力连锁药店升级一站式智慧收银平台
2025-08-08 15:27:00
追求健康美食的你,是否渴望一种便捷烹饪方式?空气炸锅正是你的理想选择!它利用高速循环热风,无需大量油脂就能烹饪出酥脆可口的食物
2025-08-08 15:27:00
格力高上海工厂探访:本土化研发与智能智造驱动市场领跑
近日,格力高首次向媒体开放其位于上海的智能化生产基地,揭秘这家百年食品企业如何通过“本土化研发+智能智造”双轮驱动,实现从消费者需求洞察到产品快速落地的高效转化
2025-08-08 15:27:00
效率跃升18倍!曙光超智融合引领生命科学新范式
当前,海量生物数据的处理与分析能力已成为制约行业发展的关键瓶颈。近日,依托曙光超智融合技术建设的华东某全国产计算中心,与单细胞测序领域代表性企业墨卓生物达成战略合作
2025-08-08 15:27:00
传奇再启:赛德斯签约品牌强国新品即将来袭
2025年8月5日,中国知名电竞音频品牌赛德斯(SADES)在广东深圳正式签约“品牌强国·自主品牌优选工程”,成功入选该国家级项目成员单位
2025-08-08 15:27:00
餐饮行业在服务消费中地位举足轻重。当下的中国餐饮行业正在经历从“速度增长”到“效率竞争”的结构性转变。根据中国烹饪协会发布的《2024年全国餐饮业发展回顾与2025年展望》(以下简称“报告”)数据显示
2025-08-08 15:27:00
名众集团首创的基因枪无创草本抗衰技术,历经7年研发60万例临床,再次突破
名众集团自2018年自主研发首创了“四维形气美学”“草本0创还原术”后,历经7年研发60万例临床,再次实现重大技术突破
2025-08-08 15:27:00
视源股份投屏黑科技:3秒丝滑连接,比掏手机还快!
会议室的桌面上总缠着一堆线缆 ——VGA 线、DP 线、HDMI 线像乱麻一样,某企业高管曾因笔记本找不到匹配接口,让二十多位参会者等了十来分钟
2025-08-08 15:32:00
G视觉|全球首创!贵州嘉尚百米智能隧道窑日产40吨正极材料
走进贵州嘉尚新能源材料有限公司全球首创的100米全自动化隧道窑生产车间,自动化设备高效运转,机械臂精准作业,智能系统实时监控着从投料到产出的全过程
2025-08-08 15:42:00
千万粉丝主播“秀才”复活?抖音:仍在封禁状态,不存在“借壳复活”
8月7日上午,“网红秀才疑似借壳复出”的词条,冲上微博热搜榜单。据媒体8月6日报道,2023年被封禁的千万粉丝网红秀才疑似“借壳复出”
2025-08-08 15:46:00
中国人寿联合知乎、每日人物开展“各年龄圈消费大摸底”
近日,中国人寿保险股份有限公司(以下简称“中国人寿”,股票代码:601628.SH,2628.HK)携手知乎“数洞”实验室
2025-08-08 16:06:00
德才高科中东合作签约 全球化战略迈出坚实一步
大众网记者 薛岳 通讯员 杨佳蓓 青岛报道8月4日,中东地区代表团ALNABULSI, ABDULAZIZ ALIY与IYAD MOH'D JAMIL HUSNI QAWASME
2025-08-08 16:44:00