• 我的订阅
  • 科技

DeepSeek开源惠四方(科技名家笔谈)

类别:科技 发布时间:2025-02-24 05:52:00 来源:人民资讯

本文转自:人民日报海外版

李国杰

DeepSeek开源惠四方(科技名家笔谈)

作者李国杰肖像画。

张武昌绘

受到热烈欢迎

业界纷纷部署

近期,中国杭州深度求索人工智能基础技术研究有限公司推出AI语言大模型DeepSeek,受到用户热烈欢迎。2025年1月20日,DeepSeek-R1发布上线,7天内用户超过1亿。ChatGPT从发布到达到相同的用户规模用时两个月。

GitHub是全球最大的代码托管网站,GitHub的星数即GitHub平台项目页面上的Star按钮被用户主动点击的次数,代表受欢迎程度和社区认可度。目前,DeepSeek的GitHub星数已超越了同类大模型的GitHub星数。

值得一提的是,DeepSeek赢得一批国际知名企业特别是全球人工智能企业的青睐。微软率先宣布将DeepSeek-R1模型添加到云平台Azure AI Foundry,开发者可用于构建基于云的应用程序和服务。之后,亚马逊云科技、英伟达、超微半岛等公司宣布在其AI服务平台上部署DeepSeek-R1模型。

实现技术突破

走出发展新路

DeepSeek受到赞誉和认可,但也有舆论认为,与ChatGPT实现从“0到1”的突破不同,DeepSeek只是实现了从“1到N”的扩展。

对此,笔者并不认同,因为这种看法不符合人工智能研究的特点及创新发展的历史轨迹。人工智能创新不同于物理学等基础理论研究。物理学中的牛顿定律和爱因斯坦发现的相对论是从“0到1”的突破,但人工智能是一个没有严格定义的研究领域,并不存在“智能”和“不智能”之间“0”和“1”的界限,只有智能化水平不断提高的创新发展过程。

笔者认为,DeepSeek推出的V3和R1模型既是技术上的重大突破,也是发展模式上的重大创新,是人工智能发展史上重大事件,可以与OpenAI发布ChatGPT3.5相提并论。DeepSeek以高效率、低成本的推理模型和开源的商业模式走出一条发展人工智能的新路。

坚持历史视角

准确看待价值

准确认识DeepSeek的价值和贡献,必须坚持历史视角,将其放在人工智能创新发展的历程中来看待。

1943年,美国科学家麦卡洛克和皮茨提出神经元计算模型,开创了神经网络研究的先河,开启人工智能创新发展的漫长探索历程。本世纪第二个十年,基于神经网络模型的第三波人工智能浪潮涌起并接连迎来多个里程碑式事件。

2012年,在ImageNet大规模视觉识别挑战赛上,辛顿等人创建的AlexNet卷积神经网络模型大放异彩。这被看作第三波人工智能浪潮的起点。在此4年之后,DeepMind研制的AlphaGo围棋程序战胜世界冠军,引起了全世界的瞩目。

2017年,谷歌的几名专家提出Transformer模型,提出自注意力机制,成为深度学习的主流模型。

2018年,DeepMind发布了AlphaFold,在蛋白质结构预测中展示出惊人的能力,开辟了AI for Science(人工智能驱动科技创新)的新方向。

2022年,OpenAI发布ChatGPT3.5,引领了以大语言模型(LLM)为标志的生成式人工智能新浪潮。

近日,DeepSeek上线,成为上述重大事件之后,第三波人工智能创新发展浪潮的又一重大事件。

采用创新算法

提升运行效率

DeepSeek广受欢迎,是因为在模型算法和系统软件层次都有重大创新。那么这些重大创新具体体现在哪些方面呢?

算法创新是DeepSeek的重要贡献之一。DeepSeek大模型采用新的混合专家架构(MoE),每一层有256个路由“专家”和1个共享“专家”。在每次前向传播过程中,只激活一小部分“专家”来进行计算。虽然DeepSeek-V3是一个671B参数的大模型,但模型的任何函数调用和传递只使用约37B参数,使其训练成本大为降低。

在算法层面,DeepSeek还有一个降低成本的重大创新,即低秩注意力机制(也称为多头潜在注意力机制)。这一发明对巨大的注意力机制矩阵进行了压缩,减少参与运算的参数数量,大大降低了显存占用,由此提升了模型运行效率。

减少推理成本

降低开发门槛

在推理层面的创新是DeepSeek另一个重大贡献。OpenAI发布的o1推理模型是闭源的,其他企业无法了解OpenAI是如何基于预训练模型构建推理模型的。通过开源方式,DeepSeek揭示了实现低成本推理的奥秘,为发展推理模型开辟了一条新路。DeepSeek揭示了一个事实,即推理模型的开发比想象中更为简单,门槛实际上并不是那么高,各行各业均可以做。

传统的强化学习需要大量标注数据,成本很高。DeepSeek另辟蹊径,以全自动的强化学习取代监督微调和基于人类反馈的强化学习,用机器直接推测的方式来预测分数,显著提高了强化学习的效率。

DeepSeek通过工程创新和优化,降低了推理成本,打破了人工智能领域长期以来对高算力的迷信,对人工智能产业的发展具有重大意义。

便捷本地部署

促进技术应用

DeepSeek在模型算法和工程优化方面所进行的系统级创新,为在受限资源下探索通用人工智能开辟了新路。传统大模型遵循的是一条“由通到专”的人工智能发展思路,与之相反,DeepSeek追求的是“由专到通”的人工智能发展路径,通过引领人工智能技术生态的形成,迈向全社会分享的通用人工智能之路。

虽然以OpenAI为代表的生成式人工智能红红火火,但多数企业不敢将自己的数据交给私有AI平台生成自己的垂直模型,因为担心提交的数据会泄露自己的技术机密。这可能是导致人工智能在很多行业难以落地和应用的重要原因之一。

DeepSeek的出现化解了上述难题。人工智能领域的研究者可以将DeepSeek提供的小而精的模型下载到本地,即使断网也可以“蒸馏”出高效率的垂直模型,从而增强当地人工智能创新发展的能力。

人工智能不同于资本密集型和经验积累型的集成电路产业,不仅要“烧钱”,而且要“烧脑”,本质上是比拼人的智力的新兴产业。因此,人工智能产业具有明显的不对称性,一个具有100多个聪明头脑的小企业完全可以与市值上万亿美元的龙头企业展开有力竞争。

突破规模法则

引发行业思考

规模法则是指人工智能模型在推理阶段(而非训练阶段)通过增加计算资源即算力来提升性能。在AI领域,规模法则被认为是“公理”,俗称“大力出奇迹”,OpenAI等龙头企业和美国的AI投资界将其当成制胜法宝。但是,规模法则不是像牛顿定律一样经过无数次验证的科学定律,而是OpenAI等公司近几年研制大模型的经验归纳。规模法则从科学研究的角度看,属于对技术发展趋势的猜想,从投资的角度看,属于对某种技术路线的押注,包含难以克服的局限性。

人工智能是对未来技术的探索,探索路径存在多种可能。人工智能本身也存在多元化的目标,探索的道路上有很多高山需要去攀登,攀登一座高山的路径也不止一条。把一条道路或猜想当成科学“公理”本身就不是科学的态度。

规模法则的倡导者,常以“强化学习之父”理查德·萨顿的文章《苦涩的教训》作为追求高算力的依据:“研究人员曾一次又一次试图通过精巧的工程设计来提升性能,但最终都败给了简单粗暴的‘加大算力’方案,历史证明,通用方法总是在AI领域胜出。”

最近两年,萨顿本人对规模法则做了深刻反思。他指出,虽然规模法则在提升模型性能方面确实有效,但它并不是解决所有问题的万能钥匙。AI系统不仅需要具备强大的计算能力,还需要具备持续学习、适应环境、理解复杂情境等能力,而这些往往难以通过简单地增加算力来实现。

图灵奖得主杨立昆和OpenAI前首席科学家伊利亚·苏茨克维等人甚至直言,规模法则已触及天花板。

DeepSeek的出现,促使全球AI界严肃地思考这一技术发展路线问题:是继续烧钱豪赌,还是另辟蹊径,在算法优化上下更多功夫?

DeepSeek的成功在一定程度上表明“小力也能出奇迹”“算法和模型架构优化也能出奇迹”。随着时间的推移,AI扩展方法也在发生变化:最初是模型规模,后来是数据集大小和数据质量,目前是推理时间和合成数据。

算力不容忽视

走好绿色之路

DeepSeek-R1是推理模型,从某种意义上说,它把业界对人工智能的关注重点从规模法则转移到推理计算上。

如果就此断言规模法则已经走到尽头,也是没有根据的。与人脑的神经连接复杂性相比,现在的人工神经网络至少还有上百倍的差距,继续扩大神经网络的规模和增加训练的数据量是非常必要的,但能否取得与投入相称的回报,还要看今后的实际效果。

DeepSeek的成功并没有否定算力在人工智能发展中的关键作用。实际上,由于用于推理的设备大幅多于训练设备,所以推理所需要的算力将来会成为主要需求。通过算法优化提高模型的效率十分重要,算力是解决人工智能问题的必要条件,不容忽视,而走节省算力的绿色发展之路是我们的必然选择。

(作者李国杰为中国工程院院士,长期从事计算机体系结构、并行算法、人工智能等研究,获首届何梁何利基金科技进步奖,主持取得的科研成果获国家科学技术进步奖一等奖等。本文由尹振茂根据作者表述整理)

中国科协科学技术传播中心、陈家庚科学奖基金会与本报合作推出

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-02-24 08:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

人工智能会冲击诗歌创作吗?诗学名家齐聚重庆给出了这样的回答……
一边是人工智能已被证实从撰写文章到诗歌创作,几乎无所不能;另一边则是不时就有诗人站出来,表示反对……一个有趣的问题也由此而生:人工智能真的已经影响到诗歌创作了么?“明月湖”国际诗
2023-10-25 20:33:00
人工智能赋能文学教育 博才白鹤小学“名家面对面”活动开启诗歌创作新范式
...开生面的“名家面对面”活动在此举行。本次活动以“当人工智能遇见诗歌创作”为主题,通过文学与科技的跨界碰撞,为现场近500名师生们呈现了一场充满创意的教育实践。“名家面对面”活
2025-05-12 17:16:00
以AI赋能数字电网发展(科技名家笔谈)
...司展台,参观者与“大瓦特”电力机器人互动。赖增鹏摄人工智能作为科技强国战略的核心组成部分,已成为发展新质生产力的核心要素。当前在电力行业,新型电力系统建设与新型能源体系构建,
2025-02-10 04:30:00
拓展应用场景  澎湃强劲动力(科技名家笔谈)
...,本质是先进生产力。以云计算、移动互联网、大数据、人工智能等为代表的信息技术从根本上变革人类科技创新范式和生产生活方式,推动新一轮科技革命和产业革命。超级计算机作为中国信息技
2024-05-20 04:02:00
四方精创等成立新公司,含多项AI业务
...科技有限公司成立,注册资本1000万元,经营范围包含:人工智能基础软件开发;人工智能行业应用系统集成服务;人工智能通用应用系统;人工智能应用软件开发;人工智能硬件销售等。企查
2025-09-30 16:00:00
向“实”前行 向“新”聚力 向“合”迈进
...业体系上走在前列。战略性新兴产业“抱团前行”近日,人工智能语音交互企业标贝科技将企业地址变更为青岛市崂山区,正式落户崂山区的青岛市人工智能产业园。“青岛市人工智能产业园为企业
2023-09-26 09:06:00
本文转自:经济参考报人工智能是引领未来的战略性通用技术和驱动新一轮产业变革的新引擎,对于抢占未来发展制高点、构建现代化产业体系至关重要。为此,需要准确把握人工智能技术、产业发展内
2024-03-21 00:54:00
听名家话科创 上海科普大讲坛第200期讲座即将举行
...”等关乎人类生存的问题;客观分析过“量子力学”、“人工智能”等对人类未来发展趋势的影响。一起迎接一个又一个全新板块:在“未来科学+”周末营领略科学之美、在“科技新青年”探讨卡
2023-07-28 15:14:00
智能“传感”,“感知”天下(科技名家笔谈)
...发展出数字经济业态。数字经济涉及的云计算、物联网、人工智能、5G通信等各类技术,都与传感器息息相关。 没有传感器就没有数字化和智能化。传感器是智能化系统的第一关,它的水平决
2024-01-29 03:46:00
更多关于科技的资讯:
□南京日报/紫金山新闻记者 张安琪9月23日,2025南京金秋经贸洽谈会开幕式上,一批全球首个、国内首批、性能全球最高的科技成果密集亮相
2025-10-06 09:49:00
国庆中秋长假期间,新能源汽车已成为众多家庭出游的重要选择。为进一步破解高速服务区“充电难、排队久”的现实困境,山西交控集团坚持“科技创新+服务升级”双轮驱动
2025-10-06 18:01:00
邮储信用卡气球雨惊喜派对即将空降青岛李沧万达,国庆中秋邀您共启幸运之旅!
鲁网9月30日讯2025年国庆、中秋双节同庆之际,为回馈广大市民与持卡人长期以来的支持,邮储银行青岛分行将于10月1日-8日
2025-10-06 14:11:00
□南京日报/紫金山新闻记者 于洁尘 通讯员陈天骄“干我们这行的,哪有节假日?越是假期越要忙。”10月5日一大早,28岁的陈潇离开南京
2025-10-06 09:48:00
节日我在岗丨十堰高周波:抓创新赶订单 全力冲刺年度目标
十堰广电讯(全媒体记者 陈林)在国庆中秋假期,位于十堰经济开发区的十堰高周波科工贸有限公司抓创新赶订单,全力冲刺年度目标
2025-10-05 20:21:00
节日我在岗丨艾斯卓智能科技:节日不休 赶制订单
十堰广电讯(全媒体记者 耿吉国)放假不放松,生产不停工。国庆中秋长假,我市各生产企业铆足干劲抓生产、赶订单,奋力冲刺年度目标任务
2025-10-05 20:21:00
普阳钢铁工程机械用高强高韧宽厚板全国市场占有率名列前茅一块宽厚板的靶向发力——“铁疙瘩”怎样变成“金娃娃”(十)从矿山到港口
2025-10-05 07:47:00
人气旺 厦门多个商场假日客流爆棚、销售额亮眼
集美大悦城商圈内,小朋友和机器人亲密互动。(本组图/厦门日报记者 黄晓珍 摄)国庆中秋假期, 厦门SM购物中心潮玩店内人气火爆
2025-10-04 09:20:00
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00
厦门网讯(厦门日报记者 朱道衡)近日,2025鼓浪屿世遗文创作品征集活动启动。此次活动面向全国(含港澳台地区)高校、企业
2025-10-03 08:37:00
厦门网讯(厦门日报记者 楚燕 通讯员 石青青)长假期间,许多人从忙碌的工作中解脱出来,趁机好好休息。可是,如果休息方式不得当
2025-10-03 08:37:00
渤海之潮涌动着澎湃的脉搏,海河之畔镌刻着科技的印记。10年前,一颗带有“清华”基因的种子在天津这片沃土扎根;10年后,它长成一棵枝繁叶茂的参天大树
2025-10-03 09:25:00
太燃了!无人机空中展旗!高新区国庆“氛围组”已上线!
2025-10-03 23:48:00
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00