• 我的订阅
  • 科技

全国已有14个国家超算中心,何为超算互联网建设的关键?

类别:科技 发布时间:2023-08-28 16:47:00 来源:澎湃新闻

·全局数据互联与长距离高速传输是超算互联网需要攻克的两大关键技术。存力与算力在超算互联建设中同样重要,大批量数据用算力计算一般只需几分钟,但计算前的上载数据要花一个小时,国产超算平台支持复杂计算全流程中数据流转的能力亟待改善。

全国已有14个国家超算中心,何为超算互联网建设的关键?

国家超级计算长沙中心总工程师唐卓。今年6月,浙江“乌镇之光”超算中心正式纳入国家超算中心序列,成为全国第14个国家超算中心。“我们国家现在正在紧锣密鼓地建设超算互联网。”8月24日,在十九届全国高性能计算学术年会期间(CCF HPC China 2023),国家超级计算长沙中心总工程师、国家高层次人才计划入选者唐卓向澎湃科技(www.thepaper.cn)详解构建超算互联网亟需解决的关键技术、存力建设的重要性,以及传统超算如何融合人工智能计算和大数据计算等。唐卓长期从事高性能计算和云计算的教学与科研工作。对于当前青年科研人员的内卷,他建议要有明确的研究方向并长期沉淀和坚持,清晰认知自身的学习能力和科研创新能力,在两者兼具的情况下往前冲,很难不成功。

超算互联网两大关键技术:全局数据互联与长距离高速传输

算力是当代生产力,超级计算也被称为高性能计算。为盘活算力资源,单超算中心向超算互联网演进,超算互联网的目的是让用户能够随时随地获取数据资源和算力资源。从物理形态上来讲,它通过高速互联技术将超算中心连接起来,统一对外提供数据和算力服务。

“我们国家现在正在紧锣密鼓地建设超算互联网。”唐卓表示,目前算网调度有两大关键技术要突破,一是数据和任务的跨域调度和跨中心调度,二是长距离数据传输的低时延和高带宽。

对于前者,算力是CPU(中央处理器)、GPU(图形处理器)、FPGA(现场可编程门阵列)等算力设备,实体的算力设备无法调度,所谓的算力调度,就是分配数据和任务到合适的地方进行计算分析。算力调度就像军队指挥官,将一个大任务分解成多个小任务。以“天河”新一代超级计算机为例,其具有一万多块加速器、上千万核心。上千万核心相当于上千万士兵,指挥官要让这上千万士兵步调一致地分工计算并返回结果,形成最终的计算结果。但上千万士兵的能力并不都相同,所以要考虑每个士兵的负载情况,把合适的任务分配给合适的士兵。为了让分散在各地的数据被正确处理,这就需要超算互联网数据基础设施的一体化建设,打破多超算中心的数据孤岛,通过全局数据管理的新技术手段,实现数据全域互联、全域可见、统一调度,任意位置数据即取即用。

对于后者,带宽是单位时间能通过链路的数据量,延迟是在传输介质中传输所用的时间。中国工程院院士、清华大学计算机系教授郑纬民曾提到,在网络正常情况下,从北京的清华大学传输4T数据到江苏的国家超级计算无锡中心太湖之光超级计算机,需要5天。把数据刻成盘寄快递,第二天下午就能到无锡。为了解决这个问题,唐卓表示,目前光传送网(OTN)以及运营商的云专网等适用于长距离、低时延的算力网构建。

存力与算力在超算互联建设中同样重要

国产超算处于国际第一梯队,是我国的一张名片,但仍面临数据治理困难、应用移植成本高等挑战。数据作为超算互联的核心生产要素,其重要性已成为业界共识,高效的数据流动是算力流动的基础。唐卓表示,因此业界在关注算力的同时也需要考虑数据存力,未来超算的建设应围绕科研数据应用的全流程进行构造。

国产超算平台支持复杂计算全流程中数据流转的能力亟待改善。唐卓说,大批量数据用算力计算一般只需几分钟,但计算前的上载数据要花一个小时。在计算过程中,不可避免地要在计算节点之间不停交换数据,搬运这些数据的时间开销也非常大。“我们在判断超算的效率时有一个重要指标:计算通信开销比,我们不希望数据交换占据的时间过长,解决这个问题的方法是,在做密集型计算之前,把数据清洗、数据融合、数据上载等一部分必要计算直接下沉到专业存储上去完成,这也是超算逐渐从计算密集型走向数据密集型的一个映证。”

唐卓表示,以前的存储设备仅仅存储数据,而现在远不止于此,要让存储设备具有一定的近数据计算能力和数据业务处理逻辑,提升整体效率。除此之外,存储还需要按照访问频次预先识别数据的热冷程度,把热数据放到性能较好的存储介质上,把冷数据放到性价比更高的存储介质上,实现数据的分区存放、按需流动。“这些都是存力的作用,通过存力建设让主处理器只负责计算,减少数据搬运开销和数据I/O(输入/输出)开销。”

随着人工智能的发展,传统超算如何适应人工智能计算和大数据计算?唐卓表示,存力不仅要解决数据I/O问题,还要解决多数据中心的数据调度。只有更好地理解数据特征和应用特征,才能在融合计算过程中做出预判,把数据和任务分配到最合适的位置上进行计算,使得节点之间的数据交换量更小。

唐卓表示,一个千亿参数的大模型在一台甚至多台超算上进行训练时,要把模型分成多份并行训练,训练结果实时同步交换,这增加了节点间的通信开销。为了降低通信开销,一个方法是先各自训练,再交换一批次训练结果,但这会导致沟通稀疏、收敛性较差。“目前国内大模型主要在超算和智算上训练,超算用于人工智能计算还有很大提升空间。”唐卓表示,要在传统超算方面加大存力建设、数据调度和任务科学调度的投入,实现算力与存力协同、分工优化,让超算与智算相互渗透融合,同时让智能计算和超算形成算网、数网的互联,互通有无。

明确研究方向并长期沉淀

唐卓目前任职国家超级计算长沙中心总工程师,正在从事省域算力网的模式构建研究和原型系统研究,他也在湖南大学信息科学与工程学院主持工作,深刻认识到当前“超算和AI领域真正需要的是掌握核心底层技术能力的人才”,他希望学生具备对计算架构、存储架构、体系结构以及底层系统研发的能力,而不仅仅是编程能力。

唐卓介绍,湖南大学信息科学与工程学院正在制定、修改、优化本科生和研究生的培养计划和教学大纲,以计算机系统的视角培养人才。计算机科学方向的本科生在入学时抓好处理器设计、指令集、操作系统、编译原理、高级程序语言设计5门核心课程,“让学生毕业时能够充分理解高级程序语言是怎么被编译成机器代码的,机器代码是如何在操作系统层面被调度到处理器核心上工作的,机器代码在处理器核心上执行时是怎么编译,每一条指令在 CPU上是怎么执行并变成一个电路级行为的,这就到了最底层的芯片的设计,最终让学生非常清晰地理解整个计算机体系结构。”研究生阶段实行并行计算、高性能计算培养,在开发板上设计处理器架构、操作系统、编译系统,通过学生个人账号登录超级计算机,深入学习和理解超算程序的编写,编译和调度。

唐卓也看到,“当前青年科研人员处于内卷状态,科研院所和头部企业更加突出。”他建议要有明确的研究方向并长期沉淀和坚持,“很多博士毕业后到了高校,今年做这个方向明年又换另一个方向,跟着潮流变换,这不是一个好现象。”在超算转向智算过程中要根据数据特征和应用特征对数据再分配和调度整合,唐卓表示,这在十多年前已被发现,“我们一直在做这个事情,一直没变,所以才能够慢慢积累起来。当你觉得最辛苦、最沮丧、最困难的时候,如果你坚持下来了,你的突破点、转折点就快到了。”

其次,青年科研人员要清晰认知自身的学习能力和科研创新能力。如果具备了明确研究方向和清晰认知,“那就冲吧,我觉得这很难不成功。”

(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-08-28 21:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

为1000家企业把脉定制数字化转型药方
...药方企业智能化生产线打造一批5G全连接工厂;实施工业互联网平台培育工程;打造一批工业互联网应用示范项目;培育一批工业互联网领军企业;未来三年,我市将每年拿出不少于1亿元财政资
2023-06-27 11:46:00
全面夯实高质量发展数字底座,工业互联网创新融合再上台阶
2023年,工业互联网顶级节点(重庆)上线二级节点47个,其中重庆本地上线二级节点19个,位列全国第六,接入企业节点数超3.5万家,占比超过全国十分之一,形成了“以重庆为核心、成
2024-03-12 10:07:00
本文转自:济南日报全省16市架起“超算互联网”济南超算为全国“东数西算”蹚路子8月23日-26日,2023CCF全国高性能计算学术年会“第二届超算互联网与东数西算”论坛在青岛召开
2023-08-30 11:49:00
从规模建设转向规模应用 江苏发力拓展工业互联网标识应用与服务
...网南京3月15日电 (顾姝姝)3月14日,江苏省2023年度工业互联网标识工作推进会暨国家顶级节点(南京灾备节点)灾备演练在南京市高淳区举办。人民网从会上获悉,截至目前,江苏
2023-03-15 15:28:00
助力工业互联网走深向实,标识应用如何创新发展?| 标识大赛总决赛提前看
文 | 江倩君自我国于上世纪90年代全功能接入国际互联网,经历二十余年发展,从消费端来看,我国已围绕购物、出行、社交、医疗、教育等需求建立起庞大的流量分发网络与应用生态体系,深刻
2023-12-09 12:48:00
...报客户端乔栋记者从青海省通信管理局获悉:西宁国家级互联网骨干直联点开通活动日前举行,当天活动以“数据三江源算联新青海”为主题,进行主题演讲和签约活动。青海省委副书记、省长吴晓
2023-12-18 20:59:00
全国76支队伍齐聚合肥 工业互联网领域“华山论剑”
本文转自:江淮晨报五支队伍获得首届全国工业互联网创新大赛一等奖。◤工业互联网,数字新基建的“牛鼻子”。8月24日,首届全国工业互联网创新大赛在肥收官,76支决赛队伍在工业互联网科
2023-08-25 00:26:00
...业体系具有重要意义。“星火实验室”是中国信通院工业互联网与物联网研究所牵头,联合电子科技大学,依托国家工业互联网标识解析、区块链服务网络等数字基础设施,共同推动建设的网络基础
2023-10-03 06:30:00
国家卫健委:重点关注辅助生殖、医疗美容、互联网医疗等领域...
...,重点关注辅助生殖、医学检验、健康体检、医疗美容、互联网医疗等领域的违法违规问题。二是规范直播带货,净化网络环境。持续压实网站平台主体责任,加大对涉医网络直播带货、信息内容、
2024-05-27 14:12:00
更多关于科技的资讯: