• 我的订阅
  • 科技

全国已有14个国家超算中心,何为超算互联网建设的关键?

类别:科技 发布时间:2023-08-28 16:47:00 来源:澎湃新闻

·全局数据互联与长距离高速传输是超算互联网需要攻克的两大关键技术。存力与算力在超算互联建设中同样重要,大批量数据用算力计算一般只需几分钟,但计算前的上载数据要花一个小时,国产超算平台支持复杂计算全流程中数据流转的能力亟待改善。

全国已有14个国家超算中心,何为超算互联网建设的关键?

国家超级计算长沙中心总工程师唐卓。今年6月,浙江“乌镇之光”超算中心正式纳入国家超算中心序列,成为全国第14个国家超算中心。“我们国家现在正在紧锣密鼓地建设超算互联网。”8月24日,在十九届全国高性能计算学术年会期间(CCF HPC China 2023),国家超级计算长沙中心总工程师、国家高层次人才计划入选者唐卓向澎湃科技(www.thepaper.cn)详解构建超算互联网亟需解决的关键技术、存力建设的重要性,以及传统超算如何融合人工智能计算和大数据计算等。唐卓长期从事高性能计算和云计算的教学与科研工作。对于当前青年科研人员的内卷,他建议要有明确的研究方向并长期沉淀和坚持,清晰认知自身的学习能力和科研创新能力,在两者兼具的情况下往前冲,很难不成功。

超算互联网两大关键技术:全局数据互联与长距离高速传输

算力是当代生产力,超级计算也被称为高性能计算。为盘活算力资源,单超算中心向超算互联网演进,超算互联网的目的是让用户能够随时随地获取数据资源和算力资源。从物理形态上来讲,它通过高速互联技术将超算中心连接起来,统一对外提供数据和算力服务。

“我们国家现在正在紧锣密鼓地建设超算互联网。”唐卓表示,目前算网调度有两大关键技术要突破,一是数据和任务的跨域调度和跨中心调度,二是长距离数据传输的低时延和高带宽。

对于前者,算力是CPU(中央处理器)、GPU(图形处理器)、FPGA(现场可编程门阵列)等算力设备,实体的算力设备无法调度,所谓的算力调度,就是分配数据和任务到合适的地方进行计算分析。算力调度就像军队指挥官,将一个大任务分解成多个小任务。以“天河”新一代超级计算机为例,其具有一万多块加速器、上千万核心。上千万核心相当于上千万士兵,指挥官要让这上千万士兵步调一致地分工计算并返回结果,形成最终的计算结果。但上千万士兵的能力并不都相同,所以要考虑每个士兵的负载情况,把合适的任务分配给合适的士兵。为了让分散在各地的数据被正确处理,这就需要超算互联网数据基础设施的一体化建设,打破多超算中心的数据孤岛,通过全局数据管理的新技术手段,实现数据全域互联、全域可见、统一调度,任意位置数据即取即用。

对于后者,带宽是单位时间能通过链路的数据量,延迟是在传输介质中传输所用的时间。中国工程院院士、清华大学计算机系教授郑纬民曾提到,在网络正常情况下,从北京的清华大学传输4T数据到江苏的国家超级计算无锡中心太湖之光超级计算机,需要5天。把数据刻成盘寄快递,第二天下午就能到无锡。为了解决这个问题,唐卓表示,目前光传送网(OTN)以及运营商的云专网等适用于长距离、低时延的算力网构建。

存力与算力在超算互联建设中同样重要

国产超算处于国际第一梯队,是我国的一张名片,但仍面临数据治理困难、应用移植成本高等挑战。数据作为超算互联的核心生产要素,其重要性已成为业界共识,高效的数据流动是算力流动的基础。唐卓表示,因此业界在关注算力的同时也需要考虑数据存力,未来超算的建设应围绕科研数据应用的全流程进行构造。

国产超算平台支持复杂计算全流程中数据流转的能力亟待改善。唐卓说,大批量数据用算力计算一般只需几分钟,但计算前的上载数据要花一个小时。在计算过程中,不可避免地要在计算节点之间不停交换数据,搬运这些数据的时间开销也非常大。“我们在判断超算的效率时有一个重要指标:计算通信开销比,我们不希望数据交换占据的时间过长,解决这个问题的方法是,在做密集型计算之前,把数据清洗、数据融合、数据上载等一部分必要计算直接下沉到专业存储上去完成,这也是超算逐渐从计算密集型走向数据密集型的一个映证。”

唐卓表示,以前的存储设备仅仅存储数据,而现在远不止于此,要让存储设备具有一定的近数据计算能力和数据业务处理逻辑,提升整体效率。除此之外,存储还需要按照访问频次预先识别数据的热冷程度,把热数据放到性能较好的存储介质上,把冷数据放到性价比更高的存储介质上,实现数据的分区存放、按需流动。“这些都是存力的作用,通过存力建设让主处理器只负责计算,减少数据搬运开销和数据I/O(输入/输出)开销。”

随着人工智能的发展,传统超算如何适应人工智能计算和大数据计算?唐卓表示,存力不仅要解决数据I/O问题,还要解决多数据中心的数据调度。只有更好地理解数据特征和应用特征,才能在融合计算过程中做出预判,把数据和任务分配到最合适的位置上进行计算,使得节点之间的数据交换量更小。

唐卓表示,一个千亿参数的大模型在一台甚至多台超算上进行训练时,要把模型分成多份并行训练,训练结果实时同步交换,这增加了节点间的通信开销。为了降低通信开销,一个方法是先各自训练,再交换一批次训练结果,但这会导致沟通稀疏、收敛性较差。“目前国内大模型主要在超算和智算上训练,超算用于人工智能计算还有很大提升空间。”唐卓表示,要在传统超算方面加大存力建设、数据调度和任务科学调度的投入,实现算力与存力协同、分工优化,让超算与智算相互渗透融合,同时让智能计算和超算形成算网、数网的互联,互通有无。

明确研究方向并长期沉淀

唐卓目前任职国家超级计算长沙中心总工程师,正在从事省域算力网的模式构建研究和原型系统研究,他也在湖南大学信息科学与工程学院主持工作,深刻认识到当前“超算和AI领域真正需要的是掌握核心底层技术能力的人才”,他希望学生具备对计算架构、存储架构、体系结构以及底层系统研发的能力,而不仅仅是编程能力。

唐卓介绍,湖南大学信息科学与工程学院正在制定、修改、优化本科生和研究生的培养计划和教学大纲,以计算机系统的视角培养人才。计算机科学方向的本科生在入学时抓好处理器设计、指令集、操作系统、编译原理、高级程序语言设计5门核心课程,“让学生毕业时能够充分理解高级程序语言是怎么被编译成机器代码的,机器代码是如何在操作系统层面被调度到处理器核心上工作的,机器代码在处理器核心上执行时是怎么编译,每一条指令在 CPU上是怎么执行并变成一个电路级行为的,这就到了最底层的芯片的设计,最终让学生非常清晰地理解整个计算机体系结构。”研究生阶段实行并行计算、高性能计算培养,在开发板上设计处理器架构、操作系统、编译系统,通过学生个人账号登录超级计算机,深入学习和理解超算程序的编写,编译和调度。

唐卓也看到,“当前青年科研人员处于内卷状态,科研院所和头部企业更加突出。”他建议要有明确的研究方向并长期沉淀和坚持,“很多博士毕业后到了高校,今年做这个方向明年又换另一个方向,跟着潮流变换,这不是一个好现象。”在超算转向智算过程中要根据数据特征和应用特征对数据再分配和调度整合,唐卓表示,这在十多年前已被发现,“我们一直在做这个事情,一直没变,所以才能够慢慢积累起来。当你觉得最辛苦、最沮丧、最困难的时候,如果你坚持下来了,你的突破点、转折点就快到了。”

其次,青年科研人员要清晰认知自身的学习能力和科研创新能力。如果具备了明确研究方向和清晰认知,“那就冲吧,我觉得这很难不成功。”

(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-08-28 21:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

为1000家企业把脉定制数字化转型药方
...药方企业智能化生产线打造一批5G全连接工厂;实施工业互联网平台培育工程;打造一批工业互联网应用示范项目;培育一批工业互联网领军企业;未来三年,我市将每年拿出不少于1亿元财政资
2023-06-27 11:46:00
全面夯实高质量发展数字底座,工业互联网创新融合再上台阶
2023年,工业互联网顶级节点(重庆)上线二级节点47个,其中重庆本地上线二级节点19个,位列全国第六,接入企业节点数超3.5万家,占比超过全国十分之一,形成了“以重庆为核心、成
2024-03-12 10:07:00
国家超算互联网核心节点上线试运行,托举中国AI算力应用关键一跃!
2月5日,国家超算互联网应用技术大会暨核心节点上线试运行仪式在郑州隆重举行。发改委、科技部、工信部、国家数据局、国家自然科学基金委等单位莅临现场,河南省、郑州市两级政府鼎力支持,
2026-02-06 15:28:00
本文转自:济南日报全省16市架起“超算互联网”济南超算为全国“东数西算”蹚路子8月23日-26日,2023CCF全国高性能计算学术年会“第二届超算互联网与东数西算”论坛在青岛召开
2023-08-30 11:49:00
从规模建设转向规模应用 江苏发力拓展工业互联网标识应用与服务
...网南京3月15日电 (顾姝姝)3月14日,江苏省2023年度工业互联网标识工作推进会暨国家顶级节点(南京灾备节点)灾备演练在南京市高淳区举办。人民网从会上获悉,截至目前,江苏
2023-03-15 15:28:00
...报客户端乔栋记者从青海省通信管理局获悉:西宁国家级互联网骨干直联点开通活动日前举行,当天活动以“数据三江源算联新青海”为主题,进行主题演讲和签约活动。青海省委副书记、省长吴晓
2023-12-18 20:59:00
助力工业互联网走深向实,标识应用如何创新发展?| 标识大赛总决赛提前看
文 | 江倩君自我国于上世纪90年代全功能接入国际互联网,经历二十余年发展,从消费端来看,我国已围绕购物、出行、社交、医疗、教育等需求建立起庞大的流量分发网络与应用生态体系,深刻
2023-12-09 12:48:00
全国76支队伍齐聚合肥 工业互联网领域“华山论剑”
本文转自:江淮晨报五支队伍获得首届全国工业互联网创新大赛一等奖。◤工业互联网,数字新基建的“牛鼻子”。8月24日,首届全国工业互联网创新大赛在肥收官,76支决赛队伍在工业互联网科
2023-08-25 00:26:00
...业体系具有重要意义。“星火实验室”是中国信通院工业互联网与物联网研究所牵头,联合电子科技大学,依托国家工业互联网标识解析、区块链服务网络等数字基础设施,共同推动建设的网络基础
2023-10-03 06:30:00
更多关于科技的资讯:
2026年WGS世界政府峰会 迪拜王储乘坐百度萝卜快跑无人车参会!
“解放双手、未来已来!”在体验完萝卜快跑全无人驾驶后,迪拜王储谢赫·哈姆丹主动在海外社交媒体上发文,赞叹这次“非常丝滑”的未来出行
2026-02-06 17:08:00
三联家电章丘首店世茂店盛大开业,一站式高端家电消费新升级
鲁网2月6日讯春启新程,盛境绽放!2月6日,扎根齐鲁四十一载的山东家电零售领军品牌三联家电,携章丘区域首店正式入驻章丘世茂广场
2026-02-06 17:12:00
造谣一张嘴,辟谣跑断腿。一段时间以来,网络“黑嘴”伤企现象时有发生,严重影响企业正常发展。现摘编山东青岛市网信办文章《守护营商网络净土
2026-02-06 17:46:00
蚂蚁集团发布《2025年消费者权益保护年报》:金融普惠教育系列行动覆盖2.4亿人次
中国消费者报报道(记者司宇萌)日前,蚂蚁集团正式发布《2025年消费者权益保护年报》(以下简称《年报》)。《年报》显示
2026-02-06 18:11:00
第四届储能大会将于5月22日至24日在南京举办
中国消费者报北京讯(记者吴博峰)2月5日,以“技术突围•生态协同”为主题、由江苏省储能行业协会联合行业媒体共同主办的CESC2026第四届储能大会暨储能及智能电网设备应用展览会媒体见面会在京举行
2026-02-06 18:11:00
聚焦国际优质内容 京东图书推动法国与英国经典作品销量与影响力双提升
当下,法国文学在中国阅读市场的热度持续攀升,相关数据显示2025对华出口额同比增长超过30%。作为引进与销售海外文化作品的渠道之一
2026-02-06 18:17:00
河钢集团张宣科技:聚力体系构建 推动智能制造向高端跃迁
河北新闻网讯(王杨、曹莹莹)曾经,以“氢冶炼”替代“碳冶炼”实现了行业突围。如今,产业向智造升级,河钢集团张宣科技又该如何续写传奇
2026-02-06 20:00:00
在全球制造业向高端化、智能化转型的浪潮中,激光技术作为核心支撑力量,正重塑产业发展格局。武汉华工激光工程有限责任公司(以下简称 “华工激光”)作为中国激光工业化应用的开创者与引领者
2026-02-06 15:27:00
国家超算互联网核心节点上线试运行,托举中国AI算力应用关键一跃!
2月5日,国家超算互联网应用技术大会暨核心节点上线试运行仪式在郑州隆重举行。发改委、科技部、工信部、国家数据局、国家自然科学基金委等单位莅临现场
2026-02-06 15:28:00
河北交投禄发集团徐水服务区升级改造换新颜 顾客出行体验再提升
视频摄制:周明哲河北新闻网讯(牟岚)2月4日,位于京港澳高速公路京石段121公里处的河北交投禄发集团所属徐水服务区升级改造后重新亮相
2026-02-06 15:29:00
随着银发经济从基础保障型供给向精神文化型消费升级,银发文教正在成为银发产业中最具潜力的细分赛道。与早期的兴趣培训不同,如今的银发文教已经覆盖文化素养
2026-02-06 15:39:00
近日,倍轻松推出的“早睡娃娃”系列以现象级热度席卷社交网络,成为年货消费市场的一抹亮色。1月23日至25日,全国巡展首站在深圳KKONE购物中心启动
2026-02-06 15:47:00
毛绒玩具产业是雄安新区容城县的特色优势产业。马年春节将至,位于容城县的中国(雄安新区)玩具总部基地内,上百款马年毛绒玩具扎堆上新
2026-02-06 13:57:00
“墨子号”卫星后里程碑式成果!中国科大首次在国际上构建出可扩展量子中继模块
大皖新闻讯 “这是‘墨子号’量子卫星之后又一里程碑式成果。”相关人员如此表示。2月6日,记者从中国科学技术大学了解到
2026-02-06 12:03:00