• 我的订阅
  • 科技

Nature:探秘世界最快超算 Frontier 的一天

类别:科技 发布时间:2024-09-18 09:52:00 来源:IT之家

在美国田纳西州东部的山区,一台名为 Frontier 的破纪录超算为科学家提供了前所未有的机会,让他们得以研究从原子到星系的一切。

超算建设如火如荼,无论是主权 AI 还是科技巨头,都在源源不断地给英伟达输血、建数据中心。

前段时间,马斯克建成的有 10 万张 H100 的 Colossus 集群,号称是世界上最强大的 AI 训练系统。

而在这之前,截止到 2023 年 12 月,世界上运算速度最快的超算,是位于美国田纳西州橡树岭的 Frontier,也被称为 OLCF-5。

Frontier 配备的是 AMD 的 CPU 和 GPU,有 5 万个处理器(其中包含 3.8 万个 GPU),运算速度为 1.102 exaFLOPS,即每秒 1.102 百亿亿(1018)次浮点运算。

这个速度甚至比 10 万台笔记本同时工作还要更快,而且在 2022 年首次亮相时,Frontier 还破了一个纪录 —— 第一次突破了百亿亿次运算速度的门槛。

Nature:探秘世界最快超算 Frontier 的一天

▲Frontier 超算的覆盖面积比两个篮球场还要大

之所以要追求如此卓越的速度和规模,是为了满足各领域前沿科学研究中模拟计算的需要。

Frontier 十分擅长创建模拟,并能同时捕捉到大尺度的模式和小尺度的细节,比如微小的云滴如何影响气候变暖的速度。

如今,研究人员们从世界各地登录 Frontier,创建从亚原子粒子到星系的一切尖端模型,包括模拟蛋白质进行药物发现和涉及、模拟湍流以改进飞机发动机,以及训练能和谷歌、OpenAI 竞争的开源 LLM。

但是,就在今年四月的一天,Frontier 的运作出现了一点意外。

Frontier 所在的田纳西州橡树岭国家实验室科学主任 Bronson Messer 表示,为了为了跟上世界各地科学家们的要求,Frontier 的功耗急剧上升,峰值达到了约 27 兆瓦,足以为大约 1 万个家庭供电。

Nature:探秘世界最快超算 Frontier 的一天

这也为超算的冷却系统带来了挑战,用 Messer 的话说,「机器像一条被烫伤的狗一样在运行」。

根据 2023 年的统计,Frontier 共有 1744 个用户,遍布 18 个国家,贡献的计算和数据支撑了至少 500 篇已经公开发表的论文。

探秘 Frontier「大脑」内部

和我们想象的场景类似,Frontier 所在的机房类似于一个仓库,运转时发出的电子嗡嗡声稳定而轻柔。

机房中共有 74 个机架,每个节点分别包含 4 个 GPU 和 1 个 CPU。之所以有如此快的运算速度,就是得益于庞大的 GPU 数量。

实验室主任 Messer 形容道,「这些 GPU 运行得非常快,但也愚蠢至极,它们可以一遍又一遍地做同一件事。」这种同时处理多项运算的功能对超算的快速工作非常有用,但除此之外,也没什么其他任务了。

这种「愚蠢至极」的背后,是一种通用性,各领域的科学家都可以通过定制代码来运行 GPU。

Frontier 的运转日夜不停,同样连轴转的还有负责运营、维护的工程团队。

负责建造这台超算的工程师团队来自惠普公司,其中一位技术人员 Corey Edmonds 表示,他们有一个工程团队会对 Frontier 进行持续监控,判断是否存在故障迹象。

比如其中一位夜班人员 Conner Cunningham 的工作时间就是晚 7 点到早 7 点,负责用十多个监视器关注网络和建筑物的安全,并监控当地天气,确保 Frontier 正常运转。

实际上,大多数夜晚都是「平安夜」,Cunningham 一般只需要巡查几次,其余时间都可以在工位上学习。

「这项工作有点像消防员,如果发生任何事,需要有人在岗监控。」

助力大科学

虽然 Frontier 日夜不停地运转,但研究人员想要申请到使用机会,也并不是一件容易的事。

科学主任 Messer 和其他 3 位同事负责使用提案的评估和批准,他们去年共批准了 131 个项目,通过率约为 1/4,申请人需要表明其项目需要利用整个超算系统才能获批,一般用于对各种时间和空间尺度进行建模。

Frontier 每年共有约 6500 万个节点时(node-hour)可用,研究人员得到的最常见的分配额度为 50 万个节点时,相当于全系统连续运行三天。

Messer 表示,相比其他数据中心,研究人员在 Frontier 上获得的计算资源大约多出十倍。

Nature:探秘世界最快超算 Frontier 的一天

▲Frontier 拥有超过 5 万个处理器,并采用液冷

有了更快的运算速度、更多的计算资源,研究人员们就能做出更加雄心勃勃的「大科学」。

比如,在原子级精度精确地模拟生物过程,像是溶液中的蛋白质或核酸如何与细胞其他部分发生相互作用。

今年 5 月,有学者用 Frontier 模拟了含有超过 1550 亿个水分子的立方体形状的水滴,大小约为人类头发宽度的十分之一,是有史以来规模最大的原子级模拟之一。

短期内,研究人员希望模拟细胞器来为实验室提供信息;此外他们还希望将这些高分辨率的模拟结果,与 X 射线自由电子激光器的超快成像相结合,以加速发现。

这些工作都是为今后更大的目标做铺垫 —— 从原子开始对整个细胞进行建模。

有了 Frontier,气候模型也变得更加精确。

Nature:探秘世界最快超算 Frontier 的一天

去年,气候科学家 Matt Norman 和其他研究人员使用 Frontier 运行了分辨率为 3.25 公里的全球气候模型,其中还结合了分辨率更加精细的复杂的云层运动。

为了创建长达数十年的预测模型,Frontier 的计算能力是十分必要的,而且需要用上整个系统的算力才能做到。

对于一个适用于天气和气候预测的模型,至少需要每天进行一年的模拟运行。Frontier 每天可以模拟 1.26 年,这个速度可以使研究人员能够创建比以前更准确的 50 年预测。如果换到其他计算机上运行,要达到相同的分辨率,同时考虑云的影响,计算速度则会慢得多。

在更大的宇宙级尺度上,Frontier 也能带来更高的分辨率。

匹兹堡大学的天体物理学家 Evan Schneider 也在使用 Frontier,研究银河系大小的星系如何随着年龄的增长而演化。

他们创建的星系模型跨越四个数量级,最大规模可达约 10 万光年。而在 Frontier 之前,以类似的分辨率模拟的最大结构是矮星系,质量约为五十分之一。

Frontier 对 AI 意味着什么

作为曾经的世界第一,Frontier 的地位显得更加独特,因为这台超算是为数不多的属于公共部门的设备,而非由工业界主导。

由于 AI 领域的研究往往需要吞噬庞大的算力,学术界和工业界的成果存在巨大的鸿沟。

有学者统计过,2021 年,96% 的最大的 AI 模型来自工业界。平均而言,工业界模型的规模是学术模型的近 30 倍。

这种差异在投资金额方面也很明显。美国的非国防公共机构在 2021 年提供了 15 亿美元支持 AI 研究。同年,全球工业界支出超过 3400 亿美元。

而自从 GPT-4、Gemini Ultra 等商业 LLM 发布以来,两者之间的差距又被进一步扩大,这种投资鸿沟导致工业界和学术界可用的计算资源明显不对称。

由于工业界的模型开发以盈利为目的,往往会忽视很多技术发展中必须要面对的重要问题,比如基础研究、低收入群体的需求、评估模型风险、纠正模型偏见等等。

如果学术界要承担起这些责任,就需要能和行业规模匹配的算力,这就是 Frontier 的用武之地。

一个最典型的例子,科技公司训练出的 LLM 往往保留不同程度的专有性,但研究者们往往会将自己开发的模型免费提供给任何人使用。

马里兰大学帕克分校的计算机科学家 Abhinav Bhatele 表示,这将有助于大学研究人员与公司竞争,「学术界人士训练类似规模模型的唯一方法是获得像 Frontier 这样的资源。」

Bhatele 认为,Frontier 等设施在 AI 领域就是发挥着这种至关重要的作用,让更多的人参与到技术开发中,共享成果。

但值得注意的是,这场国家之间、科技公司和非营利机构间的算力基础设施竞赛,依旧在持续,能力强大如 Frontier 也终会有跌落的一天。

橡树岭实验室已经在规划 Frontier 的继任者,名为 Discovery,计算速度将提升 3~5 倍。

作为参考,Frontier 相比 2014 年的最快的超算天河二号 A 快了 35 倍,比 2004 年最快的超算 Earth Simulator 快 3.3 万倍。

Nature:探秘世界最快超算 Frontier 的一天

研究人员仍然渴望更快的速度,但工程师们面临着持续的挑战,其中一方面就是能源。

Frontier 的能源效率相比 Summit 就提升了 4 倍多,很大程度上是源于不同的冷却方案。

Frontier 使用室温水进行冷却,与 Summit 使用冷水不同。Frontier 总能耗的大约 3%~4% 用于冷却,而 Summit 的这一比例为 10%。

与 Summit 使用冷冻水不同。Frontier 总能耗的大约 3-4% 用于冷却,而 Summit 的这一比例为 10%。

多年来,能源效率一直是构建更先进超算的关键瓶颈,而在可预见的将来,这个瓶颈估计会持续存在。

实验室主任 Messer 表示,「我们本可以在 2012 年建造一台百亿亿次级别的超算,但提供动力的成本太高了,需要多一两个数量级的电力。」

参考资料:

本文来自微信公众号:,作者:乔杨,原标题《Nature:探秘世界最快超算的一天》

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-18 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

清华团队提出新型光计算架构,光训练速度提升1个数量级
...,极大地限制了光训练的规模和效率。为解决上述问题,研究人员提出了正反互易和光学共通的解决思路。·正反互易:全前向智能光计算训练架构。受物理学对称性的启发,研究人员建立了“空间
2024-08-09 09:57:00
GenAI如何颠覆大学?哈佛90%学生用LLM,教授追捧引发AI学术浪潮
...改变了学术和行业研究之间的关系。哈佛大学的人工智能研究人员必须提出更小的问题,或者特别的问题,而不是自己训练下一代模型。随着学术界和工业界资助之间的差距越来越大,甚至一些教授
2024-08-26 09:51:00
华为云正式发布盘古大模型3.0 打造世界AI另一极
...题,用AI赋能千行百业。“盘古药物分子大模型助力发现世界40年来首个抗生素”、“盘古气象大模型相比传统数值预测方法速度提升10000倍,能够提供秒级的全球气象预报”……7日,
2023-07-07 18:22:00
《麻省理工科技评论》中国智能计算创新人物峰会圆满落幕
...素。智能计算作为科研和产业应用的重要议题,旨在满足世界科技前沿和国家重大战略需求,研究包括器件与芯片、先进计算机、软件与系统、平台与应用等多个层次的计算问题。正因此,《麻省理
2024-04-29 10:09:00
纽约大学教授 Nature 发文:为了科学界的未来
...习、项目反应理论和广义线性模型在政治科学中的应用。研究人员应该避免商用模型的诱惑,共同开发透明的大型语言模型,以确保可重复性。拥抱开源,拒绝垄断似乎每天都有一个全新的大型语言
2023-05-10 15:10:00
ai大模型助力新型工业化发展
...分析决策,促进产业链全局优化。10月17日举行的“百度世界2023”上,百度还将披露更多关于新型工业化的产品和服务,包括云智一体的新架构、百度智能云千帆大模型平台新动态,AI
2023-10-09 11:07:00
聚焦智能制造,五洲工业发展论坛在深圳举办
...的专门奖项。与“中国工业大奖”形成对应体系,是深圳工业界的最高荣誉。目前已举办六届,共有59家企业和55位工业家获评“深圳工业大奖”。 传音、德方纳米、古瑞瓦特、光韵达、杰
2023-09-28 23:44:00
英伟达SC24六大技术亮点,不止加速超算500强
...更大的开源数据集,推动生物医药产业发展。加速计算为研究人员提供趁手的工具,而开源数据集则补足了“原料”。研究人员需要专门的生物分子模型和数据集来大规模地收集洞察,以便更快地设
2024-11-22 09:48:00
上交会开幕,AI+、低空经济成展会新宠儿
...出率。“产品预计将于2025年5月30日取得NMPA注册证,成为世界上第一个带人工智能的电子支气管镜、电子鼻咽喉镜。”记者在现场了解到,尽管部分AI应用企业还在走合规流程,但
2024-06-13 09:30:00
更多关于科技的资讯:
曹县汉服“遇上”拼多多:95后的创业翻盘记
鲁网10月24日讯曹县,素有“中国汉服产业重镇”之称,曾见证无数小微创业者在行业竞争中艰难求索。对许多创业者而言,汉服市场度过初期蓝海阶段后
2025-10-24 14:29:00
突破光谱检测瓶颈!中国计量大学本科生团队研制高分辨率光谱仪
通讯员:吴瑞鹏 何秋阳近日,第十九届“挑战杯”全国大学生课外学术科技作品竞赛正火热备赛中,全国高校参赛队伍蓄势待发。中国计量大学光学与电子科技学院本科生团队项目——“基于微反射镜阵列的高分辨率光谱仪”
2025-10-24 15:02:00
开普勒机器人登陆IROS 2025 以开放平台携手全球开发者共筑新生态
10月19日至25日,全球机器人领域两大顶级国际会议之一的2025年IEEE/RSJ智能机器人与系统国际会议(IROS 2025)在杭州隆重举行
2025-10-24 15:02:00
蓝月亮:用十二年为洁净艺术种下一棵“树”
10月23日,第十七届国际大学生暨青年艺术博览会(简称:大艺博)开幕。在武汉东部的中国光谷科技会展中心10000平方米的专业展馆内
2025-10-24 15:14:00
京东工业与南方电网供应链集团签署战略合作 以数智技术驱动供应链全面升级
10月20日,京东工业与南方电网供应链集团在广州正式签署战略合作协议,双方相关负责人出席签约仪式。此次合作标志着京东集团与南方电网在供应链领域的协作迈入全新阶段
2025-10-24 15:23:00
从OS到AI OS:荣耀MagicOS 10定义AI OS新时代
2025年10月23日,荣耀全球开发者大会暨AI终端生态大会在深圳坪山燕子湖国际会展中心隆重举行。本次大会系统阐释了MagicOS 10的品牌战略与发展路径
2025-10-24 15:32:00
最后窗口期!2025FHC上海环球食品展免费领票即将截止
2025FHC上海环球食品展已进入开幕倒计时!这场被誉为“全球食饮贸易超级接口”的盛会,已成为零售买家囤货、拓品的关键“战场”—20万㎡展出面积
2025-10-24 15:47:00
K90定价后引热议闪电降价,雷军:标准版12GB+512GB 版本首销月直降300元
2025年10月23日的红米K90发布会后,12GB+512GB版本原定价为3199元,但因用户反馈该版本与其他配置差价过大
2025-10-24 15:57:00
iPhone 17系列首批用户反应褪色? 苹果官方客服回应
近日,部分苹果 iPhone 17 Pro 及 iPhone 17 Pro Max 的首批用户在社交平台反映,其设备遭遇了机身褪色问题
2025-10-24 15:59:00
阿里夸克AI眼镜开启预售 体验者:轻若无物,稳如长在脸上“看一眼”就能支付
阿里巴巴首款自研AI眼镜——夸克AI眼镜24日0时在夸克智能设备天猫旗舰店开启预售。88VIP会员实际到手价为3699元
2025-10-24 16:35:00
河北新闻网讯(梁轩轩)“原以为开业办税很繁琐,没想到这么简单!”近日,石家庄市桥西区律吕五金产品商行法人柴浩在桥西区税务局办税大厅完成税务申报后
2025-10-24 16:59:00
近日,瑞众人寿河北分公司在保定举办了2025年嘉年华客服节系列活动之“养老规划线下体验日”活动,通过创新融合中医药文化
2025-10-24 17:06:00
“尖货”频出!临安这里科技含量UpUpUp
是一场什么样的比赛技术“尖货”频出“硬核”创新不断近日,2025“海康创行・瓴创青山”智能物联青山湖科技城高层次人才创业大赛第二期
2025-10-24 17:07:00
日前,邮储银行唐山市分行在其辖内网点全面推广集成化的“智能云柜”系统。该设备功能强大,整合了现金、非现金、凭证管理等逾400项个人业务
2025-10-24 17:08:00
行业领先全场景安装!海尔给“老铁门”装好了智能锁
近年来,智能门锁市场需求快速增长。数据显示,2025年上半年中国智能门锁全渠道销量达897万套,同比增长6.8%。市场火热的同时
2025-10-24 17:09:00