• 我的订阅
  • 头条热搜
Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱
每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首?最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点:Llama 3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的,419次纯属意...……更多
当大模型Scaling Law继续,万卡集群算力释放在百舸找到一条通途
...近年来国内外科技厂商纷纷布局 AI 算力基础设施,死磕万卡甚至 10 万卡集群。此外,大规模算力集群也越来越凸显训推一体的重要性,寻求在同一个集群中无缝切换大模型的训练和推理,简化用户部署流程。虽然 GPU 集群可以...……更多
近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。据悉,百度智能云将进一步点亮3万卡集群。这一重大突破标志着百度在人工智能算力领域迈出了坚实的一步,不仅为百度自身的技术...……更多
算力浪费超50%!百度AI计算部负责人拆解大模型时代的算力成本
...鹏向媒体解读了大模型时代的算力成本。为了有效降低AI万卡集群的算力开支,他提出搭载RDMA网络、自动并行策略、保证训练稳定性、动态分配算力、多芯异构混训,共五个方面的解决方案。过去互联网时代,服务器每台数万元...……更多
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
作者 | ZeR0编辑 | 漠影“AI主战场,万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也得在1...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提...……更多
超万卡集群让算力迈上新台阶
...本文转自:人民日报海外版黑龙江筑牢数字新基建底座超万卡集群让算力迈上新台阶本报记者 崔 佳 方 圆《 人民日报海外版 》( 2024年10月18日 第 08 版)中国移动智算中心(哈尔滨)万卡智算集群俯瞰图。采访对象供图工作人...……更多
从0到1:国产化千卡集群的一小步,AI算力主动权的一大步
...千亿到万亿,所需的数据量也从几百B跃升到P级,千卡、万卡集群正日益成为大模型训练的标配。显而易见,要想走出多重因素叠加造成的国内算力紧缺困境,通过集群互联弥补单卡性能不足,也许是当下最值得探索的路径。考...……更多
中国智算建设潮背后,谁在推动十万卡集群
在打造十万卡集群上,几家国内头部企业已有动作。在11月12日举办的百度世界2024大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖透露,为了支撑大模型进一步的高速发展,百度在打磨十万卡集群能力方面,已在两大...……更多
1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存
...读】在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。随着大模型的迭代,其GPU用量也在不断增长。Meta的Llama 1使用了2028块GPU,而到...……更多
华为AI存储助力中国移动构建超大规模智算集群
...在30多个单位、千余人的协同支持下,历经7个月时间,超万卡规模智算集群建成,存力规模达150PB。 在智能融合分级存储集群的设计初期,中国移动面临几大挑战:在吞吐性能方面,万亿级参数大模型需要至少10TB/秒的吞吐量,...……更多
马斯克宣布训练“世界上最强大的人工智能” !万卡集群背后的算力竞赛迅猛升级
...重要里程碑,可能会引领AI训练和推理的新趋势。 2国内万卡集群已蔚然成风金融投资报记者注意到,在国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。比如,字节跳动搭建了一个12288张卡的训...……更多
首个国产单池万卡液冷算力集群投入运营,满足万亿级大模型训练需求
天翼云上海临港国产万卡算力池正式启用。3月22日,中国电信宣布,天翼云上海临港国产万卡算力池正式启用,同时入驻首批用户。这是国内首个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体...……更多
独家|蚂蚁集团已建设超过万卡异构算力集群 【独家|蚂蚁集团已建设超过万卡异构算力集群】《科创板日报》9日讯,蚂蚁集团首席技术官何征宇表示,目前已形成包括大模型底层基础设施、基础大模型、行业大模型、应用产品...……更多
英伟达阉割版B200A曝光!最强芯片架构难产:产能不够,刀法来凑
...性等方面带来挑战。事实上,已经用于大模型训练的H100万卡集群,业界也还没有完全驯服好。比如Llama 3.1系列的技术报告就指出,训练期间平均3小时故障一次,其中GPU导致的问题占了58.7%。总计419次故障中,148 次是由各种GPU故...……更多
没有这些,别妄谈做 ChatGPT 了
...这是一个超大规模的高性能计算集群,是国内唯一能实现万卡规模的 AI 集群。给你一万张 A100,就能把 ChatGPT 训出来吗?答案无疑是否定的。万卡集群对于网络、存储和通信有极高的要求,弄得不好直接宕机。贴一组数据。数据...……更多
全国首个国产液冷万卡算力集群启动建设:总算力超4500P!
...到达15000卡,总算力超4500P。其中,单池新建国产算力达万卡,是国内首个超大规模国产算力液冷集群。该集群采用新一代国产AI算力,实现了全栈自主创新和技术突破,通过高速RDMA(远程直接数据存取)连接各物理机节点,提...……更多
中国电信第一个验证1024卡分布式计算:120公里、80万兆网络
...行性,在全球还是第一次。随着智算集群规模达到千卡、万卡,所需带宽往往高达百T比特级,甚至超P比特级,因此,光传输系统的大带宽、高可靠与高效率的特点是保证分布式训练高算效的关键。针对数据传输的大带宽问题,...……更多
摩尔线程万卡GPU集群新进展!性能可提升20倍
...活且高效的基础设施支持。摩尔线程近期宣布了从千卡至万卡的全功能GPU智算集群扩展方案,双方此番合作就将聚焦于万卡级超大规模GPU智算集群的开发与优化。清程极智是一家致力于构建高效人工智能系统软件,赋能国产算力...……更多
数据觉醒时代,华为重新定义数据存储
...,对数据存储提出了新的诉求。AI大模型集群规模已迈入万卡、十万卡时代,集群规模增加带来更加频繁的故障和训练中断,重复的CheckPoint数据写入、断点续训导致算力资源闲置,集群可用度不足50%。此外,到2026年,全球数据...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...人工智能研究院(TeleAI)成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这...……更多
英博云多款智算产品发布,首提「单位有效算力成本」新指标
...模型训练对算力需求持续攀升,集群规模从千卡级跃升至万卡乃至十万卡级,成为推动大模型技术进步的重要基石。二是垂直行业的AI应用迅猛发展,各行业对算力的需求更加分散且动态化。从科研、金融到娱乐、零售,各领域...……更多
国内最大智算中心8月30日投用:共1.8万张AI加速卡 算力6.6EFLOPS
...哈尔滨发布”介绍,中国移动智算中心(哈尔滨)节点超万卡智算集群将于8月30日正式投用。中国移动黑龙江公司在哈尔滨智算中心共计部署1.8万张AI加速卡,2336台智算服务器。集群建设完成后,具有单集群算力规模最大,国产...……更多
京东云发布八大领先智算产品,助力企业火速用上大模型
...型成本至关重要。京东云超智算一体化算力集群,单集群万卡、全局10万卡级集群调度能力,依托软硬件协同优化,驱动大模型算力利用率(MFU)跃升至75%。云海AI存储,千亿级大模型全栈支持,4K随机写IOPS突破1000万级极速响应,...……更多
【中国电信规划建设首个支持单池万卡的国产超大规模算力液冷】《科创板日报》21日讯,《科创板日报》记者从知情人士获悉,中国电信已在上海规划建设可支持万亿参数大模型训练的智算中集群心。其中,单池新建国产算力...……更多
摩尔线程与360达成战略合作,将共同打造“360智脑大模型一体机”
...夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模。摩尔线程夸娥万卡智算集群以全功能 GPU 为底座,打造能够承载万卡规模、具备万 P 级浮点运算能力的国产通用加速计算平台,号称专为万亿参数级别的复杂大模...……更多
...签约。此外,“智算集群赋能港大自主算法平台”“国产万卡液冷集群赋能星辰大模型”“Sensecore智算体系赋能日日新5.0大模型”等一批大模型训练集群启动。临港新片区2023年发布《临港新片区加快构建算力产业生态行动方案...……更多
本文转自:宁夏日报中国移动宁夏公司聚力打造万卡级算力集群——绘就宁夏“数字风景”本报记者 陈瑶 见习记者 何婉蓉 常宽在穿越黄河的供热隧道中,5G+智能巡检机器人将4K高清巡检画面及环境参数实时传输至集控中心,...……更多
...场景示范方面,已落地了一批如全国规模最大的国产单池万卡液冷算力集群等重要项目。同时重点布局面向国际数据业务的国际数据中心,目前已完成国际算力、国际通信、国际互联网交换等业务测试,形成网络安全防护、数据...……更多
中国移动董事长:打造一批万卡级智算集群,加快超算等多种类型社会算力并网
...全国性智算中心与X个边缘智算节点建设布局,打造一批万卡级智算集群,加快超算、量算等多种类型社会算力并网。在构建“丰富易用”的新服务,支撑“人工智能+”发展方面,面向AI大模型研发、部署、应用全流程,加速国...……更多
更多关于科技的资讯:
拾亿圆赋能商业新想象,Eleven Homebar重塑年轻人轻社交
当城市的夜幕垂下,白天的喧嚣却并未沉寂,而是悄然转化为了另一种生机勃勃的形态。对于越来越多的年轻人而言,夜间已经成为生活的重要时段
2025-09-12 13:56:00
唐山港京唐港区首台智慧生态机器人上岗
河北新闻网讯(任小霞、王育民)9月8日,唐山港京唐港区矿石码头首台智慧生态机器人正式上岗。这台机器人具有灵敏感知、快速决策
2025-09-12 13:57:00
360联盟合作伙伴大会圆满落幕,共探AI时代广告联盟破界增长之道
随着AI技术在数字营销领域的深入应用,营销行业正朝着技术驱动、效率提升和生态协同的方向不断进化,也为行业参与者带来了更加多元的发展机遇
2025-09-12 13:57:00
河北新闻网讯(刘蕾、师源)9月10日,唐山高新区商务局举办“数智浪潮・无界跨境”唐山内转外专享外贸峰会,全市130余家意向“出海”企业参会
2025-09-12 13:57:00
北京大学医学博士陶勇教授携手Blueglass,推出联名护眼酸奶“叶黄素太空益生菌黑加仑益生菌含酸奶饮”
当眼科专家遇上健康食品创新,一场关于眼部健康的饮食革命正在悄然发生。北京大学医学博士陶勇教授与高端现制酸奶品牌Blueglass正式联手
2025-09-12 13:59:00
创作人的福音来了!微信公众号智能回复功能上线,还可以24小时在线陪聊
9月11日,微信派公众号发文称:微信公众号智能回复功能上线。在公众号 PC 端后台“互动管理”内点击“自动回复”,即可开启“智能回复”
2025-09-12 11:55:00
唐山百川机器人共享智能制造工厂通过“共享制造”模式,为京津冀中小企业提供非标零件加工、样机试制等一站式服务。该工厂拥有800台智能设备和千余名技术人员
2025-09-12 09:21:00
聚焦酒博会|共赴“佳酿之约”,酒博会“新朋友”为行业注入新活力
9月9日至13日,以“汇全球佳酿促开放合作”为主题的第十四届中国(贵州)国际酒类博览会在贵阳举行。本届盛会不仅汇聚了众多行业“老朋友”
2025-09-12 06:01:00
潍柴船舶动力新能源产品,大会现场批量签单!
9月9日-10日,作为我国航运领域最具影响力的行业盛会之一,内河航运高质量发展论坛(2025)在重庆举行。来自全国水运行业的200余家单位代表齐聚一堂
2025-09-12 07:05:00
南报网讯(记者张安琪)在2025江苏产学研合作对接大会主题大会上,长城企业战略研究所首次发布2025中国科创未来之星企业研究报告
2025-09-12 07:44:00
□南京日报/紫金山新闻记者黄琳燕清晨,老山脚下的养蜂基地里,蜂农按规范检查蜂群,采集的蜂王浆样本贴着专属溯源码;生产车间内
2025-09-12 07:44:00
2025江苏产学研合作对接大会成果、需求集中发布
9月11日,2025江苏产学研合作对接大会在南京国展中心开幕。在合作洽谈区域,各大企业、高校、科研院所的创新科技产品纷纷亮相
2025-09-12 07:45:00
从科幻到现实,脑机接口领域的“山海经”
工作人员正在对脑机接口产品进行研发、测试。南京日报/紫金山新闻记者 孙中元 摄将小鼠与设备连接,研究人员即可通过查看小鼠的脑电波数据
2025-09-12 07:45:00
□南京日报/紫金山新闻记者田诗雨李香君故居陈列馆创建独立女性品牌仅一个月,相关文创产品销售额同比增长788%;南京中国科举博物馆暑期推出“能喝的墨水”
2025-09-12 07:46:00
河北日报讯(见习记者康晓博)能够自动监控、及时预警的“两个半径”防机械伤害系统,可广泛应用在机场、火车站等人流密集区的智能环保电警摄像单元
2025-09-12 07:54:00