• 我的订阅
  • 头条热搜
Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱
每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首?最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点:Llama 3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的,419次纯属意...……更多
当大模型Scaling Law继续,万卡集群算力释放在百舸找到一条通途
...近年来国内外科技厂商纷纷布局 AI 算力基础设施,死磕万卡甚至 10 万卡集群。此外,大规模算力集群也越来越凸显训推一体的重要性,寻求在同一个集群中无缝切换大模型的训练和推理,简化用户部署流程。虽然 GPU 集群可以...……更多
算力浪费超50%!百度AI计算部负责人拆解大模型时代的算力成本
...鹏向媒体解读了大模型时代的算力成本。为了有效降低AI万卡集群的算力开支,他提出搭载RDMA网络、自动并行策略、保证训练稳定性、动态分配算力、多芯异构混训,共五个方面的解决方案。过去互联网时代,服务器每台数万元...……更多
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
作者 | ZeR0编辑 | 漠影“AI主战场,万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也得在1...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提...……更多
超万卡集群让算力迈上新台阶
...本文转自:人民日报海外版黑龙江筑牢数字新基建底座超万卡集群让算力迈上新台阶本报记者 崔 佳 方 圆《 人民日报海外版 》( 2024年10月18日 第 08 版)中国移动智算中心(哈尔滨)万卡智算集群俯瞰图。采访对象供图工作人...……更多
从0到1:国产化千卡集群的一小步,AI算力主动权的一大步
...千亿到万亿,所需的数据量也从几百B跃升到P级,千卡、万卡集群正日益成为大模型训练的标配。显而易见,要想走出多重因素叠加造成的国内算力紧缺困境,通过集群互联弥补单卡性能不足,也许是当下最值得探索的路径。考...……更多
中国智算建设潮背后,谁在推动十万卡集群
在打造十万卡集群上,几家国内头部企业已有动作。在11月12日举办的百度世界2024大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖透露,为了支撑大模型进一步的高速发展,百度在打磨十万卡集群能力方面,已在两大...……更多
1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存
...读】在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。随着大模型的迭代,其GPU用量也在不断增长。Meta的Llama 1使用了2028块GPU,而到...……更多
马斯克宣布训练“世界上最强大的人工智能” !万卡集群背后的算力竞赛迅猛升级
...重要里程碑,可能会引领AI训练和推理的新趋势。 2国内万卡集群已蔚然成风金融投资报记者注意到,在国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。比如,字节跳动搭建了一个12288张卡的训...……更多
首个国产单池万卡液冷算力集群投入运营,满足万亿级大模型训练需求
天翼云上海临港国产万卡算力池正式启用。3月22日,中国电信宣布,天翼云上海临港国产万卡算力池正式启用,同时入驻首批用户。这是国内首个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体...……更多
独家|蚂蚁集团已建设超过万卡异构算力集群 【独家|蚂蚁集团已建设超过万卡异构算力集群】《科创板日报》9日讯,蚂蚁集团首席技术官何征宇表示,目前已形成包括大模型底层基础设施、基础大模型、行业大模型、应用产品...……更多
英伟达阉割版B200A曝光!最强芯片架构难产:产能不够,刀法来凑
...性等方面带来挑战。事实上,已经用于大模型训练的H100万卡集群,业界也还没有完全驯服好。比如Llama 3.1系列的技术报告就指出,训练期间平均3小时故障一次,其中GPU导致的问题占了58.7%。总计419次故障中,148 次是由各种GPU故...……更多
没有这些,别妄谈做 ChatGPT 了
...这是一个超大规模的高性能计算集群,是国内唯一能实现万卡规模的 AI 集群。给你一万张 A100,就能把 ChatGPT 训出来吗?答案无疑是否定的。万卡集群对于网络、存储和通信有极高的要求,弄得不好直接宕机。贴一组数据。数据...……更多
全国首个国产液冷万卡算力集群启动建设:总算力超4500P!
...到达15000卡,总算力超4500P。其中,单池新建国产算力达万卡,是国内首个超大规模国产算力液冷集群。该集群采用新一代国产AI算力,实现了全栈自主创新和技术突破,通过高速RDMA(远程直接数据存取)连接各物理机节点,提...……更多
中国电信第一个验证1024卡分布式计算:120公里、80万兆网络
...行性,在全球还是第一次。随着智算集群规模达到千卡、万卡,所需带宽往往高达百T比特级,甚至超P比特级,因此,光传输系统的大带宽、高可靠与高效率的特点是保证分布式训练高算效的关键。针对数据传输的大带宽问题,...……更多
摩尔线程万卡GPU集群新进展!性能可提升20倍
...活且高效的基础设施支持。摩尔线程近期宣布了从千卡至万卡的全功能GPU智算集群扩展方案,双方此番合作就将聚焦于万卡级超大规模GPU智算集群的开发与优化。清程极智是一家致力于构建高效人工智能系统软件,赋能国产算力...……更多
数据觉醒时代,华为重新定义数据存储
...,对数据存储提出了新的诉求。AI大模型集群规模已迈入万卡、十万卡时代,集群规模增加带来更加频繁的故障和训练中断,重复的CheckPoint数据写入、断点续训导致算力资源闲置,集群可用度不足50%。此外,到2026年,全球数据...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...人工智能研究院(TeleAI)成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这...……更多
国内最大智算中心8月30日投用:共1.8万张AI加速卡 算力6.6EFLOPS
...哈尔滨发布”介绍,中国移动智算中心(哈尔滨)节点超万卡智算集群将于8月30日正式投用。中国移动黑龙江公司在哈尔滨智算中心共计部署1.8万张AI加速卡,2336台智算服务器。集群建设完成后,具有单集群算力规模最大,国产...……更多
【中国电信规划建设首个支持单池万卡的国产超大规模算力液冷】《科创板日报》21日讯,《科创板日报》记者从知情人士获悉,中国电信已在上海规划建设可支持万亿参数大模型训练的智算中集群心。其中,单池新建国产算力...……更多
摩尔线程与360达成战略合作,将共同打造“360智脑大模型一体机”
...夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模。摩尔线程夸娥万卡智算集群以全功能 GPU 为底座,打造能够承载万卡规模、具备万 P 级浮点运算能力的国产通用加速计算平台,号称专为万亿参数级别的复杂大模...……更多
...签约。此外,“智算集群赋能港大自主算法平台”“国产万卡液冷集群赋能星辰大模型”“Sensecore智算体系赋能日日新5.0大模型”等一批大模型训练集群启动。临港新片区2023年发布《临港新片区加快构建算力产业生态行动方案...……更多
本文转自:宁夏日报中国移动宁夏公司聚力打造万卡级算力集群——绘就宁夏“数字风景”本报记者 陈瑶 见习记者 何婉蓉 常宽在穿越黄河的供热隧道中,5G+智能巡检机器人将4K高清巡检画面及环境参数实时传输至集控中心,...……更多
...场景示范方面,已落地了一批如全国规模最大的国产单池万卡液冷算力集群等重要项目。同时重点布局面向国际数据业务的国际数据中心,目前已完成国际算力、国际通信、国际互联网交换等业务测试,形成网络安全防护、数据...……更多
中国移动董事长:打造一批万卡级智算集群,加快超算等多种类型社会算力并网
...全国性智算中心与X个边缘智算节点建设布局,打造一批万卡级智算集群,加快超算、量算等多种类型社会算力并网。在构建“丰富易用”的新服务,支撑“人工智能+”发展方面,面向AI大模型研发、部署、应用全流程,加速国...……更多
加速落地 京东云大模型已支持数百个场景
...模型训练与微调,到部署、评测的全生命周期服务,支持万卡级别的分布式训练,实现动态资源统一管理。在智能体构建方面,平台提供一系列多模态组件与应用框架,如文生图、语音识别等多模态组件,以及检索增强生成、智...……更多
阿里云AI基础设施获2024世界互联网大会领先科技奖
...连接超过10万个GPU。在平台层,人工智能平台PAI,已实现万卡级别的训练推理一体化弹性调度,AI算力有效利用率超90%;湖仓一体化平台OpenLake,可提供大数据搜索、AI一体化能力体系;多模数据管理平台DMS,可实现跨云数据库、...……更多
...总结了大模型实践过程中的十大难题:在训练上,面临着万卡/十万卡集群分布式训练及可靠性的挑战;在推理上,需解决面向LLM长文本生成的高效解码的挑战;在高效资源利用方面,面临着AI集群碎片资源利用及全局作业最优调...……更多
...算力供给,存在很大的差异性。目前大模型研发已经进入万卡时代,从事大模型研发的公司和团队,普遍面临“买不起、建不了、算不好”的困局。如何解决上述困境?彭震认为,需要以算力基建化改善算力供给,促进算力普惠...……更多
更多关于科技的资讯:
中新经纬12月1日电 (袁媛)11月30日,由北京大学国家发展研究院和中国经济学年会秘书处主办的“第二十四届中国经济学年会”在北京举行
2024-12-01 19:50:00
Intel锐炫B580显卡全球首秀!几乎全白 漂亮
快科技12月1日消息,Intel二代锐炫B系列显卡即将登场,评测样品也开始分发给媒体,FunkyIT就不顾保密协议亮出了他们收到的华擎B580 Steel Legend
2024-12-01 20:05:00
飞行47年后 旅行者1号探测器一度失联!还好通信又恢复了
已经在太空中飞行47年、跑出249亿公里的旅行者1号探测器,近日再次遭遇“劫难”,导致一度通信中断,但经过NASA工程师的不懈努力
2024-12-01 20:35:00
首发49.9元 乔思伯带来FR-606系列ARGB风扇:正反叶可选
快科技12月1日消息,乔思伯推出了FR-606系列ARGB风扇,提供了黑白双色、以及正叶反叶版本,售价为49.9元。FR-606系列ARGB风扇采用了创新的三面一体曲面千层镜技术
2024-12-01 21:05:00
云话山东|临沂华盛中天:“含新量”变“含金量” 每年10余个自主知识产权新品精准投放国际市场
大众网记者 王巧 朱长香 通讯员 王庆龙 临沂报道11月29日,由山东省委外办联合省委宣传部、省委网信办、省农业农村厅组织开展的“云话山东”系列外宣活动第五期之“深化外事服务 助力农企发展”专题活动走进山东华盛中天机械集团股份有限公司
2024-12-01 21:50:00
最新消息显示,小米第二款车型计划于明年2月或3月上市。据说,小米第二款新车的上市节奏将与SU7保持一致。而SU7是在2024年3月28日正式上市的
2024-12-01 21:54:00
荣耀新旗舰即将发布,采用直屏设计
10月和11月两个月份,vivo、OPPO、小米、荣耀、华为等品牌,已陆续发布了新旗舰,其中不少机型创造了销量、销售额新纪录
2024-12-01 21:56:00
iqooneo10系列手机发布,全系标配无网通信技术
iQOONeo10系列手机近日备受瞩目,其强大的配置和新颖的功能使其成为市场关注的焦点。据悉,该系列手机将全系标配3D超声波指纹和无网通信技术
2024-12-01 21:58:00
vivos20全面评测,一款十分优秀的中端机
如果大家在年底想要入手一款好看又好用的拍照利器,那么最新的vivoS20可以了解一下。这款手机相较前代有了大幅升级,除了颜值吸睛和拍照出色这两大亮点外
2024-12-01 21:58:00
锐龙9000X3D加速更容易了!无需离开Windows
技嘉主板为锐龙9000处理器通过了一种X3D Turbo加速模式,有适合锐龙9000X3D缓存型号,但以往只能进入BIOS才能设置
2024-12-01 22:05:00
华为突发公告:即将下架,深表歉意!
11月30日,华为终端有限公司网站发布花瓣邮箱App下架公告,称将于今年12月31日正式切换到电子邮件App,届时将无法再从应用市场下载花瓣邮箱App
2024-12-01 22:17:00
日前,华为Mate品牌盛典在深圳盛大开幕,这场科技界的盛宴也吸引了无数目光。在大会上,华为智能穿戴领域的全新力作——华为WATCHD2惊艳亮相
2024-12-01 16:25:00
华为再次扩大卫星通讯适配范围,所有适配机型全支持自由编辑
如果要问各位在一众华为手机中,最有华为特色的功能是什么,相信不少人都会选择卫星通讯,该功能由华为手机带起来这点没有任何疑问
2024-12-01 16:28:00
腾讯占股51%控股《鸣潮》开发商库洛!仍自主运营类似拳头游戏
快科技12月1日消息,近日,广州库洛科技有限公司(以下简称“库洛游戏”)发生工商变更,英雄游戏旗下两家公司退出股东行列
2024-12-01 16:35:00
强得飞起!华为Mate X6红枫原色影像样张感受下:Mate 60、Pura 70已成牛夫人
快科技12月1日消息,华为Mate 70系列、华为Mate X6这一次拍照方面的看点就是增加了一枚红枫原色摄像头。那红枫原色摄像头有啥好处呢
2024-12-01 16:35:00