• 我的订阅
  • 头条热搜
Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱
每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首?最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点:Llama 3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的,419次纯属意...……更多
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
作者 | ZeR0编辑 | 漠影“AI主战场,万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也得在1...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提...……更多
从0到1:国产化千卡集群的一小步,AI算力主动权的一大步
...千亿到万亿,所需的数据量也从几百B跃升到P级,千卡、万卡集群正日益成为大模型训练的标配。显而易见,要想走出多重因素叠加造成的国内算力紧缺困境,通过集群互联弥补单卡性能不足,也许是当下最值得探索的路径。考...……更多
1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存
...读】在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。随着大模型的迭代,其GPU用量也在不断增长。Meta的Llama 1使用了2028块GPU,而到...……更多
马斯克宣布训练“世界上最强大的人工智能” !万卡集群背后的算力竞赛迅猛升级
...重要里程碑,可能会引领AI训练和推理的新趋势。 2国内万卡集群已蔚然成风金融投资报记者注意到,在国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。比如,字节跳动搭建了一个12288张卡的训...……更多
首个国产单池万卡液冷算力集群投入运营,满足万亿级大模型训练需求
天翼云上海临港国产万卡算力池正式启用。3月22日,中国电信宣布,天翼云上海临港国产万卡算力池正式启用,同时入驻首批用户。这是国内首个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体...……更多
独家|蚂蚁集团已建设超过万卡异构算力集群 【独家|蚂蚁集团已建设超过万卡异构算力集群】《科创板日报》9日讯,蚂蚁集团首席技术官何征宇表示,目前已形成包括大模型底层基础设施、基础大模型、行业大模型、应用产品...……更多
英伟达阉割版B200A曝光!最强芯片架构难产:产能不够,刀法来凑
...性等方面带来挑战。事实上,已经用于大模型训练的H100万卡集群,业界也还没有完全驯服好。比如Llama 3.1系列的技术报告就指出,训练期间平均3小时故障一次,其中GPU导致的问题占了58.7%。总计419次故障中,148 次是由各种GPU故...……更多
全国首个国产液冷万卡算力集群启动建设:总算力超4500P!
...到达15000卡,总算力超4500P。其中,单池新建国产算力达万卡,是国内首个超大规模国产算力液冷集群。该集群采用新一代国产AI算力,实现了全栈自主创新和技术突破,通过高速RDMA(远程直接数据存取)连接各物理机节点,提...……更多
中国电信第一个验证1024卡分布式计算:120公里、80万兆网络
...行性,在全球还是第一次。随着智算集群规模达到千卡、万卡,所需带宽往往高达百T比特级,甚至超P比特级,因此,光传输系统的大带宽、高可靠与高效率的特点是保证分布式训练高算效的关键。针对数据传输的大带宽问题,...……更多
摩尔线程万卡GPU集群新进展!性能可提升20倍
...活且高效的基础设施支持。摩尔线程近期宣布了从千卡至万卡的全功能GPU智算集群扩展方案,双方此番合作就将聚焦于万卡级超大规模GPU智算集群的开发与优化。清程极智是一家致力于构建高效人工智能系统软件,赋能国产算力...……更多
数据觉醒时代,华为重新定义数据存储
...,对数据存储提出了新的诉求。AI大模型集群规模已迈入万卡、十万卡时代,集群规模增加带来更加频繁的故障和训练中断,重复的CheckPoint数据写入、断点续训导致算力资源闲置,集群可用度不足50%。此外,到2026年,全球数据...……更多
国内最大智算中心8月30日投用:共1.8万张AI加速卡 算力6.6EFLOPS
...哈尔滨发布”介绍,中国移动智算中心(哈尔滨)节点超万卡智算集群将于8月30日正式投用。中国移动黑龙江公司在哈尔滨智算中心共计部署1.8万张AI加速卡,2336台智算服务器。集群建设完成后,具有单集群算力规模最大,国产...……更多
【中国电信规划建设首个支持单池万卡的国产超大规模算力液冷】《科创板日报》21日讯,《科创板日报》记者从知情人士获悉,中国电信已在上海规划建设可支持万亿参数大模型训练的智算中集群心。其中,单池新建国产算力...……更多
摩尔线程与360达成战略合作,将共同打造“360智脑大模型一体机”
...夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模。摩尔线程夸娥万卡智算集群以全功能 GPU 为底座,打造能够承载万卡规模、具备万 P 级浮点运算能力的国产通用加速计算平台,号称专为万亿参数级别的复杂大模...……更多
本文转自:宁夏日报中国移动宁夏公司聚力打造万卡级算力集群——绘就宁夏“数字风景”本报记者 陈瑶 见习记者 何婉蓉 常宽在穿越黄河的供热隧道中,5G+智能巡检机器人将4K高清巡检画面及环境参数实时传输至集控中心,...……更多
...签约。此外,“智算集群赋能港大自主算法平台”“国产万卡液冷集群赋能星辰大模型”“Sensecore智算体系赋能日日新5.0大模型”等一批大模型训练集群启动。临港新片区2023年发布《临港新片区加快构建算力产业生态行动方案...……更多
...场景示范方面,已落地了一批如全国规模最大的国产单池万卡液冷算力集群等重要项目。同时重点布局面向国际数据业务的国际数据中心,目前已完成国际算力、国际通信、国际互联网交换等业务测试,形成网络安全防护、数据...……更多
中国移动董事长:打造一批万卡级智算集群,加快超算等多种类型社会算力并网
...全国性智算中心与X个边缘智算节点建设布局,打造一批万卡级智算集群,加快超算、量算等多种类型社会算力并网。在构建“丰富易用”的新服务,支撑“人工智能+”发展方面,面向AI大模型研发、部署、应用全流程,加速国...……更多
加速落地 京东云大模型已支持数百个场景
...模型训练与微调,到部署、评测的全生命周期服务,支持万卡级别的分布式训练,实现动态资源统一管理。在智能体构建方面,平台提供一系列多模态组件与应用框架,如文生图、语音识别等多模态组件,以及检索增强生成、智...……更多
...总结了大模型实践过程中的十大难题:在训练上,面临着万卡/十万卡集群分布式训练及可靠性的挑战;在推理上,需解决面向LLM长文本生成的高效解码的挑战;在高效资源利用方面,面临着AI集群碎片资源利用及全局作业最优调...……更多
...算力供给,存在很大的差异性。目前大模型研发已经进入万卡时代,从事大模型研发的公司和团队,普遍面临“买不起、建不了、算不好”的困局。如何解决上述困境?彭震认为,需要以算力基建化改善算力供给,促进算力普惠...……更多
amd助力构建全球最大单体人工智能训练集群
...表示,AMD将助力构建全球最大的单体人工智能(AI)训练集群,将集成高达120万片的GPU。120万片GPU是一个非常惊人的数字,要知道目前全球最强的超级计算机Frontier所配备的GPU数量才只有37888片,这也意味着AMD所支持的AI训练集群...……更多
AMD将构建全球最大AI训练集群,集成120万片GPU
...表示,AMD将助力构建全球最大的单体人工智能(AI)训练集群,将集成高达120万片的GPU。120万片GPU 是一个非常惊人的数字,要知道目前全球最强的超级计算机Frontier 所配备的 GPU 数量才只有37888片,这也意味着AMD所支持的AI训练集...……更多
支付宝在AI大模型时代
...大模型、应用产品在内的完整技术链条。蚂蚁建设了超过万卡的异构集群,其中硬件算力效率(HFU)超过60%,集群有效训练时长占比90%以上,RLHF训练在同等模型效果下训练吞吐性能相较于业界方案提升3.59倍,推理性能相较于业界...……更多
AI潮起 共筑数智之基
...在中国移动人工智能生态大会上,中国移动正式发布了由万卡级智算集群、千亿多模态大模型、汇聚百大要素的生态平台共同构成的“九天”人工智能基座,并开放三大人工智能基地,加快大模型产业化、规模化发展,为数字中...……更多
...性供电、弹性制冷、气流组织优化),在热点区域建设超万卡的超大智算集群,今年3月中国电信在上海临港已建成全国首个国产单池万卡液冷算力集群并投入运营;基于云网融合的天翼云国家云打造“息壤”“云骁”“慧聚”...……更多
百度云升级模型服务,百度版GPTs即日开放 | 最前线
...为核心能力。大会上发布的百舸异构计算平台3.0能够支持万卡级别的超大规模AI集群计算。相比自建智算基础设施,百舸能将模型训、推吞吐分别最高提升30%和60%。在资源利用层面,百舸3.0将集群有效训练时间占比提高到了98%,...……更多
连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2
快科技8月19日消息,摩尔线程正式发布了夸娥智算集群KUAE 1.2版本,通过软硬件层面的综合性优化,在功能、性能上多维升级,更高效、稳定,对生态系统更友好,可为大模型训练提供更坚实可靠的算力支撑。夸娥1.2主要升级点...……更多
更多关于科技的资讯:
本文转自:人民网-陕西频道人民网西安11月3日电(记者李志强)11月3日,国家重大科技基础设施“先进阿秒激光设施(西安部分)”建设正式启动
2024-11-03 18:45:00
一种会让牙齿掉光的病!很多人年轻时都不重视
关于牙齿健康,世界卫生组织曾提出过一个“8020”概念,指 80 岁的老年人至少应该存留有 20 颗健康可以使用的天然牙
2024-11-03 19:07:00
给大象争取\
Happy,是“服务于”美国纽约布朗克斯动物园的一头亚洲象,五十多岁了,它在这个动物园居住了几十年。可以说,它从小就是在人类的饲养环境中
2024-11-03 19:07:00
新一代便宜主板来了!B860、B850、B840傻傻分不清
快科技11月3日消息,Intel、AMD的新一代平台都已到来,但是都只有旗舰级主板,无论是Z890还是X870E/X870都很昂贵(当然AMD更好一些还能选择上代主板)
2024-11-03 19:37:00
中国研制原子钟6000万年误差小于1秒:可支撑6G、7G通信发展
快科技11月3日消息,据报道,在中国科学院国家授时中心,安放着中国自主研制的原子钟,这是世界上目前在应用的最先进计时设备
2024-11-03 19:37:00
为什么蝙蝠可以吊着睡觉 其他动物就不行
蝙蝠可以挂着睡,最重要的原因是它们的体重足够轻。其它动物如果体重也足够轻,同时能像蝙蝠那样不费力地支撑自己倒挂,那么它们也可以倒挂着睡
2024-11-03 20:07:00
一周了 酷睿Ultra 200S在德国一颗都没卖出去!
大家都知道,德国玩家非常偏好AMD,以致于到了非常离谱的地步。德国最大的零售商MindFactory公布了最新一周的CPU处理器销量数据
2024-11-03 20:07:00
雷军今晚举行“迟到的直播”,讲述小米征战纽北的故事。雷军在直播中表示,小米15 打破了售价3999元的束缚,“3999元对我们是个心魔
2024-11-03 20:23:00
苹果2024款Macmini于10月29日发布,搭载M4/M4Pro芯片,内存16GB起步。配备M4的Macmini起售价为 4
2024-11-03 20:24:00
彭博社记者马克・古尔曼昨晚发表了最新一期的《PowerOn》时事通讯,提到苹果正在逐渐放弃“年更”式的产品发布策略。“苹果公司正在逐步放弃每年一次的产品升级周期
2024-11-03 20:29:00
realme今日宣布,真我GT7Pro首发搭载realmeUI6.0,支持4年系统更新维护。升级内容如下:流体云2.0
2024-11-03 20:30:00
据媒体报道,在ICPC(国际大学生程序设计竞赛)上,华为CEO任正非与ICPC主席、教练及获奖选手举办座谈会。任正非在会上被问到
2024-11-03 20:31:00
美商海盗船发布K70 PRO TKL磁轴机械键盘:快速触发设计
快科技11月3日消息,美商海盗船宣布,将其MGX Hyperdrive霍尔效应磁轴带入到K70 PRO TKL机械键盘
2024-11-03 20:37:00
红魔10pro预热首发,1.5k无孔全面屏
红魔官方今天为新机红魔10Pro预热,号称是全面屏史上最高分辨率。目前红魔10Pro系列已经获得入网许可,其型号是NX789J
2024-11-03 20:42:00
今晚,小米CEO雷军再次开启了直播。在谈到近期小米洗衣机的火爆时,雷军表示:“我特别惊讶的是小米洗衣机冲上热搜第四。我们的手机和汽车冲到排行榜第四都很困难
2024-11-03 20:46:00