• 我的订阅
  • 头条热搜
Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱
每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首?最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点:Llama 3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的,419次纯属意...……更多
当大模型Scaling Law继续,万卡集群算力释放在百舸找到一条通途
...近年来国内外科技厂商纷纷布局 AI 算力基础设施,死磕万卡甚至 10 万卡集群。此外,大规模算力集群也越来越凸显训推一体的重要性,寻求在同一个集群中无缝切换大模型的训练和推理,简化用户部署流程。虽然 GPU 集群可以...……更多
近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。据悉,百度智能云将进一步点亮3万卡集群。这一重大突破标志着百度在人工智能算力领域迈出了坚实的一步,不仅为百度自身的技术...……更多
算力浪费超50%!百度AI计算部负责人拆解大模型时代的算力成本
...鹏向媒体解读了大模型时代的算力成本。为了有效降低AI万卡集群的算力开支,他提出搭载RDMA网络、自动并行策略、保证训练稳定性、动态分配算力、多芯异构混训,共五个方面的解决方案。过去互联网时代,服务器每台数万元...……更多
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
作者 | ZeR0编辑 | 漠影“AI主战场,万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也得在1...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提...……更多
超万卡集群让算力迈上新台阶
...本文转自:人民日报海外版黑龙江筑牢数字新基建底座超万卡集群让算力迈上新台阶本报记者 崔 佳 方 圆《 人民日报海外版 》( 2024年10月18日 第 08 版)中国移动智算中心(哈尔滨)万卡智算集群俯瞰图。采访对象供图工作人...……更多
从0到1:国产化千卡集群的一小步,AI算力主动权的一大步
...千亿到万亿,所需的数据量也从几百B跃升到P级,千卡、万卡集群正日益成为大模型训练的标配。显而易见,要想走出多重因素叠加造成的国内算力紧缺困境,通过集群互联弥补单卡性能不足,也许是当下最值得探索的路径。考...……更多
中国智算建设潮背后,谁在推动十万卡集群
在打造十万卡集群上,几家国内头部企业已有动作。在11月12日举办的百度世界2024大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖透露,为了支撑大模型进一步的高速发展,百度在打磨十万卡集群能力方面,已在两大...……更多
1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存
...读】在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。随着大模型的迭代,其GPU用量也在不断增长。Meta的Llama 1使用了2028块GPU,而到...……更多
华为AI存储助力中国移动构建超大规模智算集群
...在30多个单位、千余人的协同支持下,历经7个月时间,超万卡规模智算集群建成,存力规模达150PB。 在智能融合分级存储集群的设计初期,中国移动面临几大挑战:在吞吐性能方面,万亿级参数大模型需要至少10TB/秒的吞吐量,...……更多
马斯克宣布训练“世界上最强大的人工智能” !万卡集群背后的算力竞赛迅猛升级
...重要里程碑,可能会引领AI训练和推理的新趋势。 2国内万卡集群已蔚然成风金融投资报记者注意到,在国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。比如,字节跳动搭建了一个12288张卡的训...……更多
首个国产单池万卡液冷算力集群投入运营,满足万亿级大模型训练需求
天翼云上海临港国产万卡算力池正式启用。3月22日,中国电信宣布,天翼云上海临港国产万卡算力池正式启用,同时入驻首批用户。这是国内首个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体...……更多
独家|蚂蚁集团已建设超过万卡异构算力集群 【独家|蚂蚁集团已建设超过万卡异构算力集群】《科创板日报》9日讯,蚂蚁集团首席技术官何征宇表示,目前已形成包括大模型底层基础设施、基础大模型、行业大模型、应用产品...……更多
英伟达阉割版B200A曝光!最强芯片架构难产:产能不够,刀法来凑
...性等方面带来挑战。事实上,已经用于大模型训练的H100万卡集群,业界也还没有完全驯服好。比如Llama 3.1系列的技术报告就指出,训练期间平均3小时故障一次,其中GPU导致的问题占了58.7%。总计419次故障中,148 次是由各种GPU故...……更多
没有这些,别妄谈做 ChatGPT 了
...这是一个超大规模的高性能计算集群,是国内唯一能实现万卡规模的 AI 集群。给你一万张 A100,就能把 ChatGPT 训出来吗?答案无疑是否定的。万卡集群对于网络、存储和通信有极高的要求,弄得不好直接宕机。贴一组数据。数据...……更多
全国首个国产液冷万卡算力集群启动建设:总算力超4500P!
...到达15000卡,总算力超4500P。其中,单池新建国产算力达万卡,是国内首个超大规模国产算力液冷集群。该集群采用新一代国产AI算力,实现了全栈自主创新和技术突破,通过高速RDMA(远程直接数据存取)连接各物理机节点,提...……更多
中国电信第一个验证1024卡分布式计算:120公里、80万兆网络
...行性,在全球还是第一次。随着智算集群规模达到千卡、万卡,所需带宽往往高达百T比特级,甚至超P比特级,因此,光传输系统的大带宽、高可靠与高效率的特点是保证分布式训练高算效的关键。针对数据传输的大带宽问题,...……更多
摩尔线程万卡GPU集群新进展!性能可提升20倍
...活且高效的基础设施支持。摩尔线程近期宣布了从千卡至万卡的全功能GPU智算集群扩展方案,双方此番合作就将聚焦于万卡级超大规模GPU智算集群的开发与优化。清程极智是一家致力于构建高效人工智能系统软件,赋能国产算力...……更多
数据觉醒时代,华为重新定义数据存储
...,对数据存储提出了新的诉求。AI大模型集群规模已迈入万卡、十万卡时代,集群规模增加带来更加频繁的故障和训练中断,重复的CheckPoint数据写入、断点续训导致算力资源闲置,集群可用度不足50%。此外,到2026年,全球数据...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...人工智能研究院(TeleAI)成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这...……更多
英博云多款智算产品发布,首提「单位有效算力成本」新指标
...模型训练对算力需求持续攀升,集群规模从千卡级跃升至万卡乃至十万卡级,成为推动大模型技术进步的重要基石。二是垂直行业的AI应用迅猛发展,各行业对算力的需求更加分散且动态化。从科研、金融到娱乐、零售,各领域...……更多
国内最大智算中心8月30日投用:共1.8万张AI加速卡 算力6.6EFLOPS
...哈尔滨发布”介绍,中国移动智算中心(哈尔滨)节点超万卡智算集群将于8月30日正式投用。中国移动黑龙江公司在哈尔滨智算中心共计部署1.8万张AI加速卡,2336台智算服务器。集群建设完成后,具有单集群算力规模最大,国产...……更多
【中国电信规划建设首个支持单池万卡的国产超大规模算力液冷】《科创板日报》21日讯,《科创板日报》记者从知情人士获悉,中国电信已在上海规划建设可支持万亿参数大模型训练的智算中集群心。其中,单池新建国产算力...……更多
摩尔线程与360达成战略合作,将共同打造“360智脑大模型一体机”
...夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模。摩尔线程夸娥万卡智算集群以全功能 GPU 为底座,打造能够承载万卡规模、具备万 P 级浮点运算能力的国产通用加速计算平台,号称专为万亿参数级别的复杂大模...……更多
...签约。此外,“智算集群赋能港大自主算法平台”“国产万卡液冷集群赋能星辰大模型”“Sensecore智算体系赋能日日新5.0大模型”等一批大模型训练集群启动。临港新片区2023年发布《临港新片区加快构建算力产业生态行动方案...……更多
本文转自:宁夏日报中国移动宁夏公司聚力打造万卡级算力集群——绘就宁夏“数字风景”本报记者 陈瑶 见习记者 何婉蓉 常宽在穿越黄河的供热隧道中,5G+智能巡检机器人将4K高清巡检画面及环境参数实时传输至集控中心,...……更多
...场景示范方面,已落地了一批如全国规模最大的国产单池万卡液冷算力集群等重要项目。同时重点布局面向国际数据业务的国际数据中心,目前已完成国际算力、国际通信、国际互联网交换等业务测试,形成网络安全防护、数据...……更多
中国移动董事长:打造一批万卡级智算集群,加快超算等多种类型社会算力并网
...全国性智算中心与X个边缘智算节点建设布局,打造一批万卡级智算集群,加快超算、量算等多种类型社会算力并网。在构建“丰富易用”的新服务,支撑“人工智能+”发展方面,面向AI大模型研发、部署、应用全流程,加速国...……更多
加速落地 京东云大模型已支持数百个场景
...模型训练与微调,到部署、评测的全生命周期服务,支持万卡级别的分布式训练,实现动态资源统一管理。在智能体构建方面,平台提供一系列多模态组件与应用框架,如文生图、语音识别等多模态组件,以及检索增强生成、智...……更多
更多关于科技的资讯:
砸重金难撼Steam!亚马逊前高管坦言:低估了这一点
快科技2月21日消息,亚马逊Prime Gaming前副总裁Ethan Evans发布动态,回顾了亚马逊在过去多年中试图挑战Steam游戏平台的种种尝试
2025-02-21 17:30:00
苏州一咖啡店因奥特曼周边被索赔100万:法院判赔40万
2月21日消息,将自己收藏的手办放到自己开的店里展示,并且用以吸引顾客,如果没有经过授权,可能会摊上官司。近日,苏州虎丘法院公布了一起相关案例
2025-02-21 17:30:00
HKC推出新款27寸显示器:2K 260Hz屏仅1099元
快科技2月21日消息,HKC推出新款27寸显示器——G27H4经典版,首发到手1099元。新款显示器搭载2K 260Hz屏
2025-02-21 17:30:00
实时硬件监控!微星宣布X870(E)系列全面支持锐龙9 9950X3D、9900X3D处理器
快科技2月21日消息,微星宣布其X870(E)系列主板全面支持即将推出的AMD锐龙9 9950X3D和9900X3D处理器
2025-02-21 17:30:00
DeepSeek评中国最宜居城市:珠海
快科技2月21日消息,据媒体报道,有网友让DeepSeek自行推理1亿次后,给出中国最宜居城市,并给出这个城市的区,只能选一个城市
2025-02-21 17:30:00
乐道第二款车型正式定名L90:大三排旗舰SUV 三季度上市
快科技2月21日消息,乐道汽车总裁艾铁成在今日的直播中透露,乐道第二款车型将定名为乐道 L90,而非此前爆料的L80。据介绍
2025-02-21 17:30:00
苹果良心机!iPhone 16e跑分出炉:确认8GB内存
快科技2月21日消息,iPhone 16e将在今晚开售,定价4499元,各平台都确认首发支持国补,只要3999元起。目前
2025-02-21 17:30:00
天问二号的小目标:让科学家蒙圈的最奇特彗星311P
快科技2月21日消息,除了实施小行星2016HO3伴飞、取样、返回,天问二号探测器还会伴飞、探测主带彗星311P。它有什么特殊之处
2025-02-21 17:30:00
史上最便宜鸿蒙智行车型!年轻人第一辆买得起的华为系车来了:15-25万元
快科技2月21日消息,此前华为、上汽合作推出“第五届”的传闻,如今尘埃落定。今日,上汽集团与华为终端在上海签署深度合作协议
2025-02-21 17:30:00
随着科技的迅猛发展,人工智能(AI)已经逐渐渗透到我们生活的方方面面,教育领域也不例外。从AI辅助作业到智能机器人走进课堂
2025-02-21 17:34:00
男子开车不慎从10米高架坠落:脱困后淡定自拍
2月21日消息,汽车从高架桥上掉下去通常都是非常严重的事故,车内人员死亡也具有较大概率,不过凡事都有例外。近日在福建福州
2025-02-21 18:00:00
何小鹏:人形机器人想要走进千家万户还需数年甚至更长时间
快科技2月21日消息,近期国内机器人领域持续大火,尤其在春晚的助力下,人形机器人引发了非常多的关注,相关公司也成为了香饽饽
2025-02-21 18:00:00
从制造到“智”造:保利管道获评国家级绿色工厂与省级数字化车间
根据国家工信部、浙江省经济和信息化厅公告显示,爱康企业集团(浙江)有限公司获评为国家级绿色工厂与2024年省级数字化车间
2025-02-21 18:00:00
RTX 5070Ti显卡IGN 9分:多数人的最佳4K显卡选择
今日,IGN给Nvidia GeForce RTX 5070 Ti打出9分的评价,测评者认为就价格而言,RTX 5070 Ti完全称得上是适合多数用户的最佳4K显卡
2025-02-21 18:00:00
灵伴科技创始人戴的AR眼镜火了 发言稿就在眼镜里!网友:刚需 请上链接
快科技2月21日消息,近日,灵伴科技创始人祝铭明戴着自家最新的AI+AR眼镜火了,引起网友热议。据报道,在杭州市余杭区经济高质量发展大会上
2025-02-21 18:00:00