• 我的订阅
  • 头条热搜
Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱
每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首?最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点:Llama 3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的,419次纯属意...……更多
当大模型Scaling Law继续,万卡集群算力释放在百舸找到一条通途
...近年来国内外科技厂商纷纷布局 AI 算力基础设施,死磕万卡甚至 10 万卡集群。此外,大规模算力集群也越来越凸显训推一体的重要性,寻求在同一个集群中无缝切换大模型的训练和推理,简化用户部署流程。虽然 GPU 集群可以...……更多
算力浪费超50%!百度AI计算部负责人拆解大模型时代的算力成本
...鹏向媒体解读了大模型时代的算力成本。为了有效降低AI万卡集群的算力开支,他提出搭载RDMA网络、自动并行策略、保证训练稳定性、动态分配算力、多芯异构混训,共五个方面的解决方案。过去互联网时代,服务器每台数万元...……更多
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
作者 | ZeR0编辑 | 漠影“AI主战场,万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也得在1...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提...……更多
从0到1:国产化千卡集群的一小步,AI算力主动权的一大步
...千亿到万亿,所需的数据量也从几百B跃升到P级,千卡、万卡集群正日益成为大模型训练的标配。显而易见,要想走出多重因素叠加造成的国内算力紧缺困境,通过集群互联弥补单卡性能不足,也许是当下最值得探索的路径。考...……更多
1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存
...读】在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。随着大模型的迭代,其GPU用量也在不断增长。Meta的Llama 1使用了2028块GPU,而到...……更多
马斯克宣布训练“世界上最强大的人工智能” !万卡集群背后的算力竞赛迅猛升级
...重要里程碑,可能会引领AI训练和推理的新趋势。 2国内万卡集群已蔚然成风金融投资报记者注意到,在国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。比如,字节跳动搭建了一个12288张卡的训...……更多
首个国产单池万卡液冷算力集群投入运营,满足万亿级大模型训练需求
天翼云上海临港国产万卡算力池正式启用。3月22日,中国电信宣布,天翼云上海临港国产万卡算力池正式启用,同时入驻首批用户。这是国内首个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体...……更多
独家|蚂蚁集团已建设超过万卡异构算力集群 【独家|蚂蚁集团已建设超过万卡异构算力集群】《科创板日报》9日讯,蚂蚁集团首席技术官何征宇表示,目前已形成包括大模型底层基础设施、基础大模型、行业大模型、应用产品...……更多
英伟达阉割版B200A曝光!最强芯片架构难产:产能不够,刀法来凑
...性等方面带来挑战。事实上,已经用于大模型训练的H100万卡集群,业界也还没有完全驯服好。比如Llama 3.1系列的技术报告就指出,训练期间平均3小时故障一次,其中GPU导致的问题占了58.7%。总计419次故障中,148 次是由各种GPU故...……更多
没有这些,别妄谈做 ChatGPT 了
...这是一个超大规模的高性能计算集群,是国内唯一能实现万卡规模的 AI 集群。给你一万张 A100,就能把 ChatGPT 训出来吗?答案无疑是否定的。万卡集群对于网络、存储和通信有极高的要求,弄得不好直接宕机。贴一组数据。数据...……更多
全国首个国产液冷万卡算力集群启动建设:总算力超4500P!
...到达15000卡,总算力超4500P。其中,单池新建国产算力达万卡,是国内首个超大规模国产算力液冷集群。该集群采用新一代国产AI算力,实现了全栈自主创新和技术突破,通过高速RDMA(远程直接数据存取)连接各物理机节点,提...……更多
中国电信第一个验证1024卡分布式计算:120公里、80万兆网络
...行性,在全球还是第一次。随着智算集群规模达到千卡、万卡,所需带宽往往高达百T比特级,甚至超P比特级,因此,光传输系统的大带宽、高可靠与高效率的特点是保证分布式训练高算效的关键。针对数据传输的大带宽问题,...……更多
摩尔线程万卡GPU集群新进展!性能可提升20倍
...活且高效的基础设施支持。摩尔线程近期宣布了从千卡至万卡的全功能GPU智算集群扩展方案,双方此番合作就将聚焦于万卡级超大规模GPU智算集群的开发与优化。清程极智是一家致力于构建高效人工智能系统软件,赋能国产算力...……更多
数据觉醒时代,华为重新定义数据存储
...,对数据存储提出了新的诉求。AI大模型集群规模已迈入万卡、十万卡时代,集群规模增加带来更加频繁的故障和训练中断,重复的CheckPoint数据写入、断点续训导致算力资源闲置,集群可用度不足50%。此外,到2026年,全球数据...……更多
国内最大智算中心8月30日投用:共1.8万张AI加速卡 算力6.6EFLOPS
...哈尔滨发布”介绍,中国移动智算中心(哈尔滨)节点超万卡智算集群将于8月30日正式投用。中国移动黑龙江公司在哈尔滨智算中心共计部署1.8万张AI加速卡,2336台智算服务器。集群建设完成后,具有单集群算力规模最大,国产...……更多
【中国电信规划建设首个支持单池万卡的国产超大规模算力液冷】《科创板日报》21日讯,《科创板日报》记者从知情人士获悉,中国电信已在上海规划建设可支持万亿参数大模型训练的智算中集群心。其中,单池新建国产算力...……更多
摩尔线程与360达成战略合作,将共同打造“360智脑大模型一体机”
...夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模。摩尔线程夸娥万卡智算集群以全功能 GPU 为底座,打造能够承载万卡规模、具备万 P 级浮点运算能力的国产通用加速计算平台,号称专为万亿参数级别的复杂大模...……更多
本文转自:宁夏日报中国移动宁夏公司聚力打造万卡级算力集群——绘就宁夏“数字风景”本报记者 陈瑶 见习记者 何婉蓉 常宽在穿越黄河的供热隧道中,5G+智能巡检机器人将4K高清巡检画面及环境参数实时传输至集控中心,...……更多
...签约。此外,“智算集群赋能港大自主算法平台”“国产万卡液冷集群赋能星辰大模型”“Sensecore智算体系赋能日日新5.0大模型”等一批大模型训练集群启动。临港新片区2023年发布《临港新片区加快构建算力产业生态行动方案...……更多
...场景示范方面,已落地了一批如全国规模最大的国产单池万卡液冷算力集群等重要项目。同时重点布局面向国际数据业务的国际数据中心,目前已完成国际算力、国际通信、国际互联网交换等业务测试,形成网络安全防护、数据...……更多
中国移动董事长:打造一批万卡级智算集群,加快超算等多种类型社会算力并网
...全国性智算中心与X个边缘智算节点建设布局,打造一批万卡级智算集群,加快超算、量算等多种类型社会算力并网。在构建“丰富易用”的新服务,支撑“人工智能+”发展方面,面向AI大模型研发、部署、应用全流程,加速国...……更多
加速落地 京东云大模型已支持数百个场景
...模型训练与微调,到部署、评测的全生命周期服务,支持万卡级别的分布式训练,实现动态资源统一管理。在智能体构建方面,平台提供一系列多模态组件与应用框架,如文生图、语音识别等多模态组件,以及检索增强生成、智...……更多
...总结了大模型实践过程中的十大难题:在训练上,面临着万卡/十万卡集群分布式训练及可靠性的挑战;在推理上,需解决面向LLM长文本生成的高效解码的挑战;在高效资源利用方面,面临着AI集群碎片资源利用及全局作业最优调...……更多
...算力供给,存在很大的差异性。目前大模型研发已经进入万卡时代,从事大模型研发的公司和团队,普遍面临“买不起、建不了、算不好”的困局。如何解决上述困境?彭震认为,需要以算力基建化改善算力供给,促进算力普惠...……更多
amd助力构建全球最大单体人工智能训练集群
...表示,AMD将助力构建全球最大的单体人工智能(AI)训练集群,将集成高达120万片的GPU。120万片GPU是一个非常惊人的数字,要知道目前全球最强的超级计算机Frontier所配备的GPU数量才只有37888片,这也意味着AMD所支持的AI训练集群...……更多
AMD将构建全球最大AI训练集群,集成120万片GPU
...表示,AMD将助力构建全球最大的单体人工智能(AI)训练集群,将集成高达120万片的GPU。120万片GPU 是一个非常惊人的数字,要知道目前全球最强的超级计算机Frontier 所配备的 GPU 数量才只有37888片,这也意味着AMD所支持的AI训练集...……更多
支付宝在AI大模型时代
...大模型、应用产品在内的完整技术链条。蚂蚁建设了超过万卡的异构集群,其中硬件算力效率(HFU)超过60%,集群有效训练时长占比90%以上,RLHF训练在同等模型效果下训练吞吐性能相较于业界方案提升3.59倍,推理性能相较于业界...……更多
AI潮起 共筑数智之基
...在中国移动人工智能生态大会上,中国移动正式发布了由万卡级智算集群、千亿多模态大模型、汇聚百大要素的生态平台共同构成的“九天”人工智能基座,并开放三大人工智能基地,加快大模型产业化、规模化发展,为数字中...……更多
更多关于科技的资讯:
iPhone 16交货时间缩短,成近年最不受欢迎一代
2024年9月26日,摩根士丹利在研报中指出,iPhone16的交货时间较前几代产品明显缩短,这说明该产品的受欢迎程度可能不及预期
2024-09-26 20:20:00
星纪魅族举办AI生态发布会,AI 手机、智能穿戴设备登场
9月25日消息,在今日举办的星纪魅族AI生态发布会上,星纪魅族科技有限公司展示了其在智能手机、智能穿戴设备和智能汽车领域的最新产品
2024-09-26 20:21:00
一加13保密壳背板外观曝光,或采用苹果同款长焦方案
9月26日消息,继此前一加中国区总裁李杰透露一加13即将上市后,业内也开始传出这台新机的更多信息。数码博主@数码闲聊站发文展示了一加13的保密壳背板外观
2024-09-26 20:21:00
比苹果还薄!高管晒出vivo小屏旗舰新机照片
近日,vivo产品经理韩伯啸在微博中晒出了一组图片,为网传了许久的vivo“小屏旗舰”手机,从微博显示的机型名称可以得知
2024-09-26 20:21:00
魅族 Lucky 08评测:兼具高颜值的旗舰级AI手机
近年来,AI技术愈发火热,诸多智能手机厂商都纷纷在手机内集成AI大模型相关技术。魅族则直接推出了一款AI手机——魅族Lucky08
2024-09-26 20:21:00
为了一个边框投入上亿,OPPO真是下血本
大家还记得iPhone16系列正式发布之后,刘作虎晒出一张图片。当时行业猜测这是OPPOFindX8系列中某款机型与iPhone16Pro系列的R角对比图
2024-09-26 20:21:00
Redmi Note 14 Pro进水保修,王腾玩大了
按照行业惯例支持防水的手机,一旦进水之后厂家都是不保修的。这也引起很多用户的不满,甚至有iPhone用户为此来起诉苹果
2024-09-26 20:21:00
解释vivo X200,顺手捧了一下小米14,蓝厂格局真大
10月份的旗舰非常有意思,目前只有vivoX200系列确认了发布日期,但是官方却一点都不预热。反而是还没有确认发布日期的OPPOFindX8系列
2024-09-26 20:22:00
摩根士丹利发报告,iPhone 16系列销量不如预期
不知道大家发现没有今年iPhone16系列的热度远远不如前几年,现在已经几乎看不到讨论iPhone16系列的,即使有也是关于iPhone16系列销量不如预期的
2024-09-26 20:23:00
刺激!小米15、荣耀Maigc7都在抢骁龙8Gen 4首发
现在已经确认联发科天玑9400将在10月9日正式发布,vivoX200系列将在10月14日正式发布,全球首发联发科天玑9400
2024-09-26 20:23:00
vivo OriginOS5官方自爆,这四个界面信息量巨大
都知道vivo在10月份会很忙,但率先出现的并不是vivoX200系列,而是OriginOS5.0操作系统。根据官方的信息vivo2024开发者大会将在10月10日举行
2024-09-26 20:23:00
Redmi K80系列电池容量曝光,王腾够狠
不知道大家发现这一波关于高通骁龙8Gen4机型的讨论之中,除了主品牌的机型之外iQOO13、一加13等子品牌的机型也在不断爆料之中
2024-09-26 20:23:00
vivo与郑钦文达成合作,蓝厂小屏旗舰命名确认
大家都知道今年vivoX20系列共有三款机型,除了标准版与Pro之外还有一个小屏旗舰。这是新加的机型,如何命名成为行业关注的焦点所在
2024-09-26 20:23:00
Redmi发布会有创新,王腾不请媒体和粉丝
常规的新机发布会,各品牌都会邀请媒体和粉丝到现场参加。特别是会邀请很多媒体进行报道,即使是线上的发布会,也会邀请一些重量级的媒体到现场
2024-09-26 20:23:00
推动算力交易,赋能产业发展
本文转自:人民日报海外版贵州打造面向全国的算力保障基地:推动算力交易,赋能产业发展本报记者 陈隽逸《 人民日报海外版 》( 2024年09月27日 第 08 版)贵州贵阳大数据科创城一角
2024-09-27 05:00:00