• 我的订阅
  • 头条热搜
一行代码训练成本再降30%,AI大模型混合精度训练再升级
...的数值表示方式,能够在保持一定精度的同时,在大模型训练中提高训练速度、节省内存占用,最终降低训练成本。AI大模型开发系统Colossal-AI的混合精度训练再度升级,支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。仅...……更多
...测算,若要对一个5000亿参数规模的单体大模型进行充分训练,所需算力基础设施约在10亿美元规模,每年消耗的电费在5.3亿元人民币。无论对于哪个机构、企业,这都是天文数字和巨大代价,中国也不例外。知名科学杂志《Nature...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...进行了有无注意力logit软封顶的消融实验,发现大多数预训练和后期评估中,生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而,某些下游性能可能仍会受到此移除的轻微影响。 使用R...……更多
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...国产通用GPU(GPGPU)所建设,能够快速构建大规模分布式训练环境,可支持超千卡规模、千亿参数级别的大模型训练和推理任务,旨在突破算力瓶颈,加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计,...……更多
CPU,正在被AI时代抛弃?
...业属性限制,在应用大模型时,除了对算力的高要求,AI训练过程中经常出现的坏卡问题也是这些行业不允许出现的。同时,为确保服务效率和隐私安全,他们一般需要将模型部署在本地,且非常看重硬件等基础设施层的稳定性...……更多
通信效率超98%!壁仞科技实现中国首个三种异构芯片混训技术
...峰会上,壁仞科技将首次公布壁仞自主原创的异构GPU协同训练方案HGCT,业界首次支持3种及以上异构GPU混合训练同一个大模型,用一套统一方案支持多种不同型号、不同厂商的GPU,而且一行代码适配多种框架。壁仞HGCT的异构协同...……更多
恒生电子:金融大模型技术升级,国内AI芯片危机互现
...级的LightGPT,面向金融机构实现LightGPT-7B的开源,推理和训练全面适配华为昇腾系列。恒生电子推出金融大模型,背后经历了怎样的转向?落地应用金融行业,金融大模型具备哪些共通性和特殊性?当前大模型所需的AI算力,在国...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模型预训练预训练是指,使用数万亿个token数据,从头开始训练LLM的过程,通常使用自监督算法进行训练。最常见...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...因此,越来越多的研究开始关注如何缩小模型,比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化(quantization)。ML工程师Maarten Grootendorst撰写了一篇博客文章,在语言建模背景下专门介绍了量化技术,并通过...……更多
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...复博士带队创办的AI2.0公司零一万物正式开源发布首款预训练大模型Yi-34B,模型开放商用申请,已在阿里云魔搭社区ModelScope首发。魔搭第一时间推出了模型部署相关教程,供开发者参考并快速上手。零一万物此次开源的Yi系列模...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
训练代码、中间 checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的...……更多
李开复AI公司首发大模型,阿里云领投 | 36氪独家
...月5日,Yi-34B分别在Hugging Face LLM Leaderboard(pretrained)(预训练大语言模型)和中文大模型榜单C-Eval排行榜已经爬升到1位。上下文窗口,意味着模型的“记忆力”。据介绍,Yi目前拥有200K上下文窗口,可处理约40万字的文本——这...……更多
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
...AWQ等算法在70B和405B参数量的模型上,均能有效保持量化精度。而最为简单的“四舍五入”(Naive)算法在这些大规模模型上则表现出显著的精度下降,特别是在激活被量化的情况下。 该研究团队发现,Llama 3.1系列模型的量化精...……更多
空天信息+人工智能 中国科研团队成功研发遥感智能训推一体机
...业最新研发成功一款命名为“空天·灵犀”的遥感智能训(训练)推(推理)一体机。“空天·灵犀”遥感智能训推一体机。中国科学院空天院 供图“空天·灵犀”遥感智能训推一体机搭载的高精度、高时效轻量化基础模型,能够在自...……更多
突破遥感基础模型关键技术!我国科研人员研发出遥感智能训推一体机
...模型、智能解译软件系统,具有多任务高精度、模型高效训练推理、低成本灵活部署及自主创新四大核心特色。其中,在多任务高精度方面,模型支持包含地物要素提取、区域变化检测等9大类36子类下游任务,多任务平均精度较...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...AI基准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会:MEET大会是由量子位主办的智...……更多
让大模型“外挂硬盘”,百川智能发布新API系列,企业定制成本大大降低
...场景。在以前,企业想要建一个企业知识库,需要通过预训练或者微调训练大模型,也需要比较高素质的AI人才。当底层的大模型数据每更新一次,都要重新训练或微调,成本也较为昂贵,且可控性和稳定性也很容易下降。另外...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...晶圆级AI芯片WSE-3,性能达到了上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸...……更多
英伟达blackwell计算引擎制造商推出的ai模型
...模型则进一步推动架构的发展,强调不断压缩更大规模AI训练与推理工作负载的处理成本。英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道,“在过去的2023年,我们经历了多模态生成式AI的诞生,文本到图像、图像...……更多
AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键
...吗?要回答这些问题,我们需要重新思考AI模型的工作和训练方式,尤其是要转换视角,首先考虑底层硬件的物理约束。或许,物理神经网络PNN(physical neural network)就是我们要找的答案。最近,一篇有关PNN训练的综述性论文登...……更多
英伟达发布Llama-3.1-Nemotron-51B AI 模型
...,从而解决了这些问题。该团队采用了分块蒸馏过程,即训练更小、更高效的学生模型(student model),以模仿更大的教师模型(teacher model)的功能。通过完善这些学生模型并评估其性能,英伟达开发出了 Llama-3.1 版本,在大幅...……更多
加速行业智能升级 华为云推出首个大模型混合云
...积累,大型企业拥有的丰富私有数据资源,对于大模型的训练至关重要。大型政企由于其业务特点,更倾向于将数据留在本地,确保“数据不出域”。因此,基于混合云的大模型将成为未来行业大模型的重要部署形态,既满足业...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...生成个性化视频。甚至Meta还放出了92页论文,模型架构、训练细节一并公开,干货满满!毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了!Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie Gen Video,是...……更多
当大模型Scaling Law继续,万卡集群算力释放在百舸找到一条通途
...大战,AI 算力需求不可避免迎来爆炸式增长,无论是前期训练还是后期推理,都是如此。在训练层面,OpenAI 曾在 2018 年做过估算,自 2012 年以来,AI 模型训练算力需求每 3.5 个月翻一番,每年所需算力增幅高达 10 倍,增速远远...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,覆盖了苹果LLM的设计与评估,包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.……更多
从炒菜到缝针!斯坦福炒虾团队打造自主「AI达芬奇」,苦练神指当外科医生
...学就会不一致,如果只是简单地使用这种近似运动学数据训练一个策略,通常会导致任务的失败。很简单的视觉伺服任务,机器人也无法执行。训练输出绝对末端执行器姿势的策略(这是训练机器人策略的常用方法),在所有任...……更多
世界气象组织最新报告:AI 正在革新天气预报,更快、更便宜、更易获得
...表在 Nature 杂志上,使用 39 年的全球再分析天气数据进行训练,其预测精度与全球顶尖的数值天气预报系统 IFS(欧洲中期天气预报中心的数值预报系统)相当,但在相同空间分辨率下预测速度比 IFS 快 10,000 倍以上。这一突破表...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代,一般...……更多
BEV“超融合”感知部署 轻舟智航迈出量产从0到1的关键一步
... BEV感知能力,需要积累海量的已标注数据以支持模型的训练。如何找到更多高质量的数据并高效利用,是支持技术不断迭代的重要基石。轻舟智航充分利用作为高级别自动驾驶解决方案提供商在AI领域的先发优势,通过突出的基...……更多
更多关于科技的资讯:
我国将“稻米造血”变成现实!有望解决人血清白蛋白供应不足
快科技4月6日消息,大米和人血,看起来风马牛不相及的两件物品,在科技的加持下,竟然产生了神奇的联系。据央视新闻报道,武汉一家生物制药公司通过神奇的基因工程技术
2025-04-06 16:13:00
借助闲徕游戏联运平台平台精准的用户定位和多元的推广渠道  迅速获得了大量玩家
在游戏行业的激烈竞争中,闲徕游戏联运平台正以独特的优势和影响力,悄然重塑着整个行业格局。它不仅为游戏开发者、发行商以及玩家带来了全新的机遇与体验
2025-04-06 17:41:00
雨天高速路上一SUV强行变道致问界M9失控兜圈:万幸没撞车
快科技4月6日消息,雨天高速路上开车一定要控制车速,并且减少变道次数,才能安全行驶。据“浙江绍兴高速交警”官方通报,近日在G92高速环线公路上
2025-04-06 18:13:00
12针供电接口惹祸!RTX 5090与电源两头烧熔:两万多的显卡直接报废
快科技4月6日消息,近日,一位Reddit用户分享了其微星RTX 5090 Gaming TRIO OC显卡和配套电源因12VHPWR供电接口烧毁的惨状
2025-04-06 18:13:00
《赛博朋克2077》Switch 2版试玩:30帧、画面还行
《赛博朋克2077:终极版》是Switch 2首发游戏之一,外媒VGC近日在任天堂举办的上手试玩活动中体验到了Switch 2版的《赛博朋克2077》
2025-04-06 18:13:00
微软Windows 11开始菜单大改版!全部应用一页显示、推荐项可彻底关闭
快科技4月6日消息,根据最新消息,微软正在对Windows 11的开始菜单进行重大改版,这一更新将彻底改变其布局和功能
2025-04-06 09:13:00
古代人看到要吓坏!世界多地因日食出现“恶魔之角”
快科技4月6日消息,近日发生日食,在加拿大东部和美国东北部还出现了“恶魔之角”Devil Sunrise奇特复杂的蜃景
2025-04-06 09:13:00
每日商报讯 近日,杭州东站枢纽管委会与网约车平台进行技术对接,上线“网约车精准车位实时推送”试点功能,标志着杭州东站成为全国首个在打车软件内展示接驾车辆准确车位号的高铁枢纽
2025-04-06 09:43:00
长腿小姐姐当模特!新款智己L6实车图曝光
快科技4月6日消息,近日,国内社交平台曝光了一组新款智己L6实车图,目测该车正处于推广拍摄期间,据此前消息,该车将于4月18日正式亮相并预售
2025-04-06 09:43:00
安徽高速回应提醒慎用辅助驾驶提示:安全第一
快科技4月6日消息,近日,有网友在社交媒体分享称,途经安徽高速时发现道路警示牌显示“慎用辅助驾驶”。从网传内容看,安徽段高速公路的警示标改为了“高速路况复杂
2025-04-06 10:13:00
本文转自:人民网农历三月,草长莺飞。春风拂过中国大地,树木抽枝发芽,百花竞相绽放…让我们通过AI技术来看看这充满活力的春天画卷。(AI视频:王天乐 包装:实习生徐可)
2025-04-06 10:19:00
戴尔推出售价254元套件:外星人台式机可用第三方主板
快科技4月6日消息,为了吸引DIY爱好者,戴尔近日推出了一款专为外星人台式机设计的套件,允许用户在其中安装第三方主板。该套件售价为35美元(约合人民币254元)
2025-04-06 10:43:00
全产业链自主可控!东风车规级MCU芯片DF30完成第一次流片:明年量产
快科技4月6日消息,据国内媒体报道,东风汽车旗下全国产自主可控高性能车规级MCU芯片DF30已完成第一次流片(试生产)验证
2025-04-06 10:43:00
太冤!方便面真不是“垃圾食品”
说起方便面,可以说是很多人的心头好。一碗泡面,只需短短几分钟和几个简单步骤,就能满足饥肠辘辘的胃。然而,每当你想享受这份简单快乐时
2025-04-06 11:13:00
90岁杨老头盛赞《刺客信条:影》:除了吃饭睡觉都在玩!
近日,吉尼斯世界纪录“最年长游戏博主”保持者,B站知名UP主@骨灰级游戏玩家_杨老头发布视频,体验了3月20日正式发售的《刺客信条
2025-04-06 11:13:00