• 我的订阅
  • 头条热搜
一行代码训练成本再降30%,AI大模型混合精度训练再升级
...的数值表示方式,能够在保持一定精度的同时,在大模型训练中提高训练速度、节省内存占用,最终降低训练成本。AI大模型开发系统Colossal-AI的混合精度训练再度升级,支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。仅...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...发团队还发布了Time-300B数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强大性...……更多
...测算,若要对一个5000亿参数规模的单体大模型进行充分训练,所需算力基础设施约在10亿美元规模,每年消耗的电费在5.3亿元人民币。无论对于哪个机构、企业,这都是天文数字和巨大代价,中国也不例外。知名科学杂志《Nature...……更多
推理成本直降99%!百川智能「1+3」矩阵揭秘,两张4090玩转旗舰新模型
...解决大模型商业化难题。「系列优质通用数据+领域增强训练工具链」,仅需10分钟就能让企业自主成为模型定制增强专家,实现行业最佳的多场景可用率。大模型热两年后,将大模型融入业务场景、组织流程,提高产品和服务质...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...进行了有无注意力logit软封顶的消融实验,发现大多数预训练和后期评估中,生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而,某些下游性能可能仍会受到此移除的轻微影响。 使用R...……更多
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...国产通用GPU(GPGPU)所建设,能够快速构建大规模分布式训练环境,可支持超千卡规模、千亿参数级别的大模型训练和推理任务,旨在突破算力瓶颈,加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计,...……更多
CPU,正在被AI时代抛弃?
...业属性限制,在应用大模型时,除了对算力的高要求,AI训练过程中经常出现的坏卡问题也是这些行业不允许出现的。同时,为确保服务效率和隐私安全,他们一般需要将模型部署在本地,且非常看重硬件等基础设施层的稳定性...……更多
恒生电子:金融大模型技术升级,国内AI芯片危机互现
...级的LightGPT,面向金融机构实现LightGPT-7B的开源,推理和训练全面适配华为昇腾系列。恒生电子推出金融大模型,背后经历了怎样的转向?落地应用金融行业,金融大模型具备哪些共通性和特殊性?当前大模型所需的AI算力,在国...……更多
通信效率超98%!壁仞科技实现中国首个三种异构芯片混训技术
...峰会上,壁仞科技将首次公布壁仞自主原创的异构GPU协同训练方案HGCT,业界首次支持3种及以上异构GPU混合训练同一个大模型,用一套统一方案支持多种不同型号、不同厂商的GPU,而且一行代码适配多种框架。壁仞HGCT的异构协同...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模型预训练预训练是指,使用数万亿个token数据,从头开始训练LLM的过程,通常使用自监督算法进行训练。最常见...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...因此,越来越多的研究开始关注如何缩小模型,比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化(quantization)。ML工程师Maarten Grootendorst撰写了一篇博客文章,在语言建模背景下专门介绍了量化技术,并通过...……更多
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...复博士带队创办的AI2.0公司零一万物正式开源发布首款预训练大模型Yi-34B,模型开放商用申请,已在阿里云魔搭社区ModelScope首发。魔搭第一时间推出了模型部署相关教程,供开发者参考并快速上手。零一万物此次开源的Yi系列模...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
训练代码、中间 checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的...……更多
李开复AI公司首发大模型,阿里云领投 | 36氪独家
...月5日,Yi-34B分别在Hugging Face LLM Leaderboard(pretrained)(预训练大语言模型)和中文大模型榜单C-Eval排行榜已经爬升到1位。上下文窗口,意味着模型的“记忆力”。据介绍,Yi目前拥有200K上下文窗口,可处理约40万字的文本——这...……更多
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
...AWQ等算法在70B和405B参数量的模型上,均能有效保持量化精度。而最为简单的“四舍五入”(Naive)算法在这些大规模模型上则表现出显著的精度下降,特别是在激活被量化的情况下。 该研究团队发现,Llama 3.1系列模型的量化精...……更多
空天信息+人工智能 中国科研团队成功研发遥感智能训推一体机
...业最新研发成功一款命名为“空天·灵犀”的遥感智能训(训练)推(推理)一体机。“空天·灵犀”遥感智能训推一体机。中国科学院空天院 供图“空天·灵犀”遥感智能训推一体机搭载的高精度、高时效轻量化基础模型,能够在自...……更多
微软华人领衔AI²BMD登Nature,AI生物分子模拟双突破!继AlphaFold后又一里程碑
...该研究团队此前设计的ViSNet的基础上,他们使用机器学习训练了AI²BMD的势能函数。ViSnet是一种通用分子几何建模基础模型,已在《Nature Communication》上发表,并已集成到PyTorch Geometry库中。AI²BMD利用基于ViSNet的势能函数,在每一...……更多
突破遥感基础模型关键技术!我国科研人员研发出遥感智能训推一体机
...模型、智能解译软件系统,具有多任务高精度、模型高效训练推理、低成本灵活部署及自主创新四大核心特色。其中,在多任务高精度方面,模型支持包含地物要素提取、区域变化检测等9大类36子类下游任务,多任务平均精度较...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...AI基准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会:MEET大会是由量子位主办的智...……更多
让大模型“外挂硬盘”,百川智能发布新API系列,企业定制成本大大降低
...场景。在以前,企业想要建一个企业知识库,需要通过预训练或者微调训练大模型,也需要比较高素质的AI人才。当底层的大模型数据每更新一次,都要重新训练或微调,成本也较为昂贵,且可控性和稳定性也很容易下降。另外...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...门控模型控制专家模型的选择和加权混合。简言之,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研...……更多
清华开源混合精度推理系统MixQ:大模型近无损量化并提升推理吞吐
一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署并提升推理的吞吐。△图1 MixQ吞吐与已有...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...晶圆级AI芯片WSE-3,性能达到了上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸...……更多
英伟达blackwell计算引擎制造商推出的ai模型
...模型则进一步推动架构的发展,强调不断压缩更大规模AI训练与推理工作负载的处理成本。英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道,“在过去的2023年,我们经历了多模态生成式AI的诞生,文本到图像、图像...……更多
AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键
...吗?要回答这些问题,我们需要重新思考AI模型的工作和训练方式,尤其是要转换视角,首先考虑底层硬件的物理约束。或许,物理神经网络PNN(physical neural network)就是我们要找的答案。最近,一篇有关PNN训练的综述性论文登...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52……更多
英伟达发布Llama-3.1-Nemotron-51B AI 模型
...,从而解决了这些问题。该团队采用了分块蒸馏过程,即训练更小、更高效的学生模型(student model),以模仿更大的教师模型(teacher model)的功能。通过完善这些学生模型并评估其性能,英伟达开发出了 Llama-3.1 版本,在大幅...……更多
Pokémon Go开发地理空间大模型,AR眼镜的高精地图?
...真实世界的空间,借助LGM模型实现「空间智能」。LGM模型训练,图/Niantic用全球玩家数据打造的「地理空间大模型」正如Niantic在新闻稿中提到的,即使是当今最先进的AI模型也难以可视化和推断场景中的缺失部分,或从新的角度...……更多
加速行业智能升级 华为云推出首个大模型混合云
...积累,大型企业拥有的丰富私有数据资源,对于大模型的训练至关重要。大型政企由于其业务特点,更倾向于将数据留在本地,确保“数据不出域”。因此,基于混合云的大模型将成为未来行业大模型的重要部署形态,既满足业...……更多
更多关于科技的资讯:
哪吒创始人方运舟回应公司裁员、欠薪:哪吒一直在艰难活着 悬崖边创业十年
快科技11月28日消息,据报道,近日,哪吒汽车母公司创始人方运舟接受媒体访谈,首次正面回复了公司近期的问题。哪吒汽车自10月爆出欠薪以来
2024-11-28 19:03:00
羽绒服里穿薄点才暖和!一个超简单的穿搭技巧、快收藏
一到冬天,怕冷的人就恨不得把家里的所有衣服都套身上。不光要穿羽绒服,里面还要穿还要毛衣、秋衣、打底衣层层套,生怕一个没穿够
2024-11-28 19:03:00
一张图对比友商秒懂!特斯拉回应给供应商快速回款:不需要提高产品价格
快科技11月28日消息,陶琳近日公开表示,给供应商快速回款,并不意味着需要提高产品价格。从这位特斯拉副总裁晒出的图片看
2024-11-28 19:03:00
80分钟膀胱局白打!《DOTA2》大型比赛网络故障无法重连:无奈只能重开
快科技11月28日消息,在《DOTA2》项目BLAST Slam淘汰赛的首个比赛日,发生了一件令人意外的事情。在TF与OG战队的单败淘汰赛第一轮BO3决胜局中
2024-11-28 19:03:00
新能源汽车离奇失火 原因竟是座椅打开了打火机
快科技11月28日消息,近日,浙江湖州一辆停在路边的新能源汽车突然起火。消防员抵达现场时,火已被热心群众扑灭。火灾造成该车的驾驶位和中央扶手箱部分烧毁
2024-11-28 19:03:00
东南网11月28日讯(通讯员 黄淇舟)11月28日,国网永安市供电公司正式启动以“数智赋能基层 客服一路同行”为主题的国网186信通客服送服务到基层活动
2024-11-28 19:05:00
首单补贴用户已产生!京东江苏自营门店手机数码3C即日可享15%专项补贴
“这么便宜!我要告诉其他亲朋好友”,11月28日早晨8:10分,顾客赵女士专程等候在京东电器城市旗舰店昆山朝阳西路店,在门店营业后第一时间购买了苹果iPhone16白色版
2024-11-28 19:30:00
网友凭空捏造岚图汽车虚假谣言:被判道歉30天、赔偿4000元
快科技11月28日消息,岚图汽车法务部今日发文称:李某华在2024年1月至5月期间,在今日头条、微信公众号等平台,推发了多条关联岚图的
2024-11-28 19:33:00
四台日产轩逸比拼直线加速 博主:油门踩最狠的一次
快科技11月28日消息,直线加速赛历来很受观众欢迎,因为它能最为直接地反映出一辆车的动力。通常情况下,参与直线加速赛比拼的都是一些大排量性能车
2024-11-28 19:33:00
中华老字号!徽六六安瓜片口粮茶大促:领70元券 18块到手
徽六六安瓜片口粮茶,100g日常售价88元,下单可领70元大额券,到手价18元。购买链接:天猫(券后18元)产自大别山老区本地茶树种
2024-11-28 19:33:00
11月27日,中新经纬打卡了位于链博会上的数字科技链展馆。在这里,会写毛笔字的机器人、智能仿生手、可交互空中成像、智慧黑板等新技术和新产品是主角。来源:中新经纬编辑:郭晋嘉广告等
2024-11-28 19:37:00
青岛“好房子”产业联盟与城发集团举办保障房建设产品供需对接会
齐鲁晚报·齐鲁壹点 赵波 通讯员 张铭智为发挥青岛市“好房子”产业联盟作用,推动保障性住房建成人民满意的“好房子”,11月26日
2024-11-28 19:55:00
“今天,我们为什么还需要纸媒?”第二场直播活动即将举行
本文转自:人民网从图文到视频、从纸端到指尖,技术变革正不断拓展媒体传播新形态。在电子阅读兴起、信息碎片化传播的今天,以纸媒为代表的传统媒体将如何适应融媒传播新语境
2024-11-28 20:45:00
全速冲刺,四季度加油干!
2个重点外资项目接连签约、4家企业入围省民企百强、42个项目获市级专项资金支持……冲刺收官、决胜全年,常州高新区活力充沛——前三季度实现地区生产总值1585
2024-11-28 21:00:00
千企雄安行2024雄安新区“AI+机器人”创新生态发展大会举办
本文转自:人民雄安网人民网雄安11月28日电 (记者王红)11月28日,以“智创雄安 引领未来”为主题的千企雄安行2024雄安新区“AI+机器人”创新生态发展大会举办
2024-11-28 21:24:00