训练,精度,一行,混合,模型,成本头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...的数值表示方式，能够在保持一定精度的同时，在大模型训练中提高训练速度、节省内存占用，最终降低训练成本。AI大模型开发系统Colossal-AI的混合精度训练再度升级，支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。仅...……更多

2024-09-26 13:34:00训练,精度,一行,混合,模型,成本

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代，时序预测已成为众多领域不可或缺的核心组成。然而，构建一个兼具强大性...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

直面大模型“大成本”挑战，如何提高算力效率？

...测算，若要对一个5000亿参数规模的单体大模型进行充分训练，所需算力基础设施约在10亿美元规模，每年消耗的电费在5.3亿元人民币。无论对于哪个机构、企业，这都是天文数字和巨大代价，中国也不例外。知名科学杂志《Nature...……更多

2024-06-03 14:07:00模型,效率,成本,模型,推理,成本

1-bit大模型还能再突破！新一代BitNet架构启用4位激

...整数稀疏化中间状态。大量实验表明，BitNet a4.8在相同的训练成本下，实现了与前代BitNet b1.58相当的性能，同时因为可以吃到4位（INT4/FP4）内核的计算红利，实现了更快的推理速度。BitNet a4.8仅激活55%的参数，并支持3 bit KV cache，...……更多

2024-12-06 09:55:00架构,激活,新一代,模型,突破,激活

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...解决大模型商业化难题。「系列优质通用数据+领域增强训练工具链」，仅需10分钟就能让企业自主成为模型定制增强专家，实现行业最佳的多场景可用率。大模型热两年后，将大模型融入业务场景、组织流程，提高产品和服务质...……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

谷歌「诚意之作」，开源9B、27B版Gemma2，主打高效、

...进行了有无注意力logit软封顶的消融实验，发现大多数预训练和后期评估中，生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而，某些下游性能可能仍会受到此移除的轻微影响。使用R...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

优刻得首个「国产千卡智算集群」落地，支持智源千亿大模型训练

...国产通用GPU（GPGPU）所建设，能够快速构建大规模分布式训练环境，可支持超千卡规模、千亿参数级别的大模型训练和推理任务，旨在突破算力瓶颈，加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计，...……更多

2024-06-27 19:01:00集群,落地,模型,国产,训练,支持

CPU,正在被AI时代抛弃？

...业属性限制，在应用大模型时，除了对算力的高要求，AI训练过程中经常出现的坏卡问题也是这些行业不允许出现的。同时，为确保服务效率和隐私安全，他们一般需要将模型部署在本地，且非常看重硬件等基础设施层的稳定性...……更多

2024-07-11 16:45:00正在,时代,模型,推理,英特,英特尔

恒生电子：金融大模型技术升级，国内AI芯片危机互现

...级的LightGPT，面向金融机构实现LightGPT-7B的开源，推理和训练全面适配华为昇腾系列。恒生电子推出金融大模型，背后经历了怎样的转向？落地应用金融行业，金融大模型具备哪些共通性和特殊性？当前大模型所需的AI算力，在国...……更多

2023-10-22 15:30:00恒生,芯片,模型,危机,升级,金融

通信效率超98%！壁仞科技实现中国首个三种异构芯片混训技术

...峰会上，壁仞科技将首次公布壁仞自主原创的异构GPU协同训练方案HGCT，业界首次支持3种及以上异构GPU混合训练同一个大模型，用一套统一方案支持多种不同型号、不同厂商的GPU，而且一行代码适配多种框架。壁仞HGCT的异构协同...……更多

2024-09-06 10:03:00中国,芯片,效率,通信,技术,科技

算力直降97%，GPT-3存储只用20MB？！这篇新论文火了

...家伙！1750亿参数的GPT-3只需20MB存储空间了？！基于1.58-bit训练，在不损失精度的情况下，大幅节省算力（↓97%）和存储（↓90%）。最近，从事机器学习的Will小哥发了一篇论文，直接引来几十万网友or同行围观。他提出了一项名为...……更多

2024-12-30 09:11:00文火,新论,存储,训练,小哥,模型

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...调LLM，如何确定微调适配自己的用例，以及如何管理良好训练数据集的经验法则。接下来，直接进入正题。适配大模型预训练预训练是指，使用数万亿个token数据，从头开始训练LLM的过程，通常使用自监督算法进行训练。最常见...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

万字技术干货！LLM工程师必读量化指南，可视化图解揭秘大模型

...因此，越来越多的研究开始关注如何缩小模型，比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化（quantization）。ML工程师Maarten Grootendorst撰写了一篇博客文章，在语言建模背景下专门介绍了量化技术，并通过...……更多

2024-08-01 09:38:00干货,可视化,模型,工程师,指南,工程

零一万物大模型Yi-34B夺得全球开源评测“双料冠军”，已在

...复博士带队创办的AI2.0公司零一万物正式开源发布首款预训练大模型Yi-34B，模型开放商用申请，已在阿里云魔搭社区ModelScope首发。魔搭第一时间推出了模型部署相关教程，供开发者参考并快速上手。零一万物此次开源的Yi系列模...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

训练代码、中间 checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的...……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练

李开复AI公司首发大模型，阿里云领投 | 36氪独家

...月5日，Yi-34B分别在Hugging Face LLM Leaderboard（pretrained）（预训练大语言模型）和中文大模型榜单C-Eval排行榜已经爬升到1位。上下文窗口，意味着模型的“记忆力”。据介绍，Yi目前拥有200K上下文窗口，可处理约40万字的文本——这...……更多

2023-11-06 12:13:00李开复AI公司首发大模型，阿里云领投 | 36氪独家

chatgpt低成本复现流程开源

首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需1.62GB显存，随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch，单机训练速度最高...……更多

2023-02-15 15:47:00流程,成本,模型,训练,内存,参数

单卡搞定Llama 3.1 405B，让大模型轻松瘦身！超强

...AWQ等算法在70B和405B参数量的模型上，均能有效保持量化精度。而最为简单的“四舍五入”（Naive）算法在这些大规模模型上则表现出显著的精度下降，特别是在激活被量化的情况下。该研究团队发现，Llama 3.1系列模型的量化精...……更多

2024-08-05 09:34:00工具包,模型,工具,模型,算法,工具

空天信息+人工智能中国科研团队成功研发遥感智能训推一体机

...业最新研发成功一款命名为“空天·灵犀”的遥感智能训(训练)推(推理)一体机。“空天·灵犀”遥感智能训推一体机。中国科学院空天院供图“空天·灵犀”遥感智能训推一体机搭载的高精度、高时效轻量化基础模型，能够在自...……更多

2023-10-27 16:57:00空天,智能,遥感,人工智能,一体机,中国

微软华人领衔AI²BMD登Nature，AI生物分子模拟双突

...该研究团队此前设计的ViSNet的基础上，他们使用机器学习训练了AI²BMD的势能函数。ViSnet是一种通用分子几何建模基础模型，已在《Nature Communication》上发表，并已集成到PyTorch Geometry库中。AI²BMD利用基于ViSNet的势能函数，在每一...……更多

2024-11-08 09:42:00里程,微软,领衔,里程碑,分子,突破