训练,精度,一行,混合,模型,成本头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...的数值表示方式，能够在保持一定精度的同时，在大模型训练中提高训练速度、节省内存占用，最终降低训练成本。AI大模型开发系统Colossal-AI的混合精度训练再度升级，支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。仅...……更多

2024-09-26 13:34:00训练,精度,一行,混合,模型,成本

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代，时序预测已成为众多领域不可或缺的核心组成。然而，构建一个兼具强大性...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

直面大模型“大成本”挑战，如何提高算力效率？

...测算，若要对一个5000亿参数规模的单体大模型进行充分训练，所需算力基础设施约在10亿美元规模，每年消耗的电费在5.3亿元人民币。无论对于哪个机构、企业，这都是天文数字和巨大代价，中国也不例外。知名科学杂志《Nature...……更多

2024-06-03 14:07:00模型,效率,成本,模型,推理,成本

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

...解决大模型商业化难题。「系列优质通用数据+领域增强训练工具链」，仅需10分钟就能让企业自主成为模型定制增强专家，实现行业最佳的多场景可用率。大模型热两年后，将大模型融入业务场景、组织流程，提高产品和服务质...……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

谷歌「诚意之作」，开源9B、27B版Gemma2，主打高效、

...进行了有无注意力logit软封顶的消融实验，发现大多数预训练和后期评估中，生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而，某些下游性能可能仍会受到此移除的轻微影响。使用R...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

优刻得首个「国产千卡智算集群」落地，支持智源千亿大模型训练

...国产通用GPU（GPGPU）所建设，能够快速构建大规模分布式训练环境，可支持超千卡规模、千亿参数级别的大模型训练和推理任务，旨在突破算力瓶颈，加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计，...……更多

2024-06-27 19:01:00集群,落地,模型,国产,训练,支持

CPU,正在被AI时代抛弃？

...业属性限制，在应用大模型时，除了对算力的高要求，AI训练过程中经常出现的坏卡问题也是这些行业不允许出现的。同时，为确保服务效率和隐私安全，他们一般需要将模型部署在本地，且非常看重硬件等基础设施层的稳定性...……更多

2024-07-11 16:45:00正在,时代,模型,推理,英特,英特尔

恒生电子：金融大模型技术升级，国内AI芯片危机互现

...级的LightGPT，面向金融机构实现LightGPT-7B的开源，推理和训练全面适配华为昇腾系列。恒生电子推出金融大模型，背后经历了怎样的转向？落地应用金融行业，金融大模型具备哪些共通性和特殊性？当前大模型所需的AI算力，在国...……更多

2023-10-22 15:30:00恒生,芯片,模型,危机,升级,金融

通信效率超98%！壁仞科技实现中国首个三种异构芯片混训技术

...峰会上，壁仞科技将首次公布壁仞自主原创的异构GPU协同训练方案HGCT，业界首次支持3种及以上异构GPU混合训练同一个大模型，用一套统一方案支持多种不同型号、不同厂商的GPU，而且一行代码适配多种框架。壁仞HGCT的异构协同...……更多

2024-09-06 10:03:00中国,芯片,效率,通信,技术,科技

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...调LLM，如何确定微调适配自己的用例，以及如何管理良好训练数据集的经验法则。接下来，直接进入正题。适配大模型预训练预训练是指，使用数万亿个token数据，从头开始训练LLM的过程，通常使用自监督算法进行训练。最常见...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

万字技术干货！LLM工程师必读量化指南，可视化图解揭秘大模型

...因此，越来越多的研究开始关注如何缩小模型，比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化（quantization）。ML工程师Maarten Grootendorst撰写了一篇博客文章，在语言建模背景下专门介绍了量化技术，并通过...……更多

2024-08-01 09:38:00干货,可视化,模型,工程师,指南,工程

零一万物大模型Yi-34B夺得全球开源评测“双料冠军”，已在

...复博士带队创办的AI2.0公司零一万物正式开源发布首款预训练大模型Yi-34B，模型开放商用申请，已在阿里云魔搭社区ModelScope首发。魔搭第一时间推出了模型部署相关教程，供开发者参考并快速上手。零一万物此次开源的Yi系列模...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

训练代码、中间 checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的...……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练

李开复AI公司首发大模型，阿里云领投 | 36氪独家

...月5日，Yi-34B分别在Hugging Face LLM Leaderboard（pretrained）（预训练大语言模型）和中文大模型榜单C-Eval排行榜已经爬升到1位。上下文窗口，意味着模型的“记忆力”。据介绍，Yi目前拥有200K上下文窗口，可处理约40万字的文本——这...……更多

2023-11-06 12:13:00李开复AI公司首发大模型，阿里云领投 | 36氪独家

单卡搞定Llama 3.1 405B，让大模型轻松瘦身！超强

...AWQ等算法在70B和405B参数量的模型上，均能有效保持量化精度。而最为简单的“四舍五入”（Naive）算法在这些大规模模型上则表现出显著的精度下降，特别是在激活被量化的情况下。该研究团队发现，Llama 3.1系列模型的量化精...……更多

2024-08-05 09:34:00工具包,模型,工具,模型,算法,工具

空天信息+人工智能中国科研团队成功研发遥感智能训推一体机

...业最新研发成功一款命名为“空天·灵犀”的遥感智能训(训练)推(推理)一体机。“空天·灵犀”遥感智能训推一体机。中国科学院空天院供图“空天·灵犀”遥感智能训推一体机搭载的高精度、高时效轻量化基础模型，能够在自...……更多

2023-10-27 16:57:00空天,智能,遥感,人工智能,一体机,中国

微软华人领衔AI²BMD登Nature，AI生物分子模拟双突

...该研究团队此前设计的ViSNet的基础上，他们使用机器学习训练了AI²BMD的势能函数。ViSnet是一种通用分子几何建模基础模型，已在《Nature Communication》上发表，并已集成到PyTorch Geometry库中。AI²BMD利用基于ViSNet的势能函数，在每一...……更多

2024-11-08 09:42:00里程,微软,领衔,里程碑,分子,突破

突破遥感基础模型关键技术！我国科研人员研发出遥感智能训推一体

...模型、智能解译软件系统，具有多任务高精度、模型高效训练推理、低成本灵活部署及自主创新四大核心特色。其中，在多任务高精度方面，模型支持包含地物要素提取、区域变化检测等9大类36子类下游任务，多任务平均精度较...……更多

2023-10-27 11:57:00遥感,一体机,模型,科研,一体,突破

清华郑纬民院士：AI for Science的出现，让高性能

...AI基准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会：MEET大会是由量子位主办的智...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

让大模型“外挂硬盘”，百川智能发布新API系列，企业定制成本

...场景。在以前，企业想要建一个企业知识库，需要通过预训练或者微调训练大模型，也需要比较高素质的AI人才。当底层的大模型数据每更新一次，都要重新训练或微调，成本也较为昂贵，且可控性和稳定性也很容易下降。另外...……更多

2023-12-21 15:32:00百川,外挂,模型,成本,硬盘,智能

大模型新趋势之MoE：现状、挑战及研究方向

...门控模型控制专家模型的选择和加权混合。简言之，MoE在训练过程通过门控模型实现“因材施教”，进而在推理过程实现专家模型之间的“博采众长”。图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化，在模型研...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

清华开源混合精度推理系统MixQ：大模型近无损量化并提升推理

一键部署LLM混合精度推理，端到端吞吐比AWQ最大提升6倍！清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。MixQ支持8比特和4比特混合精度推理，可实现近无损的量化部署并提升推理的吞吐。△图1 MixQ吞吐与已有...……更多

2024-10-22 09:57:00推理,清华,吞吐,精度,混合,模型

1890美元，就能从头训练一个还不错的12亿参数扩散模型

只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

晶圆级AI芯片WSE-3性能公布：80亿参数模型上每秒生成1

...晶圆级AI芯片WSE-3，性能达到了上一代WSE-2的两倍，可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上，Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示，WSE-3依然是采用了一整张12英寸...……更多

2024-09-02 13:36:00晶圆,芯片,生成,模型,性能,参数

英伟达blackwell计算引擎制造商推出的ai模型

...模型则进一步推动架构的发展，强调不断压缩更大规模AI训练与推理工作负载的处理成本。英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道，“在过去的2023年，我们经历了多模态生成式AI的诞生，文本到图像、图像...……更多

2024-03-20 02:59:00英伟,制造商,模型,引擎,制造,英伟

AI大模型有望再扩1000倍！剑桥耶鲁康奈尔：PNN是变革关

...吗？要回答这些问题，我们需要重新思考AI模型的工作和训练方式，尤其是要转换视角，首先考虑底层硬件的物理约束。或许，物理神经网络PNN（physical neural network）就是我们要找的答案。最近，一篇有关PNN训练的综述性论文登...……更多

2024-07-15 09:33:00康奈尔,康奈,耶鲁,剑桥,变革,模型

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...界参数规模最大、效果最好的开源MoE大语言模型，采用7T训练tokens，总参数量389B，激活参数量52B，上下文长度高达256K，技术报告也同步发布。混元-Large包括三款模型：Hunyuan-A52B-Pretrain，Hunyuan-A52B-Instruct和Hunyuan-A52……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言