训练,精度,一行,混合,模型,成本头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...的数值表示方式，能够在保持一定精度的同时，在大模型训练中提高训练速度、节省内存占用，最终降低训练成本。AI大模型开发系统Colossal-AI的混合精度训练再度升级，支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。仅...……更多

2024-09-26 13:34:00训练,精度,一行,混合,模型,成本

直面大模型“大成本”挑战，如何提高算力效率？

...测算，若要对一个5000亿参数规模的单体大模型进行充分训练，所需算力基础设施约在10亿美元规模，每年消耗的电费在5.3亿元人民币。无论对于哪个机构、企业，这都是天文数字和巨大代价，中国也不例外。知名科学杂志《Nature...……更多

2024-06-03 14:07:00模型,效率,成本,模型,推理,成本

谷歌「诚意之作」，开源9B、27B版Gemma2，主打高效、

...进行了有无注意力logit软封顶的消融实验，发现大多数预训练和后期评估中，生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而，某些下游性能可能仍会受到此移除的轻微影响。使用R...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

优刻得首个「国产千卡智算集群」落地，支持智源千亿大模型训练

...国产通用GPU（GPGPU）所建设，能够快速构建大规模分布式训练环境，可支持超千卡规模、千亿参数级别的大模型训练和推理任务，旨在突破算力瓶颈，加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计，...……更多

2024-06-27 19:01:00集群,落地,模型,国产,训练,支持

CPU,正在被AI时代抛弃？

...业属性限制，在应用大模型时，除了对算力的高要求，AI训练过程中经常出现的坏卡问题也是这些行业不允许出现的。同时，为确保服务效率和隐私安全，他们一般需要将模型部署在本地，且非常看重硬件等基础设施层的稳定性...……更多

2024-07-11 16:45:00正在,时代,模型,推理,英特,英特尔

恒生电子：金融大模型技术升级，国内AI芯片危机互现

...级的LightGPT，面向金融机构实现LightGPT-7B的开源，推理和训练全面适配华为昇腾系列。恒生电子推出金融大模型，背后经历了怎样的转向？落地应用金融行业，金融大模型具备哪些共通性和特殊性？当前大模型所需的AI算力，在国...……更多

2023-10-22 15:30:00恒生,芯片,模型,危机,升级,金融

通信效率超98%！壁仞科技实现中国首个三种异构芯片混训技术

...峰会上，壁仞科技将首次公布壁仞自主原创的异构GPU协同训练方案HGCT，业界首次支持3种及以上异构GPU混合训练同一个大模型，用一套统一方案支持多种不同型号、不同厂商的GPU，而且一行代码适配多种框架。壁仞HGCT的异构协同...……更多

2024-09-06 10:03:00中国,芯片,效率,通信,技术,科技

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...调LLM，如何确定微调适配自己的用例，以及如何管理良好训练数据集的经验法则。接下来，直接进入正题。适配大模型预训练预训练是指，使用数万亿个token数据，从头开始训练LLM的过程，通常使用自监督算法进行训练。最常见...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

万字技术干货！LLM工程师必读量化指南，可视化图解揭秘大模型

...因此，越来越多的研究开始关注如何缩小模型，比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化（quantization）。ML工程师Maarten Grootendorst撰写了一篇博客文章，在语言建模背景下专门介绍了量化技术，并通过...……更多

2024-08-01 09:38:00干货,可视化,模型,工程师,指南,工程

零一万物大模型Yi-34B夺得全球开源评测“双料冠军”，已在

...复博士带队创办的AI2.0公司零一万物正式开源发布首款预训练大模型Yi-34B，模型开放商用申请，已在阿里云魔搭社区ModelScope首发。魔搭第一时间推出了模型部署相关教程，供开发者参考并快速上手。零一万物此次开源的Yi系列模...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

训练代码、中间 checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的...……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练

李开复AI公司首发大模型，阿里云领投 | 36氪独家

...月5日，Yi-34B分别在Hugging Face LLM Leaderboard（pretrained）（预训练大语言模型）和中文大模型榜单C-Eval排行榜已经爬升到1位。上下文窗口，意味着模型的“记忆力”。据介绍，Yi目前拥有200K上下文窗口，可处理约40万字的文本——这...……更多

2023-11-06 12:13:00李开复AI公司首发大模型，阿里云领投 | 36氪独家

单卡搞定Llama 3.1 405B，让大模型轻松瘦身！超强

...AWQ等算法在70B和405B参数量的模型上，均能有效保持量化精度。而最为简单的“四舍五入”（Naive）算法在这些大规模模型上则表现出显著的精度下降，特别是在激活被量化的情况下。该研究团队发现，Llama 3.1系列模型的量化精...……更多

2024-08-05 09:34:00工具包,模型,工具,模型,算法,工具

空天信息+人工智能中国科研团队成功研发遥感智能训推一体机

...业最新研发成功一款命名为“空天·灵犀”的遥感智能训(训练)推(推理)一体机。“空天·灵犀”遥感智能训推一体机。中国科学院空天院供图“空天·灵犀”遥感智能训推一体机搭载的高精度、高时效轻量化基础模型，能够在自...……更多

2023-10-27 16:57:00空天,智能,遥感,人工智能,一体机,中国

突破遥感基础模型关键技术！我国科研人员研发出遥感智能训推一体

...模型、智能解译软件系统，具有多任务高精度、模型高效训练推理、低成本灵活部署及自主创新四大核心特色。其中，在多任务高精度方面，模型支持包含地物要素提取、区域变化检测等9大类36子类下游任务，多任务平均精度较...……更多

2023-10-27 11:57:00遥感,一体机,模型,科研,一体,突破

清华郑纬民院士：AI for Science的出现，让高性能

...AI基准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会：MEET大会是由量子位主办的智...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

让大模型“外挂硬盘”，百川智能发布新API系列，企业定制成本

...场景。在以前，企业想要建一个企业知识库，需要通过预训练或者微调训练大模型，也需要比较高素质的AI人才。当底层的大模型数据每更新一次，都要重新训练或微调，成本也较为昂贵，且可控性和稳定性也很容易下降。另外...……更多

2023-12-21 15:32:00百川,外挂,模型,成本,硬盘,智能

1890美元，就能从头训练一个还不错的12亿参数扩散模型

只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

晶圆级AI芯片WSE-3性能公布：80亿参数模型上每秒生成1

...晶圆级AI芯片WSE-3，性能达到了上一代WSE-2的两倍，可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上，Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示，WSE-3依然是采用了一整张12英寸...……更多

2024-09-02 13:36:00晶圆,芯片,生成,模型,性能,参数

英伟达blackwell计算引擎制造商推出的ai模型

...模型则进一步推动架构的发展，强调不断压缩更大规模AI训练与推理工作负载的处理成本。英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道，“在过去的2023年，我们经历了多模态生成式AI的诞生，文本到图像、图像...……更多

2024-03-20 02:59:00英伟,制造商,模型,引擎,制造,英伟

AI大模型有望再扩1000倍！剑桥耶鲁康奈尔：PNN是变革关

...吗？要回答这些问题，我们需要重新思考AI模型的工作和训练方式，尤其是要转换视角，首先考虑底层硬件的物理约束。或许，物理神经网络PNN（physical neural network）就是我们要找的答案。最近，一篇有关PNN训练的综述性论文登...……更多

2024-07-15 09:33:00康奈尔,康奈,耶鲁,剑桥,变革,模型

英伟达发布Llama-3.1-Nemotron-51B AI

...，从而解决了这些问题。该团队采用了分块蒸馏过程，即训练更小、更高效的学生模型（student model），以模仿更大的教师模型（teacher model）的功能。通过完善这些学生模型并评估其性能，英伟达开发出了 Llama-3.1 版本，在大幅...……更多

2024-09-26 09:49:00英伟,模型,模型,英伟,精度,内存

加速行业智能升级华为云推出首个大模型混合云

...积累，大型企业拥有的丰富私有数据资源，对于大模型的训练至关重要。大型政企由于其业务特点，更倾向于将数据留在本地，确保“数据不出域”。因此，基于混合云的大模型将成为未来行业大模型的重要部署形态，既满足业...……更多

2023-11-30 15:08:00华为,混合,模型,升级,智能,行业

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92

...生成个性化视频。甚至Meta还放出了92页论文，模型架构、训练细节一并公开，干货满满！毫无预兆地，Meta版Sora——Movie Gen，就在刚刚抢先上线了！Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie Gen Video，是...……更多

2024-10-08 09:52:00高清,架构,大片,细节,论文,技术

当大模型Scaling Law继续,万卡集群算力释放在百舸找

...大战，AI 算力需求不可避免迎来爆炸式增长，无论是前期训练还是后期推理，都是如此。在训练层面，OpenAI 曾在 2018 年做过估算，自 2012 年以来，AI 模型训练算力需求每 3.5 个月翻一番，每年所需算力增幅高达 10 倍，增速远远...……更多

2024-09-26 13:37:00万卡,百舸,通途,集群,模型,百舸

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...，覆盖了苹果LLM的设计与评估，包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址：https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果