流程,成本,模型,训练,内存,参数头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

chatgpt低成本复现流程开源

首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需1.62GB显存，随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch，单机训练速度最高...……更多

2023-02-15 15:47:00流程,成本,模型,训练,内存,参数

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...质量合成数据混元团队开发了一套完整的高质量数据合成流程，主要包括四个步骤：指令生成、指令进化、回答生成和回答过滤。在指令生成阶段，混元团队使用高质量的数据源作为种子，覆盖多个领域和不同复杂度，确保指令...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...模型能力、训练成本、推理成本、数据集类型等。下面的流程图总结了一些建议，可以帮助你选择合适的LLM适配方法。❌ 预训练预训练是LLM训练的重要组成部分，它使用token预测变量作为损失函数。自监督算法，使得大量数据训...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

大模型新趋势之MoE：现状、挑战及研究方向

...数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势，更适合处理大规模数据和复杂任务，已成谷歌、OpenAI、阿里、腾讯等企业控制成本、提升模型性能、应对大模型“价格战”的新方向。MoE的内涵、...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

大模型观察｜从训练到落地金融业，大模型“升级之路”面临哪些挑

...研大模型LexinGPT目前已经在电销、客服、催收等主要业务流程中全面落地。以电销场景为例，应用AI大模型后，当日授信转化率相对外采技术提高70%、当日下单转化率提升10%；客服业务机器人场景下，机器人参与客服的比例和效...……更多

2024-01-29 21:36:00模型,之路,金融业,落地,观察,训练

微调大模型，AMD MI300X就够了！跟着这篇博客微调Ll

...是其中的一家创业公司，致力于简化 AI 训练集群的搭建流程。Nikhil Sonti 和 Nikhin Sonti 创立了 Felafax，他们的口号是在构建开源 AI 平台，为下一代 AI 硬件服务，将机器学习的训练成本降低 30%。与英伟达相比，AMD 的 GPU，尤其是 MI3...……更多

2024-10-09 09:52:00模型,跟着,博客,模型,参数,训练

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

...种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的，因为它们的构建和部署成本过高。改善成本 - 性能的一种方法是使用稀疏激活混合专...……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练

CPU,正在被AI时代抛弃？

...提高缓存命中率并提升整体性能。通过仔细分析LLM的工作流程并减少不必要的计算开销，该引擎进一步提高了数据重用度和计算效率，特别是在处理Attention机制时，针对不同长度的序列采取了不同的优化算法来确保最高的访存效...……更多

2024-07-11 16:45:00正在,时代,模型,推理,英特,英特尔

GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑

...优越的并行处理能力，一举成为了AI训练和推理的首选。成本然而，高端GPU服务器在市场中经常出现供不应求，极难获取的现象。仅有资金雄厚的科技巨头们，诸如微软、谷歌，才能够承担起这笔费用。另一方面，不仅买不起...……更多

2024-08-02 09:47:00大厂,模型,参数,疯狂,服务器,服务

晶圆级AI芯片WSE-3性能公布：80亿参数模型上每秒生成1

...价是准确性有所损失。不过，仅比较性能，而忽略整体的成本是不公平的对比。毕竟单个晶圆级的WSE-3芯片的成本也远远高于Groq LPU的成本。 ……更多

2024-09-02 13:36:00晶圆,芯片,生成,模型,性能,参数

人均年薪100万，手机厂商数百亿开卷大模型

...的答案，他表示，“vivo大模型现在每年20亿~30亿元的投入成本，总投入成本已经超过200亿元，人才和数据算力各占一半，人才成本平均每人税后100万元。”过去一年，AI大模型席卷整个互联网科技行业，当大模型完成从0到1的基...……更多

2023-12-06 11:40:00年薪,模型,厂商,手机,模型,手机

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...了Phi-3系列模型，其能力水平大致与GPT-3.5相当，但运行的成本却远远低于GPT-3.5。仅仅4个月后，微软又将其轻量级模型的表现提升了一个档次。开发算力要求较低的端侧模型，或许能让微软的AI PC和其它使用Windows系统的设备拥有...……更多

2024-08-22 09:49:00上下文,微软,架构,模型,上下,性能

ChatGPT走红背后：苦熬五年，三次AI路线迭代｜行业观察

...生适合巨头的生意——这从其成本投入上可见一斑。从流程上拆解，构建一个大模型至少需要足够的数据处理、计算和网络能力。拿流程上游的数据处理来说，无监督学习能解决一部分数据标注的成本，但此前的数据收集、数...……更多

2023-02-08 19:19:00迭代,路线,背后,观察,行业,模型

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...性能而获得了前所未有的关注。然而， LLM 的训练和推理成本高昂，人们一直在尝试通过各种优化方法来降低成本。本文来自上海算法创新研究院、北京大学等机构的研究者受人类大脑记忆层次结构的启发，他们通过为 LLM 配备...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

infini-attention：谷歌大内存机制

...入序列长度的增加而增加参数量，能减少内存占用和计算成本。线性注意力机制不同于传统Transformer中的二次方复杂度注意力机制，它能通过更小的计算开销来检索和更新长期记忆。在Infini-attention中，旧的KV状态（{KV}s-1）被存储...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

Llama3训练每3小时崩一次？豆包大模型、港大为脆皮万卡训

...除了频繁的同步开销，也增加了通信与其他 Checkpoint 存储流程的执行重叠度。系统架构下图展示了 ByteCheckpoint 的系统架构：API 层为不同训练框架提供了简单，易用且统一的读取和写入 ( Save ）和读取（ Load ）接口。Planner 层会根...……更多

2024-08-09 09:37:00万卡,训练,豆包,脆皮,大为,模型

掰开安卓手机满屏都是三个字：大模型

...AI软件只需要在里面从设计、优化、部署到分析“走一趟流程”，就能快速转换成在其他操作系统和平台上也可以运行的软件产品。只需要一次开发，甚至是大模型软件的开发，就能让它在多个平台运行，不需要担心适配的问题...……更多

2023-11-16 20:30:00安卓,三个字,模型,三个,手机,模型

用60%成本干80%的事，DeepSeek分享沉淀多年的高性

...不得不扩展更多计算节点。这就导致构建 AI 基础设施的成本不断激增。降低这些成本具有很大的好处，构建成本和能耗高效型计算机集群也就自然成了一个热门的研究方向。近日，DeepSeek（深度求索）发布了一份基于硬件发展的...……更多

2024-09-07 09:44:00高性能,架构,深度,多年,成本,学习

模型即服务，卓世科技MaaS平台 2.0 正式上线

...、ChatGLM2、Llama2、文心一言ERNIE-Bot-Turbo 2、模型开发全流程一站式能力：场景分析、数据增强、模型训练、模型评估、模型测试、模型发布、模型部署 3、低代码方式降低模型开发门槛：通过拖拽的方式，完成训练流程的搭建...……更多

2024-08-07 09:45:00模型,服务,平台,科技,模型,数据

实测苹果M3 Ultra运行DeepSeek R1满血版：速

...Seek R1模型的测试结果，其速度甚至超过了8张A100显卡，而成本却低得多。运行6710亿参数的DeepSeek R1模型通常需要一台搭载6-8张A100的专业级服务器，总价轻松超过百万元这对于普通用户来说几乎是不可能负担的。然而满血版M3 Ultra...……更多

2025-03-12 17:20:00实测,速度,苹果,运行,模型,速度

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，M

...包括RWKV 5和6、RetNet、GLA等。尽管会使生成的计算和内存成本翻倍，但仍然是一个可以接受的权衡，因为RNN的生成成本比Transformer低很多。以上3个是不需要训练的方案，而基于SC是由状态参数过拟合引起的假设，我们也可以尝试使...……更多

2024-11-28 12:03:00长上,清华,下文,团队,状态,作者

比Stable Diffusion便宜118倍！1890美元

...利用延迟掩蔽、MoE、分层扩展等策略，将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱？之前最便宜的方法（Wuerstchen）用了28400美元，而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代，一般人根...……更多

2024-08-13 09:42:00文生,高质量,模型,参数,模型,训练

华为AI存储助力中国移动构建超大规模智算集群

...拷贝和格式免转换，加速数据价值释放，并实现整体拥有成本（TCO）最优。在推理方面使大模型实现从“快思考”到“慢思考”的转化大模型产品具有即时问答的“快思考”能力，让AI变得更“聪明”，就要使其具备逻辑梳理、...……更多

2024-12-19 18:16:00华为,集群,中国,中国移动,存储,规模

高文院士：鹏城实验室已训练3个大模型，今年底将拥有两万多块卡

...们2000亿的模型大概花了5亿人民币，也就是几千万美元的成本，要是万亿模型，那肯定接近10亿人民币或者更多，才能训练好。”高文表示，任何说花很少一点钱就能训练出来，那肯定是做了很多简化，简化以后才能训练出来，...……更多

2024-06-05 13:00:00高文,院士,实验室,模型,训练,实验

Yandex推出开源大语言模型训练工具，称可节省高达20%的

...球科技公司Yandex推出了YaFSDP，这是一种用于训练大型语言模型(LLM)的开源方法。据介绍，YaFSDP是目前在大型语言模型训练中增强图形处理器（GPU）通信并减少内存使用量的公开可用的最有效工具，与FSDP相比，根据架构和参数数量...……更多

2024-06-18 16:13:00处理器,图形,模型,高达,训练,语言

大模型推理乘上RISC-V快车？国内AI芯片创企推大模型系列

...化商业部署的关键是对数据安全，算力自主可控以及部署成本的苛刻要求，RISC-V架构本身的开源、灵活等特性，以及希姆计算联合生态伙伴共同打造的软硬一体国产化方案，成为企业规模化部署大模型的坚实基础。一、大模型焦...……更多

2023-11-15 15:41:00模型,一体机,推理,快车,芯片,一体

新一代aigc技术的发展

...接的状态进行通信。流水线并行流水线并行将模型的计算流程分解为多个阶段，在不同的GPU上以流水线方式并行执行这些阶段。每个GPU处理整体模型计算的特定部分，并将处理结果传递给下一个GPU进行进一步的计算。这种方法可...……更多

2024-02-16 12:06:00新一代,发展,技术,网络,模型,数据

终结数据孤岛！百度智能云亮相TDBC大会：重塑数据与AI的连

...续损耗还不能保障安全;更棘手的是,手工主导的数据治理流程与割裂的技术栈,不但带来成本虚高更让数据价值转化陷入低效循环。这不仅是技术挑战,更是组织协作与成本控制的系统性难题。“真正的数据工程需要构建从数据源...……更多

2025-07-19 21:47:00数据,孤岛,大会,方式,智能,数据

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...读】Time-MoE采用了创新的混合专家架构，能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

英伟达地表最强，黄教主被称作AI界“霉霉”

...虚拟协作和实时逼真模拟而构建。它能够互联整个3D工作流程，将线性流程替换为实时同步创建，无论是企业还是个人创作者，都能够将创意和产品在虚拟世界中进行协作迭代。在今天的GTC上，英伟达宣布，企业级数字孪生和沉...……更多

2024-03-19 11:56:00英伟,地表,教主,英伟,模型,人工智能

page 1/2334 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

微视频｜白石山云端徒步！悬崖咖啡厅打卡绝了

走到白石山巅的尽头，这家建在悬崖边的“云端咖啡厅”绝对让你惊呼。

2025-10-03 11:37:00

“泰康百万药无忧”重磅上市完善院外购药健康防护网

泰康人寿发布新品“泰康百万药无忧（庆典版）医疗保险”（以下‬简称“百万药无忧”），以广覆盖、易投保、强保障、低费率为优势

2025-10-03 09:17:00

厦门市一体化数字资产管理平台获数据治理最佳实践奖

厦门网讯（厦门日报记者翁华鸿通讯员林雨新）在近日举行的2025全球数据管理峰会“数据要素分论坛暨大数据统计与人工智能技术创新管理研讨会”上

2025-10-03 08:38:00

兴趣-实践-视野：达芬奇金奖少年带来的教育启示录

摘要：2025“你是达芬奇”全球青少年科学与艺术创新赛圆满落幕，其中金奖获奖少年的亲身实践告诉我们，在AI赋能的新时代

2025-10-02 16:22:00

单日调用近1万亿次，高德助力北斗规模化民用跨入新量级

2025年10月1日，随着国庆长假首日出行高峰的到来，高德基于北斗卫星导航系统的定位数量接近1万亿次，支撑导航总里程数超90亿公里

2025-10-02 22:31:00

铬铁镍铁利用突破太钢实现降本6800万元

10月1日，从太钢获悉，今年以来，太钢不锈进料加工团队以“精准备案、高效协同”为核心，在进料铬铁镍铁资源利用方面取得突破性进展

2025-10-02 17:39:00

打开“鼓浪屿元宇宙”微信小程序 AI导游带您畅游鼓浪屿

厦门网讯（厦门日报记者林露虹）记者昨日从中国移动咪咕公司获悉，该公司打造的“鼓浪屿AI伴游”服务已正式上线。市民和游客只需打开“鼓浪屿元宇宙”微信小程序

2025-10-02 08:57:00

“中国脑机谷”落户新奥新智感知产业园政企研协同构建脑机接口

河北新闻网讯（张新）9月26日，脑机接口产业联盟首届“脑机接口50人论坛”暨天津脑机接口产业创新发展推进会举办。会上，由新奥集团旗下的天津新智感知科技有限公司

2025-10-01 08:40:00

国网三明供电公司：守护灯火庆华诞主动运维显担当

国网三明供电公司检修人员及时更换损坏器件并调整传动系统并完成设备修复及全套试验。（纪长添摄）东南网10月1日讯 9月28日

2025-10-01 09:19:00

第三届“星瀚杯”法律课公益大赛启动腾讯云提供智能体开发平台

9月26日，由华东政法大学与上海星瀚律师事务所联合主办的第三届“星瀚杯”走进企业的法律课公益大赛正式启动。腾讯云作为大赛的技术支持单位

2025-10-01 09:56:00

平望实小承办吴江区骨干教师（数学）讲学团活动

为进一步发挥吴江区骨干教师的示范和辐射作用，推进课堂教学改革，有效提升教师教学业务能力。2025年9月24日，由苏州市吴江区教师发展中心主办的2025年吴江区骨干教师（数学）讲学团活动在平望实验小学举行

2025-10-01 09:58:00

AI技术让抗战文物“活起来”，人民日报数字传播联合百度推抗战

9月30日，由人民日报数字传播与中国国家博物馆、中国人民大学、百度文心大模型、百度百科联合出品的《80年，80件》智能体和3D文物词条正式上线

2025-10-01 10:00:00

新时达2025工博会圆满落幕 | STEP 2.0战略引领智

2025年9月23日至27日，第二十五届中国国际工业博览会在国家会展中心（上海）盛大举行。新时达以"智拓无界共创未来"为主题

2025-10-01 10:00:00

从课堂到产线，河北工大学子开展智慧物流与“地狼”系统自动化技

河北新闻网讯（胡广涛）组装调试机器人、体验智慧仓储系统、探索自动化技术前沿……近日，河北工业大学人工智能与数据科学学院2022级自动化专业全体学生在廊坊分校

2025-10-01 11:12:00

数字技术活化传统音乐明代魏氏乐虚拟乐器音源全球首发

中国青年报客户端讯（中青报·中青网记者夏瑾）9月30日，由湖州师范学院音乐学院、湖州市音声数据挖掘与智能服务重点实验室主办的“1617系列明代魏氏乐虚拟乐器音源”全球发布会在浙江省杭州市举办

2025-10-01 14:11:00

头条订阅服务