新宠,模型,正在,模型,参数,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

小模型正在成为AI界的新宠

...的能力和效用。”风向在转变，小模型正在成为 AI 界的新宠。尽管参数规模较小，却在成本、性能和实用性方面具备优势 —— 占内存小、反应速度快、可以本地化运行。不久前，微软研究院推出了新一代小型语言模型系列 Phi-3...……更多

2024-06-24 09:42:00新宠,模型,正在,模型,参数,训练

苹果300亿参数大模型首亮相，还买了家AI公司｜焦点分析

...武静静编辑｜邓咏仪放弃造车后的苹果，正在加速入局大模型战争。当地时间3月15日，苹果就披露了两个关键大模型动作。其中一个值得关注的是苹果的收购事件。彭博社报道称，苹果已经收购了一家加拿大AI初创公司DarwinAI。...……更多

2024-03-16 18:14:00模型,苹果,参数,焦点,分析,公司

微软被曝正自研AI大模型：5000亿个参数，与谷歌和Open

...巨头微软或正在研发参数达5000亿的全新AI（人工智能）大模型，将正面叫板谷歌和OpenAI。当地时间5月6日，据外媒报道，微软正在研发一款名为MAI-1的最新AI大模型，其规模远超出微软此前推出的一些开源模型，在性能上或能与谷...……更多

2024-05-07 14:33:00微软,模型,参数,竞争,微软,模型

垂直大模型竞争，能突破数据“卡点”吗？

AI大模型火遍全球，中国产业也激发了对人工智能应用的新热情。随着各大厂商参与竞逐，市场正在分化为通用与垂直两大路径，两者在参数级别、应用场景、商业模式等方面差异已逐步显现。01 企业涌入垂直大模型赛道通用AI...……更多

2023-05-19 14:01:00模型,突破,竞争,数据,模型,数据

高文院士：鹏城实验室已训练3个大模型，今年底将拥有两万多块卡

...城实验室主任高文发表演讲，分享了鹏城实验室在打造大模型平台上的进展。他表示，大模型训练首先需要一个平台。“现在要想训练一个大模型，需要有几千块卡，甚至上万块卡。”他介绍到，鹏城实验室在2020年就搭建了这...……更多

2024-06-05 13:00:00高文,院士,实验室,模型,训练,实验

人均年薪100万，手机厂商数百亿开卷大模型

端侧大模型正在成为手机行业创新的新增量。文｜《中国企业家》记者赵东山编辑｜李薇头图来源｜视觉中国人均年薪100万，什么样的行业具备如此优渥的待遇？答案是AI大模型。这是vivo副总裁周围接受《中国企业家》等媒体...……更多

2023-12-06 11:40:00年薪,模型,厂商,手机,模型,手机

不写代码、靠“玩” ChatGPT 年入百万，提示工程师正变

一个阳光明媚的早晨，住在旧金山的软件工程师 Anna 像往常一样，坐在电脑前，打开 ChatGPT，输入 " 帮我规划我的一天 "。ChatGPT 回答 " 当然可以！"，随机给出从早上到晚上的日程计划，并提示 " 你可以根据自己的情况进行调整...……更多

2023-04-12 23:00:00硅谷,新宠,提示,工程师,代码,工程

Yandex推出开源大语言模型训练工具，称可节省高达20%的

...球科技公司Yandex推出了YaFSDP，这是一种用于训练大型语言模型(LLM)的开源方法。据介绍，YaFSDP是目前在大型语言模型训练中增强图形处理器（GPU）通信并减少内存使用量的公开可用的最有效工具，与FSDP相比，根据架构和参数数量...……更多

2024-06-18 16:13:00处理器,图形,模型,高达,训练,语言

chatgpt低成本复现流程开源

首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需1.62GB显存，随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch，单机训练速度最高...……更多

2023-02-15 15:47:00流程,成本,模型,训练,内存,参数

阿里Qwen3登顶全球最强开源模型，用8款模型夺回中国AI话

出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型，阿里通义又上新！4月29日一大早，阿里开源发布Qwen3，包括两款MoE（混合专家架构）模型，其中具备2350亿参数规模的Qwen3-235B-A22B，在对比测试中成为目前最强大的开...……更多

2025-04-29 16:17:00模型,阿里,话语权,中国,话语,全球

贾扬清：大模型尺寸正重走CNN的老路；马斯克：在特斯拉也是这

Transformer大模型尺寸变化，正在重走CNN的老路！看到大家都被LLaMA 3.1吸引了注意力，贾扬清发出如此感慨。拿大模型尺寸的发展，和CNN的发展作对比，就能发现一个明显的趋势和现象：在ImageNet时代，研究人员和技术从业者见证...……更多

2024-08-02 09:47:00特斯,马斯,马斯克,扬清,特斯拉,老路

chatgpt低成本复现流程来了

首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需 1.62GB 显存，随便一张消费级显卡都能满足了。单卡模型容量最多提升 10.3倍。相比原生PyTorch，单机训练速度最...……更多

2023-02-17 14:37:00流程,成本,模型,训练,内存,参数

大模型观察｜从训练到落地金融业，大模型“升级之路”面临哪些挑

迎着技术风口，2024年将是AI大模型应用的浪潮年。业界认为，大模型将对金融业产生长远的、深刻的影响。1月28日，针对大模型在各业务场景的应用成效、对大模型算力的开发和提升，多机构向北京商报记者透露了自研大模型...……更多

2024-01-29 21:36:00模型,之路,金融业,落地,观察,训练

大模型新趋势之MoE：现状、挑战及研究方向

2024年，全球主流企业加快推出MoE大模型，1-5月发布千亿以上大模型均采用MoE优化架构，且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势，更适合处理大规模数据和复杂任务，已成谷歌、OpenAI、...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

商汤如何玩转大模型+大算力？详解“日日新SenseNova”

出品 | 搜狐科技作者 | 梁昌均在ChatGPT引发的大模型和生成式AI热潮下，国内AI公司商汤科技也秀出自家肌肉。在4月10日下午的技术交流日上，商汤正式发布“日日新SenseNova”大模型体系。这一大模型体系的名称取自《礼记·大学...……更多

2023-04-14 14:00:00商汤,模型,体系,关键,模型,商汤

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...为什么不使用MoE架构？后训练与RLHF流程是如何进行的？模型评估是如何进行的？我们什么时候可以见到Llama 4？Meta是否会发展agent？恰逢Llama 3.1刚刚发布，Meta科学家就现身播客节目Latent Space，秉持着开源分享的精神，对以上问题...……更多

2024-07-29 09:33:00科学家,训练,科学,模型,训练,基准

谷歌没开源的 PaLM，网友给开源了

...了。昨天，一位开发者在GitHub上开源了三种微缩版的PaLM模型：参数分别为1.5亿（PalM-150m），4.1亿（PalM-410m）和10亿（PalM-1b）。项目地址：https://github.com/ conceptofmind/PaLM这三种模型在谷歌C4数据集进行了训练，上……更多

2023-05-13 17:42:00网友,模型,训练,数据,生成,脚本