从头,模型,训练,参数,掩蔽,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

高文院士：鹏城实验室已训练3个大模型，今年底将拥有两万多块卡

...城实验室主任高文发表演讲，分享了鹏城实验室在打造大模型平台上的进展。他表示，大模型训练首先需要一个平台。“现在要想训练一个大模型，需要有几千块卡，甚至上万块卡。”他介绍到，鹏城实验室在2020年就搭建了这...……更多

2024-06-05 13:00:00高文,院士,实验室,模型,训练,实验

小米大模型：不搞军备竞赛

...车、音箱、可穿戴等很多智能硬件上的很多AI算法，我们从头到尾都做过，所以这支抽调而成的团队同时具备算法、数据、工程、产品、测试等大模型建设需要的能力，冷启动时间非常短，很快就能进入快车道。具体地，我们在...……更多

2023-11-08 18:13:00军备,小米,竞赛,模型,模型,小米

中国最大开源MoE模型，255B参数无条件免费商用，元象发布

元象XVERSE发布中国最大MoE开源模型：XVERSE-MoE-A36B，该模型总参数255B，激活参数36B，达到100B模型性能的「跨级」跃升。同时训练时间减少30%，推理性能提升100%，使每token成本大幅下降。在多个权威评测中，元象MoE效果大幅超越多...……更多

2024-09-18 13:36:00中国,商用,模型,参数,模型,专家

大模型观察｜从训练到落地金融业，大模型“升级之路”面临哪些挑

迎着技术风口，2024年将是AI大模型应用的浪潮年。业界认为，大模型将对金融业产生长远的、深刻的影响。1月28日，针对大模型在各业务场景的应用成效、对大模型算力的开发和提升，多机构向北京商报记者透露了自研大模型...……更多

2024-01-29 21:36:00模型,之路,金融业,落地,观察,训练

Yandex推出开源大语言模型训练工具，称可节省高达20%的

...球科技公司Yandex推出了YaFSDP，这是一种用于训练大型语言模型(LLM)的开源方法。据介绍，YaFSDP是目前在大型语言模型训练中增强图形处理器（GPU）通信并减少内存使用量的公开可用的最有效工具，与FSDP相比，根据架构和参数数量...……更多

2024-06-18 16:13:00处理器,图形,模型,高达,训练,语言

小模型正在成为AI界的新宠

大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼（Mustafa Suleyman）预测，仅在未来三年内，大模型规模以惊人的速度继续扩张，将增长 1000 倍。一方面，模型的参数量与其能够处理和学习的复杂性...……更多

2024-06-24 09:42:00新宠,模型,正在,模型,参数,训练

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...家本领，来挤开源赛道，突然发布了市面上最大的开源MoE模型。Hunyuan-Large，3890亿总参数，520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰，上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型，但腾讯...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

微调大模型，AMD MI300X就够了！跟着这篇博客微调Ll

随着 AI 模型的参数量越来越大，对算力的需求也水涨船高。比如最近，Llama-3.1 登上了最强开源大模型的宝座，但超大杯 405B 版本的内存就高达 900 多 GB，这对算力构成了更加苛刻的挑战。如何降低算力的使用成本和使用门槛，...……更多

2024-10-09 09:52:00模型,跟着,博客,模型,参数,训练

大模型新趋势之MoE：现状、挑战及研究方向

2024年，全球主流企业加快推出MoE大模型，1-5月发布千亿以上大模型均采用MoE优化架构，且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势，更适合处理大规模数据和复杂任务，已成谷歌、OpenAI、...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

...转自：中国新闻网6月3日，昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE，性能强劲，同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来，是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE...……更多

2024-06-03 20:59:00万维,昆仑,模型,模型,万维,昆仑

百川智能发布baichuan3稳定语言模型

1月29日，百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中，Baichuan3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

佳都科技：公司自建研发算力中心满足目前主流训练参数量研发训练

...略合作关系，华为云以及昇腾算力产品线同样能为公司大模型的研发提供算力支持，公司目前正在积极与华为对接，展开大模型产品与应用的软硬件解决方案的研发。公司大模型相关产品的研发从规划之初一直采用自主可控的路...……更多

2023-10-18 15:02:00佳都,华为,训练,主流,参数,科技

马斯克旗下人工智能大模型Grok已正式开源

...的副本用于各种目的，包括商业应用。Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家模型，现在可以在其 Github 页面或通过 torrent 链接下载。 Grok 在 Apache License 2.0 下发布，允许商业使用、修改和分发。但是，用户必须...……更多

2024-03-18 09:57:00马斯,马斯克,人工智能,人工,旗下,模型

360智脑7b参数模型采用3.4万亿tokens训练

...12日消息，360公司日前在GitHub上开源了360智脑7B（70亿参数模型）。360智脑大模型采用3.4万亿Tokens的语料库训练，以中文、英文、代码为主，开放4K、32K、360K三种不同文本长度。360表示，360K（约50万字）是当前国产开源模型文本长...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

国内最大智算中心正式投用：每秒690亿亿次浮点运算可训练万

...所有AI加速卡打造成1个集群，用以支持千万亿级参数的大模型进行训练。这个集群智算中心通过先进的智算网络技术把上万块GPU芯片像“积木”一样拼接在一起，大幅提升GPU节点间的通信效率，将数据训练完成时间缩短20%，从而...……更多

2024-08-31 09:34:00浮点,运算,模型,训练,参数,集群

小模型越级挑战14倍参数大模型，谷歌Test-Time端新的

不必增加模型参数，计算资源相同，小模型性能超过比它大14倍的模型！谷歌DeepMind最新研究引发热议，甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法，根...……更多

2024-09-12 09:58:00模型,参数,模型,训练,测试,时计

专家模型不要专家并行！微软开源MoE新路径

...日，来自微软的研究人员开源了使用全新方法训练的MoE大模型，不走寻常路，且编码和数学表现出色。继Phi家族之后，微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头（16 * 3.8B），却采用了截然不同的训练方法...……更多

2024-11-12 09:57:00专家,微软,路径,模型,模型,专家

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附

技术：大模型发展呈现“规模定律”，Transformer为技术基座1.1 大模型“大力出奇迹”的背后：Scaling Law大规模语言模型（Large Language Models，LLM）泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模...……更多

2024-10-21 10:03:00模型,行业报告,新纪元,报告,发展,行业

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...有效性。谷歌对此表示：这样的训练方法，有助于Gemini从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型；而且它的功能在几乎每个领域都是最先进的。具体到模型架构方面，Gemini基于增强的Transformer decoder打造...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

首个多模态连续学习综述，港中文、清华、UIC联合发布

...态连续学习的最新进展连续学习（CL）旨在增强机器学习模型的能力，使其能够不断从新数据中学习，而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘：当任务按顺序训练时，新的任务训练会严重干扰之前...……更多

2024-11-14 09:46:00模态,清华,中文,联合,学习,模态

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...而，构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外，高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日，由来自普林斯顿大学、格里菲斯大学等全球多地的华人国际科...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

amd推出10亿参数语言模型系列amdolmo

...10月31日发布博文，宣布推出首个完全开放的10亿参数语言模型系列AMDOLMo，为开发者和研究人员提供强大的AI研究工具。AMDOLMo模型使用从零开始训练的10亿参数语言模型系列（LMs），在AMDInstinct™MI250GPU集群上训练，使用了超过1.3...……更多

2024-11-09 00:21:00模型,参数,语言,模型,开发者,训练

权威AI开源标准1.0版发布：Llama也不算开源

大模型开源的口号，不是随便说说的。该来的终于来了。本周，人工智能领域迎来了对于「开源」的官方定义。开放源代码促进会（Open Source Initiative，OSI）发布了「开源 AI 定义」的 1.0 正式版。此举旨在澄清 Open Source 这一术语...……更多

2024-10-30 09:52:00权威,标准,数据,模型,系统,训练

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...功完成国内首个基于全国产化万卡集群训练的万亿参数大模型（万卡万参），并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这是由中国电信集团 CTO、首...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

大模型，也需“术业有专攻”

...低，也会带来成本的降低。”周鸿祎说，专业模型不需要从头训练，而是在通用大模型的基础上，加上垂直场景和内部专有知识打造而成。“就像‘小海’，它可以把海工很多内部知识、数据进行整合，使它‘懂’公司的业务，...……更多

2024-04-27 01:38:00术业,模型,模型,周鸿,小海,王章

轻量化模型架构catvton的优势在哪里

...在话下。来自中山大学、Pixocial等机构联合发布轻量化模型架构CatVTON。他们是以StableDiffusionv1.5inpainitng为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、...……更多

2024-08-01 08:52:00架构,模型,优势,模型,训练,模块

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\\\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24

让大模型能快速、准确、高效地吸收新知识！被EMNLP 2024收录的一项新研究，提出了一种检索增强的连续提示学习新方法，可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识，同时不需...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

微软被曝正自研AI大模型：5000亿个参数，与谷歌和Open

...巨头微软或正在研发参数达5000亿的全新AI（人工智能）大模型，将正面叫板谷歌和OpenAI。当地时间5月6日，据外媒报道，微软正在研发一款名为MAI-1的最新AI大模型，其规模远超出微软此前推出的一些开源模型，在性能上或能与谷...……更多

2024-05-07 14:33:00微软,模型,参数,竞争,微软,模型

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...为什么不使用MoE架构？后训练与RLHF流程是如何进行的？模型评估是如何进行的？我们什么时候可以见到Llama 4？Meta是否会发展agent？恰逢Llama 3.1刚刚发布，Meta科学家就现身播客节目Latent Space，秉持着开源分享的精神，对以上问题...……更多

2024-07-29 09:33:00科学家,训练,科学,模型,训练,基准

比LoRA更高效！上交大&哈佛推出新微调框架，瞄准特定任务方

...的潜力，提出新的高效微调方法LoRA-Dash。来看具体内容。从头搭建特定任务方向的框架随着大型语言模型的发展，针对特定任务微调模型往往需要大量计算资源。为了解决这一问题，参数高效微调（PEFT）策略应运而生，像LoRA等...……更多

2024-09-18 09:57:00哈佛,交大,框架,方向,任务,方向

page 2/1334 首页上一页 123 4 5 6 7 下一页末页

更多关于科技的资讯：

买奥迪当嫁妆两个月无法提车 4S店：合格证在银行所有车都卖

快科技2月12日消息，据报道，浙江绍兴周女士介绍，去年12月8日，家里人在绍兴宏奥4S店，花费22.6万多给她外甥女购买了一辆奥迪A4L

2025-02-12 19:19:00

2.7万条三文鱼“出逃” 海产品公司竟以每条325元悬赏抓捕

快科技2月12日消息，据媒体报道，近日，总部位于挪威的全球知名海产品公司美威正在重金悬赏抓捕“出逃”的2.7万条三文鱼

2025-02-12 19:19:00

美味的深海怪物！一鮟鱇鱼海面游泳被人类偶遇：着实罕见

快科技2月12日消息，在常年见不到阳光的海洋深处，其实也生活着不少的动物，其中大多数长相丑陋，毕竟也见不到什么人，就随便长长算了

2025-02-12 19:19:00

23岁小伙两个月减肥40斤致秃头：不吃任何碳水化合物

2月12日消息，据媒体报道，宁波一名小伙遇到了“脱发危机”。据小伙介绍，他体重200斤，决心依靠“管住嘴”来减重，几乎不碰油脂

2025-02-12 19:19:00

最高频率近3.3GHz！索泰RTX 5080 AMP EXT

一、前言：支持双BIOS的索泰RTX 5080次旗舰1月29日，RTX 5080正式解禁，在实际功耗比上代RTX 4080低了近10%的情况下

2025-02-12 19:49:00

山东登上《哪吒2》全国各省票房榜第一名网友：山东人不语只是

2月12日消息，据媒体报道，截至2月12日11时，《哪吒2》全国各省份票房数据显示，山东登上全国第一位。对此，有网友表示

2025-02-12 19:49:00

ABC比基尼安睡裤卫生巾被抵制官方回应：非新品去年已停止

快科技2月12日消息，日前，ABC一款“比基尼安睡裤”卫生巾新品引发热议。有网友认为，该产品为“经期性感”牺牲舒适度，比基尼式还有偷工减料的嫌疑

2025-02-12 19:49:00

如何理解引力波效应？《张朝阳的物理课》推导测地偏离方程

上次物理课已讲完引力波的挤压模式和摇摆模式，本次物理课从测地线方程推导出弱场慢速近似下的形变方程。2月9日12时，《张朝阳的物理课》第二百三十三期开播

2025-02-12 19:56:00

江西定南：开足马力忙生产

本文转自：人民网-江西频道在生产车间内，智能“下片”机器人在抓取生产的光伏玻璃产品。近日，在位于定南县老城镇的赣悦新材料有限公司生产车间内

2025-02-12 20:04:00

雷军元宵节宴请SU7 Ultra车主称不少宝马Mpower

快科技2月12日消息，雷军元宵节直播时宴请了几位小米SU7 Ultra车主。在得知该用户是宝马M5车主后雷军表示：“不少宝马Mpower车主选择我们”

2025-02-12 20:19:00

真的不要久坐了这个位置会凹陷！2个方式改善

每次看到别人的蜜桃臀，都十分羡慕，毕竟不少人都是“趴趴臀”“方方臀”。而臀部不美观的一个关键因素，其实就是——臀部两侧的凹陷

2025-02-12 20:19:00

RTX 5090D最佳平替！AMD RX 9070 XT将有

快科技2月12日消息，AMD RX 9070系列虽然是这一代的最高端，但其实是个主流芯片，定位相当于上代的RX 7800系列

2025-02-12 20:19:00

雷军谈为什么要做大规模驾驶培训：上过几次墙才会对速度敬畏

快科技2月12日消息，在今晚的元宵节直播中，小米创始人、董事长雷军探讨了为何要大规模开展驾驶培训。雷军强调：一定要敬畏速度

2025-02-12 20:49:00

RTX 5070被曝推迟至3月初！跟AMD玩猫抓老鼠

快科技2月12日消息，NVIDIA、AMD的新一代显卡不是你追我赶，而是你躲我藏，似乎都想让对手先出招，然后伺机而动，尤其是在对位产品上

2025-02-12 20:50:00

暴雪前CEO考迪克后悔制作《魔兽世界》电影：最差烂片之一

2016 年是许多《魔兽世界》老玩家十分开心的一年，他们奔赴电影院，穿着联盟或是部落的衣服（甚至是化妆），来一场“线下真实”

2025-02-12 20:50:00

头条订阅服务