从头,模型,训练,参数,掩蔽,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

高文院士：鹏城实验室已训练3个大模型，今年底将拥有两万多块卡

...城实验室主任高文发表演讲，分享了鹏城实验室在打造大模型平台上的进展。他表示，大模型训练首先需要一个平台。“现在要想训练一个大模型，需要有几千块卡，甚至上万块卡。”他介绍到，鹏城实验室在2020年就搭建了这...……更多

2024-06-05 13:00:00高文,院士,实验室,模型,训练,实验

小米大模型：不搞军备竞赛

...车、音箱、可穿戴等很多智能硬件上的很多AI算法，我们从头到尾都做过，所以这支抽调而成的团队同时具备算法、数据、工程、产品、测试等大模型建设需要的能力，冷启动时间非常短，很快就能进入快车道。具体地，我们在...……更多

2023-11-08 18:13:00军备,小米,竞赛,模型,模型,小米

中国最大开源MoE模型，255B参数无条件免费商用，元象发布

元象XVERSE发布中国最大MoE开源模型：XVERSE-MoE-A36B，该模型总参数255B，激活参数36B，达到100B模型性能的「跨级」跃升。同时训练时间减少30%，推理性能提升100%，使每token成本大幅下降。在多个权威评测中，元象MoE效果大幅超越多...……更多

2024-09-18 13:36:00中国,商用,模型,参数,模型,专家

大模型观察｜从训练到落地金融业，大模型“升级之路”面临哪些挑

迎着技术风口，2024年将是AI大模型应用的浪潮年。业界认为，大模型将对金融业产生长远的、深刻的影响。1月28日，针对大模型在各业务场景的应用成效、对大模型算力的开发和提升，多机构向北京商报记者透露了自研大模型...……更多

2024-01-29 21:36:00模型,之路,金融业,落地,观察,训练

Yandex推出开源大语言模型训练工具，称可节省高达20%的

...球科技公司Yandex推出了YaFSDP，这是一种用于训练大型语言模型(LLM)的开源方法。据介绍，YaFSDP是目前在大型语言模型训练中增强图形处理器（GPU）通信并减少内存使用量的公开可用的最有效工具，与FSDP相比，根据架构和参数数量...……更多

2024-06-18 16:13:00处理器,图形,模型,高达,训练,语言

小模型正在成为AI界的新宠

大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼（Mustafa Suleyman）预测，仅在未来三年内，大模型规模以惊人的速度继续扩张，将增长 1000 倍。一方面，模型的参数量与其能够处理和学习的复杂性...……更多

2024-06-24 09:42:00新宠,模型,正在,模型,参数,训练

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...家本领，来挤开源赛道，突然发布了市面上最大的开源MoE模型。Hunyuan-Large，3890亿总参数，520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰，上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型，但腾讯...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

微调大模型，AMD MI300X就够了！跟着这篇博客微调Ll

随着 AI 模型的参数量越来越大，对算力的需求也水涨船高。比如最近，Llama-3.1 登上了最强开源大模型的宝座，但超大杯 405B 版本的内存就高达 900 多 GB，这对算力构成了更加苛刻的挑战。如何降低算力的使用成本和使用门槛，...……更多

2024-10-09 09:52:00模型,跟着,博客,模型,参数,训练

大模型新趋势之MoE：现状、挑战及研究方向

2024年，全球主流企业加快推出MoE大模型，1-5月发布千亿以上大模型均采用MoE优化架构，且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势，更适合处理大规模数据和复杂任务，已成谷歌、OpenAI、...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

...转自：中国新闻网6月3日，昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE，性能强劲，同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来，是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE...……更多

2024-06-03 20:59:00万维,昆仑,模型,模型,万维,昆仑

百川智能发布baichuan3稳定语言模型

1月29日，百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中，Baichuan3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

佳都科技：公司自建研发算力中心满足目前主流训练参数量研发训练

...略合作关系，华为云以及昇腾算力产品线同样能为公司大模型的研发提供算力支持，公司目前正在积极与华为对接，展开大模型产品与应用的软硬件解决方案的研发。公司大模型相关产品的研发从规划之初一直采用自主可控的路...……更多

2023-10-18 15:02:00佳都,华为,训练,主流,参数,科技

马斯克旗下人工智能大模型Grok已正式开源

...的副本用于各种目的，包括商业应用。Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家模型，现在可以在其 Github 页面或通过 torrent 链接下载。 Grok 在 Apache License 2.0 下发布，允许商业使用、修改和分发。但是，用户必须...……更多

2024-03-18 09:57:00马斯,马斯克,人工智能,人工,旗下,模型

360智脑7b参数模型采用3.4万亿tokens训练

...12日消息，360公司日前在GitHub上开源了360智脑7B（70亿参数模型）。360智脑大模型采用3.4万亿Tokens的语料库训练，以中文、英文、代码为主，开放4K、32K、360K三种不同文本长度。360表示，360K（约50万字）是当前国产开源模型文本长...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

国内最大智算中心正式投用：每秒690亿亿次浮点运算可训练万

...所有AI加速卡打造成1个集群，用以支持千万亿级参数的大模型进行训练。这个集群智算中心通过先进的智算网络技术把上万块GPU芯片像“积木”一样拼接在一起，大幅提升GPU节点间的通信效率，将数据训练完成时间缩短20%，从而...……更多

2024-08-31 09:34:00浮点,运算,模型,训练,参数,集群

小模型越级挑战14倍参数大模型，谷歌Test-Time端新的

不必增加模型参数，计算资源相同，小模型性能超过比它大14倍的模型！谷歌DeepMind最新研究引发热议，甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法，根...……更多

2024-09-12 09:58:00模型,参数,模型,训练,测试,时计

专家模型不要专家并行！微软开源MoE新路径

...日，来自微软的研究人员开源了使用全新方法训练的MoE大模型，不走寻常路，且编码和数学表现出色。继Phi家族之后，微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头（16 * 3.8B），却采用了截然不同的训练方法...……更多

2024-11-12 09:57:00专家,微软,路径,模型,模型,专家

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附

技术：大模型发展呈现“规模定律”，Transformer为技术基座1.1 大模型“大力出奇迹”的背后：Scaling Law大规模语言模型（Large Language Models，LLM）泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模...……更多

2024-10-21 10:03:00模型,行业报告,新纪元,报告,发展,行业

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...有效性。谷歌对此表示：这样的训练方法，有助于Gemini从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型；而且它的功能在几乎每个领域都是最先进的。具体到模型架构方面，Gemini基于增强的Transformer decoder打造...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

首个多模态连续学习综述，港中文、清华、UIC联合发布

...态连续学习的最新进展连续学习（CL）旨在增强机器学习模型的能力，使其能够不断从新数据中学习，而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘：当任务按顺序训练时，新的任务训练会严重干扰之前...……更多

2024-11-14 09:46:00模态,清华,中文,联合,学习,模态

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...而，构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外，高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日，由来自普林斯顿大学、格里菲斯大学等全球多地的华人国际科...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

amd推出10亿参数语言模型系列amdolmo

...10月31日发布博文，宣布推出首个完全开放的10亿参数语言模型系列AMDOLMo，为开发者和研究人员提供强大的AI研究工具。AMDOLMo模型使用从零开始训练的10亿参数语言模型系列（LMs），在AMDInstinct™MI250GPU集群上训练，使用了超过1.3...……更多

2024-11-09 00:21:00模型,参数,语言,模型,开发者,训练

权威AI开源标准1.0版发布：Llama也不算开源

大模型开源的口号，不是随便说说的。该来的终于来了。本周，人工智能领域迎来了对于「开源」的官方定义。开放源代码促进会（Open Source Initiative，OSI）发布了「开源 AI 定义」的 1.0 正式版。此举旨在澄清 Open Source 这一术语...……更多

2024-10-30 09:52:00权威,标准,数据,模型,系统,训练

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...功完成国内首个基于全国产化万卡集群训练的万亿参数大模型（万卡万参），并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这是由中国电信集团 CTO、首...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

大模型，也需“术业有专攻”

...低，也会带来成本的降低。”周鸿祎说，专业模型不需要从头训练，而是在通用大模型的基础上，加上垂直场景和内部专有知识打造而成。“就像‘小海’，它可以把海工很多内部知识、数据进行整合，使它‘懂’公司的业务，...……更多

2024-04-27 01:38:00术业,模型,模型,周鸿,小海,王章

轻量化模型架构catvton的优势在哪里

...在话下。来自中山大学、Pixocial等机构联合发布轻量化模型架构CatVTON。他们是以StableDiffusionv1.5inpainitng为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、...……更多

2024-08-01 08:52:00架构,模型,优势,模型,训练,模块

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\\\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24

让大模型能快速、准确、高效地吸收新知识！被EMNLP 2024收录的一项新研究，提出了一种检索增强的连续提示学习新方法，可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识，同时不需...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

微软被曝正自研AI大模型：5000亿个参数，与谷歌和Open

...巨头微软或正在研发参数达5000亿的全新AI（人工智能）大模型，将正面叫板谷歌和OpenAI。当地时间5月6日，据外媒报道，微软正在研发一款名为MAI-1的最新AI大模型，其规模远超出微软此前推出的一些开源模型，在性能上或能与谷...……更多

2024-05-07 14:33:00微软,模型,参数,竞争,微软,模型

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...为什么不使用MoE架构？后训练与RLHF流程是如何进行的？模型评估是如何进行的？我们什么时候可以见到Llama 4？Meta是否会发展agent？恰逢Llama 3.1刚刚发布，Meta科学家就现身播客节目Latent Space，秉持着开源分享的精神，对以上问题...……更多

2024-07-29 09:33:00科学家,训练,科学,模型,训练,基准

比LoRA更高效！上交大&哈佛推出新微调框架，瞄准特定任务方

...的潜力，提出新的高效微调方法LoRA-Dash。来看具体内容。从头搭建特定任务方向的框架随着大型语言模型的发展，针对特定任务微调模型往往需要大量计算资源。为了解决这一问题，参数高效微调（PEFT）策略应运而生，像LoRA等...……更多

2024-09-18 09:57:00哈佛,交大,框架,方向,任务,方向

page 2/1334 首页上一页 123 4 5 6 7 下一页末页

更多关于科技的资讯：

苹果iphone17系列样机曝光：背部三摄排列不变

1月2日，数码博主@数码闲聊站透露了苹果iPhone17系列样机的一些细节。他说，新机背部设计引入了一个横向的大矩阵玻璃装饰

2025-01-03 10:44:00

大模型行业资本暗流涌动，10亿元融资成入局门槛？

2024年，大模型发展势头依旧强劲，能力边界不断突破，不仅强化了自然语言处理能力，还在文生视频、辅助编程、数学推理等复杂领域攻城略地

2025-01-03 10:45:00

又添5城！万师傅“当日装”服务深度赋能行业提速

近日，万师傅“当日装”服务新增上线成都、杭州、南京、苏州、天津5座城市，覆盖家具、卫浴领域等多个品类，即时解决用户紧急安装需求

2025-01-03 10:45:00

鑫住工乡墅全面升级供应链，打造全渠道高效建材方案

随着供应链全渠道时代的到来，市场需求变动迅速，企业要想在激烈的竞争中脱颖而出，必须具备强大的供应链整合能力。 (鑫住工乡墅&

2025-01-03 10:45:00

解锁海创汇2024关键词——自生长、赋能、未来

本文转自：人民网-山东频道时光流转，2024年已然落下帷幕。这一年，是科技迅速更迭与创新力量涌现的年份。置身于这一变革大潮中

2025-01-03 11:03:00

华为云HCDG城市行2024全国收官之作桂林站圆满结束

本文转自：人民网-广西频道参会人员合影。华为云供图2024年12月29日，华为云HCDG城市行·桂林站——“鸿蒙开启国产操作系统新纪元与开发者的新机遇”技术沙龙在桂林华为信息产业生态合作区青网科技园圆满举办

2025-01-03 11:05:00

巅峰一号避孕套：品质之巅，愉悦之源

巅峰一号避孕套：品质之巅，愉悦之源在两性健康领域，避孕套一直是备受关注的重要产品。而巅峰一号避孕套以其卓越的品质、独特的设计和出色的性能

2025-01-03 11:06:00

美媒：无需连接手机即可干预吸烟行为，智能手表应用程序成“戒烟

本文转自：环球时报【环球时报综合报道】据雅虎新闻网1日报道，一款新开发的智能手表应用程序将成为“戒烟助手”，无需连接手机就能进行自动提醒

2025-01-03 11:07:00

国家数据局发布首批数据领域常用名词解释

本文转自：人民网人民网北京1月3日电（记者许维娜）记者从国家数据局了解到，为凝聚广泛共识，推动数据领域相关知识的规范普及

2025-01-03 11:13:00

用生态产业链助力家装行业共同走进AI时代

□ 本报记者陆俊2024第十届土巴兔生态大会近日在四川成都隆重开幕。2024年的土巴兔生态大会以“数智驱动生态共赢”为主题

2025-01-03 11:13:00

合资轿车价格崩了！广汽本田雅阁裸车已降到11万多

快科技1月3日消息，据懂车帝报道，广汽本田4S店销售向其介绍，最低配的本田雅阁指导价17.98万元，现在优惠6万多元，优惠完裸车价只要11万多

2025-01-03 11:14:00

美国一小型飞机撞上建筑物：现场升起蘑菇云已致2死多伤

快科技1月3日消息，据报道，当地时间1月2日，美国加利福尼亚州，一架小型飞机坠毁致两人死亡数十人受伤。事发时监控显示，一架小型飞机快速坠落至建筑物房顶

2025-01-03 11:14:00

让更多人“当狗”：日本扮狗男子建立扮狗动物园

快科技1月3日消息，据《纽约邮报》近日报道，日本男子托科此前花了200万日元（约合人民币10万元）定制真人大小的牧羊犬布偶装

2025-01-03 11:14:00

探寻吸油烟机产业的破局之路

□ 双木近年来，全球经济形势复杂多变，国内处于结构调整转型的关键期，同时受到房地产低迷的影响，厨电产业发展面临着一定的压力

2025-01-03 11:14:00

清华大学：92%毕业生在国内工作出国深造的大多数已回国

1月3日消息，近日，2024届清华毕业生就业数据新鲜出炉，揭示了这一届学子的职业选择趋势与动向。根据官方数据，2024届清华毕业生中

2025-01-03 11:14:00

头条订阅服务