从头,模型,训练,参数,掩蔽,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

清华郑纬民院士：AI for Science的出现，让高性能

...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会：MEET大会是由量子位主办的智能科...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

从0到1：国产化千卡集群的一小步，AI算力主动权的一大步

...。供求关系紧张是产生算力焦虑的根源所在。一方面，大模型训练与推理需求呈几何级数爆发——自2022年以来，人工智能算力需求每3~4个月就翻一番，每年训练AI模型所需算力增幅高达10倍，而生成式AI使上升曲线进一步陡峭，...……更多

2024-04-28 11:52:00小步,主动权,集群,大步,主动,国产

摩尔线程kuae千卡集群正式落地

12月19日消息，摩尔线程今日宣布，首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京成功举办，宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地，大模型智算加速卡MTTS4000也同步发布。...……更多

2023-12-20 06:02:00摩尔,集群,线程,落地,摩尔,线程

直面大模型“大成本”挑战，如何提高算力效率？

...闻网中新网北京6月3日电 (记者夏宾)近年来，为了追求大模型的智慧能力，各国公司不停加码投入，4月，Meta宣布追加10亿美元投资，用于其AI芯片研发和AI数据中心建设；亚马逊为了建设新数据中心投入110亿美元。但在大模型扩...……更多

2024-06-03 14:07:00模型,效率,成本,模型,推理,成本

国产GPU为底座，摩尔线程首个千卡智算中心落地

...2月19日，观察者网了解到，摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京举办，这宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地。与此同时，摩尔线程联合国内众多合作...……更多

2023-12-20 09:46:00摩尔,底座,线程,落地,国产,摩尔

亚马逊开发史上最大文本转语音模型

...能研究团队宣布开发了一个据称是史上最大的文本转语音模型，该模型拥有最多的参数，并使用了最大的训练数据集。研究人员已经在arXiv预印本服务器上发表了一篇论文，详细描述了模型的开发和训练过程。近年来，像ChatGPT这...……更多

2024-02-18 12:49:00开发史,亚马,亚马逊,语音,模型,文本

芯片战场丨瞄准大模型摩尔线程首个千卡智算中心落地

为满足大模型的“暴力”计算需求，国内GPU企业正加码算力基础设施建设。12月19日，摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心落地。据其介绍，这是国内首个以国产全功能GPU为底座的大规模算力集群...……更多

2023-12-20 10:52:00摩尔,线程,落地,战场,芯片,模型

类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究

视频生成模型虽然可以生成一些看似符合常识的视频，但被证实目前还无法理解物理规律！自从 Sora 横空出世，业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示，基于文本提示生...……更多

2024-11-09 09:59:00模型,豆包,系统性,字节,规律,团队

程序员福音英伟达推出AI编程新模型：代码生成、补全、调试样

程序员福音英伟达推出AI编程新模型：代码生成、补全、调试样样精通！快科技2月29日消息，近日英伟达和Hugging Face、ServiceNow一起发布了StarCoder2模型，代码生成、补全、调试样样精通。据介绍，系列模型包括一个ServiceNow训练...……更多

2024-02-29 15:00:00样样精,英伟,代码生成,福音,程序员,生成

林达华谈大模型发展之路：未来会有更高效的模型结构出现

大模型的上下文长度快速增长，超长上下文解锁新应用，但推理计算代价高昂，上下文本身对于信息不会进行压缩，不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一年，人工智能领域风起...……更多

2024-03-25 10:53:00林达,模型,之路,结构,发展,模型

扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶A

...读】DIAMOND是一种新型的强化学习智能体，在一个由扩散模型构建的虚拟世界中进行训练，能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中，DIAMOND的平均得分超越了人类玩家，证明了其在模拟复杂环境中处理细节和进...……更多

2024-11-19 09:49:00模型,训练,小时,学习,世界,模型

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM

【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型，给「超级对齐」指条明路：让AI自己当裁判，自我改进对齐，效果秒杀自我奖励模型。LLM对数据的大量消耗，不仅体现在预训练语料上，还体现在RLHF、DPO等对齐阶段...……更多

2024-08-01 09:40:00三角,进化,模型,奖励,训练,迭代

RNN回归！Bengio新作大道至简与Transformer

...坛。然而，人们并没有忘记RNN。RWKV、Mamba、xLSTM等RNN衍生模型接连出现，欲挑战Transformer之霸主地位。就在近日，又有重量级人物下场——深度学习三巨头之一的Yoshua Bengio，带领团队推出了全新的RNN架构，以大道至简的思想与Tran...……更多

2024-10-26 09:53:00高下,新作,大道,门控,模型,训练

Nature封面：AI训AI 越训越傻

...响随后研究人员评估了模型崩溃对语言模型的影响。由于从头开始训练大模型成本非常高，他们选择评估语言模型最常见的设置：微调设置。每个训练周期都从具有最新数据的预训练模型开始。训练数据来自另一个经过微调的预...……更多

2024-07-28 07:29:00封面,模型,误差,数据,训练,生成

挑战Scaling Law，Meta发布移动端350M小模型

【新智元导读】Scaling Law还没走到尽头，「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列，规模甚至降低到了1B以下，两个版本分别只有125M和350M参数，但却实现了比更大规模模型更优的性能。从5月和6月...……更多

2024-07-23 09:39:00模型,性能,移动,模型,参数,架构

昆仑万维发布开源13B高质量商用大模型领先Llama2和B

10月30日，昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列，并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型：Skywork-13B-Base模型、Skywork-13B-Mat……更多

2023-10-30 15:35:00万维,昆仑,商用,高质量,模型,领先

国内首个以国产全功能GPU为底座的大规模算力集群正式落地

...摩尔线程官方发布通告称，摩尔线程首个全国产千卡千亿模型训练平台，摩尔线程KUAE智算中心揭幕仪式成功举办。此举也代表着，国内首个以国产全功能GPU为底座的大规模算力集群正式落地。摩尔线程CEO张建中表示，摩尔线程...……更多

2023-12-19 18:46:00大规,底座,集群,落地,大规模,国产

清华提出时间序列大模型：面向通用时序分析的生成式Transf

【新智元导读】大模型在语言、图像领域取得了巨大成功，时间序列作为多个行业的重要数据类型，时序领域的大模型构建尚处于起步阶段。近期，清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练，获得...……更多

2024-07-22 09:44:00时间序列,时序,清华,序列,生成,模型

4000亿参数，国产大模型硬刚Llama 3？｜钛媒体AGI

...之后我们进行了转型，在海外大力做平台型业务，经我们从头孵化的大概千万级别DAU的互联网平台有4—5家左右，全部都与内容和社交赛道相关。所以我们一直对于内容生产领域的革新非常关注。在2020年GPT-3发布之后，我们非常...……更多

2024-04-19 16:00:00模型,国产,参数,媒体,天工,模型

贾扬清：大模型尺寸正重走CNN的老路；马斯克：在特斯拉也是这

Transformer大模型尺寸变化，正在重走CNN的老路！看到大家都被LLaMA 3.1吸引了注意力，贾扬清发出如此感慨。拿大模型尺寸的发展，和CNN的发展作对比，就能发现一个明显的趋势和现象：在ImageNet时代，研究人员和技术从业者见证...……更多

2024-08-02 09:47:00特斯,马斯,马斯克,扬清,特斯拉,老路

文生图参数量升至240亿！Playground v3发布：深

【新智元导读】Playground Research推出了新一代文本到图像模型PGv3，具备240亿参数量，采用深度融合的大型语言模型，实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师，同时支持精确的RGB颜色控制和多语言识别。自...……更多

2024-10-08 09:48:00文生,图形设计,深度,图形,人类,参数

微软华人领衔AI²BMD登Nature，AI生物分子模拟双突

...发的AI²BMD（AI-basedabinitiobiomoleculardynamics system，基于AI的从头算生物分子动力学系统）在Nature上发表，这一进展代表着在分子动力学模拟领域的显著突破。论文地址：https://www.nature.com/articles/s41……更多

2024-11-08 09:42:00里程,微软,领衔,里程碑,分子,突破