模型,模型,数据,内存,性能,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

大模型新趋势之MoE：现状、挑战及研究方向

2024年，全球主流企业加快推出MoE大模型，1-5月发布千亿以上大模型均采用MoE优化架构，且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势，更适合处理大规模数据和复杂任务，已成谷歌、OpenAI、...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

Llama3训练每3小时崩一次？豆包大模型、港大为脆皮万卡训

伴随大模型迭代速度越来越快，训练集群规模越来越大，高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点，检查点（Checkpoint）系统在训练过程中负责状态的存储和恢复，已经成为克服训练故障、保障训练进度和提...……更多

2024-08-09 09:37:00万卡,训练,豆包,脆皮,大为,模型

zyphra推出zamba2-mini1.2b模型

...29日消息，Zyphra于8月27日发布博文，宣布推出Zamba2-mini1.2B模型，共有12亿参数，声称是端侧SOTA小语言模型，在4bit量化下内存占用低于700MB。IT之家注：SOTA全称为state-of-the-art，并不是特指某个具体的模型，而是指在该项研究任务中...……更多

2024-08-30 05:47:00模型,模型,数据,内存,性能,训练

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

Mamba再次挑战霸主Transformer！首个通用Mam

【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的...……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

...Alignment。3. 黄灿：厦门大学数学系副教授随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推...……更多

2024-10-10 09:56:00框架,优势,统一,综合,模型,奖励

CPU,正在被AI时代抛弃？

...对话可以通过语音识别技术被录入到病例系统中，随后大模型AI推理技术辅助进行智能总结和诊断，医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间，也保护了患者隐私；在法院、律所等业务场景中，律师通过大...……更多

2024-07-11 16:45:00正在,时代,模型,推理,英特,英特尔

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的，因为它们的构建...……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练

GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑

【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了！马斯克19天建成由10万块H100串联的世界最大超算，已全力投入Grok 3的训练中。与此同时，外媒爆料称，OpenAI和微软联手打造的下一个超算集群，将由10万块GB200组成。...……更多

2024-08-02 09:47:00大厂,模型,参数,疯狂,服务器,服务

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...东西8月21日消息，今天，微软一口气甩出3款超强轻量级模型！微软本次发布的轻量级模型系列名为Phi-3.5，适合在内存和算力受限的环境中运行，均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务，Phi-3.5-MoE-instru...……更多

2024-08-22 09:49:00上下文,微软,架构,模型,上下,性能

超擎数智重磅发布擎天、锋锐、元景系列AI服务器，打造人工智能

...U可提供200G带宽,大大提高工作效率,能够充分满足AI推理、模型微调和高性能计算过程中的强大算力需求。强大性能:采用 AMD EPYC 9004处理器提供了高达 64个核心和 128个线程,适合处理需要大量并行处理能力的任务,如数据分析、科学...……更多

2024-04-28 14:05:00人工智能,重磅,生产力,人工,服务器,引擎

图灵奖得主Yoshua Bengio新作：Were RNNs

自从 Transformer 模型问世以来，试图挑战其在自然语言处理地位的挑战者层出不穷。这次登场的选手，不仅要挑战 Transformer 的地位，还致敬了经典论文的名字。再看这篇论文的作者列表，图灵奖得主、深度学习三巨头之一的 Yoshu...……更多

2024-10-15 09:56:00图灵奖,图灵,得主,新作,序列,训练

最强大模型训练芯片H200发布！

...联技术，可以以最高性能运行各种应用负载，包括175B大模型的训练和推理。HGX板的独立性质使其能够插入合适的主机系统，从而允许使用者定制其高端服务器的非GPU部分。接下来是QuadGH200超算节点——它由4个GH200组成，而GH200是...……更多

2023-11-14 20:51:00芯片,模型,训练,英伟,内存,节点

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...开的彻彻底底。这不，Meta一连放出三篇技术文章，从大模型适配方法出发，介绍了：如何使用特定领域数据微调LLM，如何确定微调适配自己的用例，以及如何管理良好训练数据集的经验法则。接下来，直接进入正题。适配大模...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

晶圆级AI芯片WSE-3性能公布：80亿参数模型上每秒生成1

...上一代WSE-2的两倍，可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上，Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示，WSE-3依然是采用了一整张12英寸晶圆来制作，基于台积电5nm制...……更多

2024-09-02 13:36:00晶圆,芯片,生成,模型,性能,参数

非Transformer架构站起来了!首个纯无注意力大模型,

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练