模型,模型,数据,内存,性能,训练头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

大模型新趋势之MoE：现状、挑战及研究方向

2024年，全球主流企业加快推出MoE大模型，1-5月发布千亿以上大模型均采用MoE优化架构，且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势，更适合处理大规模数据和复杂任务，已成谷歌、OpenAI、...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

Llama3训练每3小时崩一次？豆包大模型、港大为脆皮万卡训

伴随大模型迭代速度越来越快，训练集群规模越来越大，高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点，检查点（Checkpoint）系统在训练过程中负责状态的存储和恢复，已经成为克服训练故障、保障训练进度和提...……更多

2024-08-09 09:37:00万卡,训练,豆包,脆皮,大为,模型

chatgpt低成本复现流程开源

首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需1.62GB显存，随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch，单机训练速度最高...……更多

2023-02-15 15:47:00流程,成本,模型,训练,内存,参数

zyphra推出zamba2-mini1.2b模型

...29日消息，Zyphra于8月27日发布博文，宣布推出Zamba2-mini1.2B模型，共有12亿参数，声称是端侧SOTA小语言模型，在4bit量化下内存占用低于700MB。IT之家注：SOTA全称为state-of-the-art，并不是特指某个具体的模型，而是指在该项研究任务中...……更多

2024-08-30 05:47:00模型,模型,数据,内存,性能,训练

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

Mamba再次挑战霸主Transformer！首个通用Mam

【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的...……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

...Alignment。3. 黄灿：厦门大学数学系副教授随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推...……更多

2024-10-10 09:56:00框架,优势,统一,综合,模型,奖励

CPU,正在被AI时代抛弃？

...对话可以通过语音识别技术被录入到病例系统中，随后大模型AI推理技术辅助进行智能总结和诊断，医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间，也保护了患者隐私；在法院、律所等业务场景中，律师通过大...……更多

2024-07-11 16:45:00正在,时代,模型,推理,英特,英特尔

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的，因为它们的构建...……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练

GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑

【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了！马斯克19天建成由10万块H100串联的世界最大超算，已全力投入Grok 3的训练中。与此同时，外媒爆料称，OpenAI和微软联手打造的下一个超算集群，将由10万块GB200组成。...……更多

2024-08-02 09:47:00大厂,模型,参数,疯狂,服务器,服务

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...东西8月21日消息，今天，微软一口气甩出3款超强轻量级模型！微软本次发布的轻量级模型系列名为Phi-3.5，适合在内存和算力受限的环境中运行，均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务，Phi-3.5-MoE-instru...……更多

2024-08-22 09:49:00上下文,微软,架构,模型,上下,性能

超擎数智重磅发布擎天、锋锐、元景系列AI服务器，打造人工智能

...U可提供200G带宽,大大提高工作效率,能够充分满足AI推理、模型微调和高性能计算过程中的强大算力需求。强大性能:采用 AMD EPYC 9004处理器提供了高达 64个核心和 128个线程,适合处理需要大量并行处理能力的任务,如数据分析、科学...……更多

2024-04-28 14:05:00人工智能,重磅,生产力,人工,服务器,引擎

图灵奖得主Yoshua Bengio新作：Were RNNs

自从 Transformer 模型问世以来，试图挑战其在自然语言处理地位的挑战者层出不穷。这次登场的选手，不仅要挑战 Transformer 的地位，还致敬了经典论文的名字。再看这篇论文的作者列表，图灵奖得主、深度学习三巨头之一的 Yoshu...……更多

2024-10-15 09:56:00图灵奖,图灵,得主,新作,序列,训练

最强大模型训练芯片H200发布！

...联技术，可以以最高性能运行各种应用负载，包括175B大模型的训练和推理。HGX板的独立性质使其能够插入合适的主机系统，从而允许使用者定制其高端服务器的非GPU部分。接下来是QuadGH200超算节点——它由4个GH200组成，而GH200是...……更多

2023-11-14 20:51:00芯片,模型,训练,英伟,内存,节点

晶圆级AI芯片WSE-3性能公布：80亿参数模型上每秒生成1

...上一代WSE-2的两倍，可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上，Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示，WSE-3依然是采用了一整张12英寸晶圆来制作，基于台积电5nm制...……更多

2024-09-02 13:36:00晶圆,芯片,生成,模型,性能,参数

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...开的彻彻底底。这不，Meta一连放出三篇技术文章，从大模型适配方法出发，介绍了：如何使用特定领域数据微调LLM，如何确定微调适配自己的用例，以及如何管理良好训练数据集的经验法则。接下来，直接进入正题。适配大模...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

非Transformer架构站起来了!首个纯无注意力大模型,

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，M

【新智元导读】RNN模型在长上下文中表现不佳？近日，来自清华的研究团队对此进行了深入的实验分析，结果表明：不是RNN的锅。与Transformer相比，RNN模型的一大优势是应对长序列的能力。比如Mamba，内部状态大小始终保持不变...……更多

2024-11-28 12:03:00长上,清华,下文,团队,状态,作者

华为AI存储助力中国移动构建超大规模智算集群

...转自：人民日报《人民日报》（2024年12月19日第 18 版）大模型领域普遍存在规模化定律，即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI的运行主要基于深度学习原理，其发展离不开海量...……更多

2024-12-19 18:16:00华为,集群,中国,中国移动,存储,规模

无需训练即可大幅提升SAM 2!SAM2Long来了,港中文

...出了创新的记忆结构设计，打造了专为复杂长视频的分割模型。论文链接：https://mark12ding.github.io/project/SAM2Long/asset/images/paper.pdf 项目链接：https://mark12ding.github……更多

2024-11-06 09:43:00上海,中文,训练,路径,内存,视频

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...过。但是，也需要说明这些测试存在局限：仅使用了一种模型，即来自 Meta 的 Llama 2 70B。希望未来能看到这些测试中使用更多不同的 AI 模型。对 MI300X 及 AMD 未来的 GPU 来说，这个结果很是不错。但到今年年底时，考虑到英伟达 B...……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能

掰开安卓手机满屏都是三个字：大模型

这年头，安卓厂商没个大模型，都不敢开手机发布会了。前脚OPPO刚用大模型升级了语音助手，后脚vivo就官宣自研手机AI大模型；小米发布会则直接将大模型当场塞进手机系统……其竞争激烈程度，不亚于抢芯片首发。到底是怎...……更多

2023-11-16 20:30:00安卓,三个字,模型,三个,手机,模型

infini-attention：谷歌大内存机制

...歌大改Transformer，“无限”长度上下文来了。现在，1B大模型上下文长度可扩展到1M（100万token，大约相当于10部小说），并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中，拿下最新SOTA。这就是谷歌最新提出的...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

清华郑纬民院士：AI for Science的出现，让高性能

...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会：MEET大会是由量子位主办的智能科...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...家本领，来挤开源赛道，突然发布了市面上最大的开源MoE模型。Hunyuan-Large，3890亿总参数，520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰，上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型，但腾讯...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

大模型推理乘上RISC-V快车？国内AI芯片创企推大模型系列

...算力需求大爆发的转折之年，如今随着国内两批超20个大模型获得审批、种类多样的大模型相关应用显现，企业对私有化部署的需求也水涨船高。面向这一行业趋势，2023年世界互联网大会乌镇峰会上，国内云端RISC-V大芯片创企希...……更多

2023-11-15 15:41:00模型,一体机,推理,快车,芯片,一体

挑战Scaling Law，Meta发布移动端350M小模型

【新智元导读】Scaling Law还没走到尽头，「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列，规模甚至降低到了1B以下，两个版本分别只有125M和350M参数，但却实现了比更大规模模型更优的性能。从5月和6月...……更多

2024-07-23 09:39:00模型,性能,移动,模型,参数,架构

信号表征指数级强、内存节省35%，量子隐式表征网络

...结果也证实了 QIREN 的确表现出超越信号表示任务上 SOTA 模型的优异性能，在参数量更少的情况下，拟合误差最多减少 35%。图 1 中展示了本文的核心思想和主要结论。相关论文已经被机器学习领域最权威的会议之一 ICML 2024 接收...……更多

2024-06-27 09:24:00量子,信号,内存,指数,网络,量子

大模型步入推理Scaling时代,SambaNova如何挑战

...越人类专家。在性能跃升之外，更重要的是，它揭示了大模型进化范式的转变：通过更多的强化学习（训练时计算）和更多的推理（Test-Time 计算），模型可以获得更强大的性能。这又一次让我们想起 Richard Sutton 在《The Bitter Lesso...……更多

2024-10-21 09:55:00英伟,霸主,推理,模型,地位,时代

方寸之间算力无边，华硕隆重推出Ascent GX 10

...越性能：高达1000AITOPS处理能力和128GB统一内存，实现无缝模型开发和推理先进架构：NVIDIA?GB10GraceBlackwell超级芯片配备BlackwellGPU、20核ArmCPU和NVLink-C2C?技术，可有效提升AI工作负载扩展互联：配置为独立或私有云系统，以在桌面……更多

2025-03-31 08:42:00华硕,方寸,隆重推出,之间,计算机,模型

page 1/3334 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

基于提示工程的模型输出不确定性量化分析

摘要：随着生成式人工智能技术在各行业的广泛应用，模型输出结果的不确定性问题日益受到关注。为提高模型在关键领域的可靠性，对输出不确定性进行量化分析成为重要方向

2025-12-04 06:17:00

给智能体装上“大脑”和“小脑”

杭州博士后用AI让机器懂协作、更安全杭州日报讯让机器从执行命令的“孤岛”，成为懂得协作的群体？让机器人安全走进人类生活

2025-12-04 06:38:00

紫林醋业产品通过欧盟认证

12月3日从紫林醋业获悉，紫林醋业部分主导产品通过欧盟有机认证(EU Organic Certification)，获准使用欧盟统一有机标识“欧洲叶标”(Euro-Leaf)

2025-12-04 07:31:00