诚意,经济,模型,训练,性能,注意力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...时间序列的周期性特征。这个过程通过构建时间转移多头注意力机制实现——将未来的时空嵌入作为查询（Query），历史的时空嵌入作为键（Key），以及历史的时空数据表示作为值（Value）。作者引入了RMSNorm来提高训练稳定性...……更多

2024-09-02 13:34:00路况,样本,模型,交通,交通,模型

infini-attention：谷歌大内存机制

...最新SOTA。这就是谷歌最新提出的 Infini-attention机制（无限注意力）。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入，在内存大小上实现 114倍压缩比。什么概念？就是在内存大小不变的情况下，放进去114倍多的...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

非Transformer架构站起来了!首个纯无注意力大模型,

...的文本信息时可能会遇到困难。本质上，Transformer 中的注意力机制通过将每个单词（或 token）与文本中的每个单词进行比较来理解上下文，它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

国产大模型竞技场首超GPT-4o！零一万物GLM共同跻身To

...上，Yi-Lightning在以下方面进行了提升。首先是优化混合注意力机制（Hybrid Attention），只在模型的部分层次中将传统的全注意力（Full Attention）替换为滑动窗口注意力（Sliding Window Attention）。由此以来，模型在保证处理长序列数..……更多

2024-10-17 09:48:00竞技场,万物,模型,国产,竞技,模型

清华郑纬民院士：AI for Science的出现，让高性能

...现在预训练模型都是Transfomer，而Transfomer结构是嵌入层、注意力层、前反馈网络层，中间注意力层跟前反馈层都会经过N次迭代，整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算，那最省事了，但CPU的计算能力有限...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

大模型新趋势之MoE：现状、挑战及研究方向

...术，节省内存、加速计算。研究表明，块稀疏FlashAttention注意力机制可以进一步减少GPU内存访问次数，加快计算并节省显存；结合PagedAttention构建vLLM11（一种LLM推理加速系统），可实现KV缓存零浪费且支持各请求间共享KV缓存，从...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

专家模型不要专家并行！微软开源MoE新路径

...训练路径GRIN MoE由常规的Transformer块构成，采用分组查询注意力（GQA）和滑动窗口注意力来提高计算效率。采用RoPE进行位置编码，以便在预训练后实现长上下文能力。在MoE架构中，模型通过路由网络为每个输入token挑选适合的专...……更多

2024-11-12 09:57:00专家,微软,路径,模型,模型,专家

腾讯推出 Hunyuan-Large 开源大模型

...入，并更好地泛化到未见数据KV缓存压缩：采用分组查询注意力（GQA）和跨层注意力（CLA）策略，显著减少了KV缓存的内存占用和计算开销，提高了推理吞吐专家特定学习率缩放：为不同专家设置不同的学习率，确保每个子模型...……更多

2024-11-05 18:56:00腾讯,模型,模型,长上,腾讯,训练

自然语言处理：大模型理论与实践

...N - gram模型和平滑技术、循环神经网络模型、Seq2Seq模型、注意力机制、Transformer模型及预训练语言模型的基本知识。2. 大模型理论- 架构：讲解基于Transformer的编码、解码、编解码大语言模型架构，非Transformer架构如FAT、AFT、RWKV模...……更多

2024-10-23 20:38:00自然语言,模型,实践,理论,自然,语言

DeepSeek发布最新NSA技术论文！创始人梁文锋参与引人

...其主要内容是关于NSA（即Natively Sparse Attention，原生稀疏注意力）。与此同时，在论文署名中，第一作者袁景阳是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是，据论文署名排名，DeepSeek创始人梁文锋现身论文著作...……更多

2025-02-19 12:26:00文锋,技术论文,创始人,论文,技术,推理

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

... 3D convolution）为主要模型组件，移除了自编码器中常用的注意力模块，使得模型具备不同分辨率迁移使用的能力。同时，在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性，便于通过微调的方式...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

阿里Qwen3登顶全球最强开源模型，用8款模型夺回中国AI话

...lama，成为全球第一开源模型家族。DeepSeek此前一度夺走了注意力，更是引发了新一轮的大模型技术竞赛。这个月初，Meta开源最新的LLaMA-4模型，随后快速冲上Chatbot Arena 排行榜第二，仅次于Google刚发布的 Gemini 2.5 Pro。但很快LLaMA-4...……更多

2025-04-29 16:17:00模型,阿里,话语权,中国,话语,全球

连发两款模型“补课”，百度AI成色如何？

...源。目前，百度仅初步透露了多个层面的技术优化，包括注意力机制、模型架构、模型幻觉等方面。据介绍，文心4.5采用自研的FlashMask动态注意力掩码，降低了计算冗余和存储开销，可提升模型长序列建模能力和训练效率，优化...……更多

2025-03-20 11:38:00成色,补课,模型,文心,模型,模态

Token化一切，甚至网络！北大&谷歌&马普所提出Token

...密集任务。增强模型的可解释性由于 Tokenformer 完全基于注意力机制，它自然受益于在 Token-Parameter 交互中与注意力相关的可解释性特性。这一特点增强了模型的可解释性，为 AI 社区开发更透明、易理解的模型贡献力量。 ……更多

2024-11-15 09:51:00马普,北大,网络,模型,增量式,增量

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...是一种文本兼容身份适配器。他们的方法采用了掩码交叉注意力技术，可无缝整合字符特征，从而在不直接传输像素的情况下实现精确的布局控制。此外，基于 MLLM 的适配器还能调整角色特征，使其与特定面板的文本线索保持一...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住

...因为当前最佳的基于 Transformer 的 LLM 既深又宽，并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长。举个例子，Llama 2（7B 版本）堆叠了 32 层 Transformer，模型维度为 4096。在这种情况下，TTFT 需要的 walltime 是……更多

2024-08-05 09:35:00准确度,更快,模型,苹果,缓存,模型

雷军千万年薪挖角天才少女学者：算法竞争本质是人才竞争｜宅男

...性价比的训练。此外，盘和林表示，去年到今年，雷军的注意力一直在小米汽车上，如今汽车尘埃落定，雷军自然有时间关注前沿，这也说明，雷军即将押注大模型这条新赛道。(责任编辑董湘依制作郑铮宅男财经出品)来源：...……更多

2024-12-31 17:04:00雷军,竞争,年薪,算法,本质,天才

PyTorch官宣：告别CUDA，GPU推理迎来Triton

...Llama3-8B中，占端到端延迟80%的两个主要操作是矩阵乘法和注意力内核，而且它们依旧由CUDA内核操作。为了进一步提升性能，我们开始手写Triton内核来替换上述两个操作。手写Triton内核矩阵乘法对于线性层中的矩阵乘法，编写一...……更多

2024-09-07 09:48:00新时代,推理,内核,矩阵,乘法,英伟

MiniMax进化论：一群「偏执者」的破浪前行

...。也是在同一时期，在同行还普遍采用传统Transformer的自注意力计算机制时，MiniMax就已经开启了对混合注意力机制的探索，并在其后将这一技术用于M1模型。所谓混合注意力机制，就是1/8使用自注意力机制，另外7/8使用了自创的L...……更多

2025-07-02 13:31:00一群,进化论,偏执,进化,模型,技术

让美国硅谷恐慌！中国工程院院士揭秘：DeepSeek究竟厉害

...本下降，起到了关键作用。”他指出，“MLA主要通过改造注意力算子压缩了KV Cache大小，实现了在同样容量下可以存储更多的KV Cache，该架构和DeepSeek-V3模型中FFN 层的改造相配合，实现了一个非常大的稀疏MoE 层，这成为DeepSeek训...……更多

2025-01-27 14:06:00中国工程院,美国硅谷,硅谷,工程院,美国,院士

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布

...先，使用两个相同的ID来包裹其物体特征。由于LLM的因果注意力机制，这种方法通过第一个ID将ID信息与物体特征关联起来，并通过第二个ID将物体信息与其ID关联起来。其次，提出了一个后视觉顺序，将视觉tokens放置在输入序列...……更多

2024-10-16 13:35:00模型,场景,训练,语言,数据,物体

贾扬清：大模型尺寸正重走CNN的老路；马斯克：在特斯拉也是这

...寸变化，正在重走CNN的老路！看到大家都被LLaMA 3.1吸引了注意力，贾扬清发出如此感慨。拿大模型尺寸的发展，和CNN的发展作对比，就能发现一个明显的趋势和现象：在ImageNet时代，研究人员和技术从业者见证了参数规模的快速...……更多

2024-08-02 09:47:00特斯,马斯,马斯克,扬清,特斯拉,老路

宋亭亭等：DeepSeek或催化中高阶智驾加速渗透

...驾驶的渗透。首先，在算法层面，DeepSeek通过MLA(多头潜在注意力)、DeepSeekMoE(混合专家架构)以及MTP(多token预测)等多种技术手段，显著提升了模型性能和训练效率。这些技术不仅有望被各家企业借鉴，以加速智驾模型的训练速度并...……更多

2025-02-12 11:10:00亭亭,高阶,催化,模型,数据,训练

DeepSeek开源惠四方（科技名家笔谈）

...瞩目。2017年，谷歌的几名专家提出Transformer模型，提出自注意力机制，成为深度学习的主流模型。 2018年，DeepMind发布了AlphaFold，在蛋白质结构预测中展示出惊人的能力，开辟了AI for Science（人工智能驱动科技创新）的新方向。20...……更多

2025-02-24 05:52:00四方,名家,科技,人工智能,人工,智能

腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全

...速镜头等场景有明显提升。3、从头到尾用full attention（全注意力）的机制，没有用时空模块，提升画面流畅度。混元视频生成模型采用统一的全注意力机制，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换。...……更多

2024-12-04 09:50:00腾讯,权重,推理,模型,参数,代码

挑战Scaling Law，Meta发布移动端350M小模型

...窄3)重新使用编码共享（embedding sharing）方法4)使用组查询注意力机制（grouped query attention）在此基础上，作者还提出了一种块间层共享（block-wise layer-sharing）方法，能够在不引入额外内存开销的情况下进一步提高模型准确率，但..……更多

2024-07-23 09:39:00模型,性能,移动,模型,参数,架构