诚意,经济,模型,训练,性能,注意力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...了更深的网络。主要差异总结如下：局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token，而全局注意力层的跨度设置为8192个token。 Logit...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

高文院士：鹏城实验室已训练3个大模型，今年底将拥有两万多块卡

...书要分成很多段，然后送去训练。由于大模型训练主要是注意力机制，即注意力参数的训练，只要两个东西相关，就可以发生一个关联。“这是在没有截断的前提下，如果把数据截成8K，第二个8k进来了以后，和第一个8K就没有直...……更多

2024-06-05 13:00:00高文,院士,实验室,模型,训练,实验

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...神经架构。在 transformer 模型中，这一目标自然可以通过注意力层和前馈层的组合来实现。因此，作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后，他们将对其进行掩蔽（图 2e）...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

微软、英伟达纷纷押注小模型，大模型不香了？

...及为企业提供更多样化AI选项的市场机会，让科技公司将注意力逐渐转向了SLM。《每日经济新闻》记者注意到，不管是Arcee、Sakana AI和Hugging Face等AI初创公司，还是科技巨头都在通过SLM和更经济的方式吸引投资者和客户。此前，谷...……更多

2024-08-26 14:17:00模型,英伟,微软,模型,训练,性能

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

...研究人员对纯解码器多模态大模型（如LLaVA）和基于交叉注意力的模型（如Flamingo）进行了全面对比，并根据总结出的优势和劣势，提出了一种全新架构，提升了模型的训练效率和多模态推理能力。文中还引入了一种1-D图块（tile...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transfo...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...算顺序等方法近似 Softmax 函数，但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。线性 RNN 模型线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作，以线性时间复杂度提供了序列建模的新解决方案。然...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

...v。这篇论文的核心关于NSA(Natively Sparse Attention，原生稀疏注意力)。据DeepSeek，上下文建模对于下一代语言模型至关重要，但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA（稀疏注意力）在提高效率同时，为提高模型能...……更多

2025-02-19 18:43:00文锋,对大,注意力,模型,意味,机制

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...识库（或任何文本数据集）转换为显式记忆，实现为稀疏注意力键 - 值，然后在推理过程中调用这些内存并将其集成到自注意力层中。新的记忆格式定义了新的记忆层次结构：此外，本文还介绍了一种支持知识外化的记忆电路理...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

3天把Llama训成Mamba，性能不降，推理更快！

...Mamba在介绍Mamba 2的时候我们讲过，线性RNN（或SSM）跟线性注意力是一回事。所以可以根据x，B，C与V，K，Q的对应关系直接复用注意力中的投影矩阵。额外的参数包括SSM需要的A矩阵和Δt（由x投影得到），这就完成了基本的参数...……更多

2024-09-06 10:01:00推理,更快,性能,模型,输出,训练

支持1024帧、准确率近100％，英伟达「LongVILA」

...异构性来优先实现效率和可扩展性，并且扩展性不应受到注意力头数量的限制。 MM-SP 工作流。为了应对模态异构性的挑战，研究者提出了一种两阶段式分片策略，以优化图像编码和语言建模阶段的计算工作负载。具体如下图 4 ...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

比Stable Diffusion便宜118倍！1890美元

...减少高mask带来的性能下降。在本架构中，patch-mixer是通过注意力层和前馈层的组合来实现的，使用二进制掩码进行mask，整个模型的损失函数为：与MaskDiT相比，这里不需要额外的损失函数，整体设计和训练更加简单。而混合器本...……更多

2024-08-13 09:42:00文生,高质量,模型,参数,模型,训练

科学家为脉冲神经网络引入新架构，为超大模型奠定基础

...人工神经元，替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留，从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是，他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多

2024-03-18 10:41:00神经网络,脉冲,架构,科学家,模型,神经

1-bit大模型还能再突破！新一代BitNet架构启用4位激

...略，来减轻异常通道引入的量化误差。简单来说就是，对注意力层和FFN层的输入采用4位量化，同时用8位整数稀疏化中间状态。大量实验表明，BitNet a4.8在相同的训练成本下，实现了与前代BitNet b1.58相当的性能，同时因为可以吃...……更多

2024-12-06 09:55:00架构,激活,新一代,模型,突破,激活

文生图参数量升至240亿！Playground v3发布：深

...置得与语言模型（Llama3-8B）中的对应块相同，仅包含一个注意力层和一个前馈层，参数也相同，如隐藏维度大小、注意力头的数量和注意力头的维度，并且只训练了图像模型部分。在扩散采样过程中，语言模型部分只需要运行一...……更多

2024-10-08 09:48:00文生,图形设计,深度,图形,人类,参数

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

...循，自研 3D 视觉编码器支持图像视频混合训练，通过全注意力机制提升画面运镜能力，并根据自研的图像视频 Scaling Law 设计和训练了最优配比模型。模型方法介绍Hunyuan-Video 是一个综合的视频训练系统，涵盖了从数据处理到模...……更多

2024-12-04 09:48:00文生,腾讯,模型,参数,社区,视频

度小满联合哈工大推出自适应剪枝算法实现多模态大模型高效优化

...两个关键组件：跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器（MLP）结构，智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性，还...……更多

2024-05-17 13:00:00模态,算法,模型,联合,模态,模型

图灵奖得主Yoshua Bengio新作：Were RNNs

...《Attention as an RNN》的论文。正如论文名字所示，他们将注意力机制重新诠释为一种 RNN，引入了一种基于并行前缀扫描（prefix scan）算法的新的注意力公式，该公式能够高效地计算注意力的多对多（many-to-many）RNN 输出。基于新公...……更多

2024-10-15 09:56:00图灵奖,图灵,得主,新作,序列,训练

zyphra推出zamba2-mini1.2b模型

...代Zamba1相比，Zamba2-mini的关键进步之一是集成了两个共享注意力层（attentionlayers）。这种双层方法增强了模型在不同深度保持信息的能力，从而提高了整体性能。在共享注意力层中加入旋转位置嵌入也略微提高了性能，这表明Zyph...……更多

2024-08-30 05:47:00模型,模型,数据,内存,性能,训练

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附

...d》中被首次提出，Transformer的核心优势在于具有独特的自注意力（Self-attention）机制，能够直接建模任意距离的词元之间的交互关系，解决了循环神经网络（RNN）、卷积神经网络（CNN）等传统神经网络存在的长序列依赖问题。相...……更多

2024-10-21 10:03:00模型,行业报告,新纪元,报告,发展,行业

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...MoE的Scaling Law公式，C ≈ 9.59ND + 2.3 ×108D。又比如用交叉层注意力节省KV缓存的内存占用。下面送上发布会现场演讲和技术报告精华内容总结。Hunyuan-Large技术报告MoE的Scaling Law直接上公式：C ≈ 9.59ND + 2.3 × 108D……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据