诚意,经济,模型,训练,性能,注意力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...了更深的网络。主要差异总结如下：局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token，而全局注意力层的跨度设置为8192个token。 Logit...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

高文院士：鹏城实验室已训练3个大模型，今年底将拥有两万多块卡

...书要分成很多段，然后送去训练。由于大模型训练主要是注意力机制，即注意力参数的训练，只要两个东西相关，就可以发生一个关联。“这是在没有截断的前提下，如果把数据截成8K，第二个8k进来了以后，和第一个8K就没有直...……更多

2024-06-05 13:00:00高文,院士,实验室,模型,训练,实验

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...神经架构。在 transformer 模型中，这一目标自然可以通过注意力层和前馈层的组合来实现。因此，作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后，他们将对其进行掩蔽（图 2e）...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

微软、英伟达纷纷押注小模型，大模型不香了？

...及为企业提供更多样化AI选项的市场机会，让科技公司将注意力逐渐转向了SLM。《每日经济新闻》记者注意到，不管是Arcee、Sakana AI和Hugging Face等AI初创公司，还是科技巨头都在通过SLM和更经济的方式吸引投资者和客户。此前，谷...……更多

2024-08-26 14:17:00模型,英伟,微软,模型,训练,性能

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transfo...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...识库（或任何文本数据集）转换为显式记忆，实现为稀疏注意力键 - 值，然后在推理过程中调用这些内存并将其集成到自注意力层中。新的记忆格式定义了新的记忆层次结构：此外，本文还介绍了一种支持知识外化的记忆电路理...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

3天把Llama训成Mamba，性能不降，推理更快！

...Mamba在介绍Mamba 2的时候我们讲过，线性RNN（或SSM）跟线性注意力是一回事。所以可以根据x，B，C与V，K，Q的对应关系直接复用注意力中的投影矩阵。额外的参数包括SSM需要的A矩阵和Δt（由x投影得到），这就完成了基本的参数...……更多

2024-09-06 10:01:00推理,更快,性能,模型,输出,训练

支持1024帧、准确率近100％，英伟达「LongVILA」

...异构性来优先实现效率和可扩展性，并且扩展性不应受到注意力头数量的限制。 MM-SP 工作流。为了应对模态异构性的挑战，研究者提出了一种两阶段式分片策略，以优化图像编码和语言建模阶段的计算工作负载。具体如下图 4 ...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

比Stable Diffusion便宜118倍！1890美元

...减少高mask带来的性能下降。在本架构中，patch-mixer是通过注意力层和前馈层的组合来实现的，使用二进制掩码进行mask，整个模型的损失函数为：与MaskDiT相比，这里不需要额外的损失函数，整体设计和训练更加简单。而混合器本...……更多

2024-08-13 09:42:00文生,高质量,模型,参数,模型,训练

科学家为脉冲神经网络引入新架构，为超大模型奠定基础

...人工神经元，替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留，从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是，他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多

2024-03-18 10:41:00神经网络,脉冲,架构,科学家,模型,神经

度小满联合哈工大推出自适应剪枝算法实现多模态大模型高效优化

...两个关键组件：跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器（MLP）结构，智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性，还...……更多

2024-05-17 13:00:00模态,算法,模型,联合,模态,模型

zyphra推出zamba2-mini1.2b模型

...代Zamba1相比，Zamba2-mini的关键进步之一是集成了两个共享注意力层（attentionlayers）。这种双层方法增强了模型在不同深度保持信息的能力，从而提高了整体性能。在共享注意力层中加入旋转位置嵌入也略微提高了性能，这表明Zyph...……更多

2024-08-30 05:47:00模型,模型,数据,内存,性能,训练

科学家研发自动驾驶新模块，让自动驾驶场景理解更接近人类认知

...自动驾驶模型的可解释性，该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域，他们将其作为一个掩码来调整原始图像的权重，从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样，具备有效...……更多

2024-04-11 10:53:00驾驶,认知,科学家,模块,场景,人类

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...器是否会被「90% 的人更喜欢回答 A」这样的句子所左右?注意力：自动评估器是否被不相关的上下文信息干扰评估结果如表4所示，可以看到，相比其他基线模型，FLAMe系列在大部分维度都表现出明显较低的偏见，而且总体偏见值...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...型之间转移，并能降低CLIP模型的性能。可视化分析图5：注意力图可视化：比较四种模型在干净数据和不同方法的不可学习样本上的情况图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

麻省理工学院联合metaai开发streamingllm框架

...注意到，过去有许多研究试图解决上述挑战，像是“扩展注意力窗口”，让语言模型能够处理超出预训练序列长度的长文本；或是建立一个固定大小的活动窗口，只关注最近token的键值状态，确保RAM使用率和解码速度保持稳定，...……更多

2023-10-07 00:12:00麻省理工学院,麻省,理工,框架,联合,学院

全球最强开源大模型Llama 3发布：使用15T数据预训练，

... token 的序列上对模型进行了训练，并使用掩码来确保自注意力不会跨越文档边界。2）训练数据Meta 表示，要训练出最佳的语言模型，最重要的是策划一个大型、高质量的训练数据集。据介绍，Llama 3 在超过 15T 的 token 上进行了预...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

Mamba再次挑战霸主Transformer！首个通用Mam

...架构在处理较长文本时可能会遇到困难。 Transformer的自注意力机制（Self-Attention）让模型可以关注输入序列中的所有位置，并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系，也就是说，对于句...……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

OpenCity大模型预测交通路况，零样本下表现出色，来自港

...时间序列的周期性特征。这个过程通过构建时间转移多头注意力机制实现——将未来的时空嵌入作为查询（Query），历史的时空嵌入作为键（Key），以及历史的时空数据表示作为值（Value）。作者引入了RMSNorm来提高训练稳定性...……更多

2024-09-02 13:34:00路况,样本,模型,交通,交通,模型

非Transformer架构站起来了!首个纯无注意力大模型,

...的文本信息时可能会遇到困难。本质上，Transformer 中的注意力机制通过将每个单词（或 token）与文本中的每个单词进行比较来理解上下文，它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

infini-attention：谷歌大内存机制

...最新SOTA。这就是谷歌最新提出的 Infini-attention机制（无限注意力）。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入，在内存大小上实现 114倍压缩比。什么概念？就是在内存大小不变的情况下，放进去114倍多的...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

清华郑纬民院士：AI for Science的出现，让高性能

...现在预训练模型都是Transfomer，而Transfomer结构是嵌入层、注意力层、前反馈网络层，中间注意力层跟前反馈层都会经过N次迭代，整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算，那最省事了，但CPU的计算能力有限...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

... 3D convolution）为主要模型组件，移除了自编码器中常用的注意力模块，使得模型具备不同分辨率迁移使用的能力。同时，在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性，便于通过微调的方式...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住

...因为当前最佳的基于 Transformer 的 LLM 既深又宽，并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长。举个例子，Llama 2（7B 版本）堆叠了 32 层 Transformer，模型维度为 4096。在这种情况下，TTFT 需要的 walltime 是……更多

2024-08-05 09:35:00准确度,更快,模型,苹果,缓存,模型

PyTorch官宣：告别CUDA，GPU推理迎来Triton

...Llama3-8B中，占端到端延迟80%的两个主要操作是矩阵乘法和注意力内核，而且它们依旧由CUDA内核操作。为了进一步提升性能，我们开始手写Triton内核来替换上述两个操作。手写Triton内核矩阵乘法对于线性层中的矩阵乘法，编写一...……更多

2024-09-07 09:48:00新时代,推理,内核,矩阵,乘法,英伟

贾扬清：大模型尺寸正重走CNN的老路；马斯克：在特斯拉也是这

...寸变化，正在重走CNN的老路！看到大家都被LLaMA 3.1吸引了注意力，贾扬清发出如此感慨。拿大模型尺寸的发展，和CNN的发展作对比，就能发现一个明显的趋势和现象：在ImageNet时代，研究人员和技术从业者见证了参数规模的快速...……更多

2024-08-02 09:47:00特斯,马斯,马斯克,扬清,特斯拉,老路

挑战Scaling Law，Meta发布移动端350M小模型

...窄3)重新使用编码共享（embedding sharing）方法4)使用组查询注意力机制（grouped query attention）在此基础上，作者还提出了一种块间层共享（block-wise layer-sharing）方法，能够在不引入额外内存开销的情况下进一步提高模型准确率，但..……更多

2024-07-23 09:39:00模型,性能,移动,模型,参数,架构