诚意,经济,模型,训练,性能,注意力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...了更深的网络。主要差异总结如下：局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token，而全局注意力层的跨度设置为8192个token。 Logit...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

高文院士：鹏城实验室已训练3个大模型，今年底将拥有两万多块卡

...书要分成很多段，然后送去训练。由于大模型训练主要是注意力机制，即注意力参数的训练，只要两个东西相关，就可以发生一个关联。“这是在没有截断的前提下，如果把数据截成8K，第二个8k进来了以后，和第一个8K就没有直...……更多

2024-06-05 13:00:00高文,院士,实验室,模型,训练,实验

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...神经架构。在 transformer 模型中，这一目标自然可以通过注意力层和前馈层的组合来实现。因此，作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后，他们将对其进行掩蔽（图 2e）...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...识库（或任何文本数据集）转换为显式记忆，实现为稀疏注意力键 - 值，然后在推理过程中调用这些内存并将其集成到自注意力层中。新的记忆格式定义了新的记忆层次结构：此外，本文还介绍了一种支持知识外化的记忆电路理...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

科学家为脉冲神经网络引入新架构，为超大模型奠定基础

...人工神经元，替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留，从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是，他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多

2024-03-18 10:41:00神经网络,脉冲,架构,科学家,模型,神经

度小满联合哈工大推出自适应剪枝算法实现多模态大模型高效优化

...两个关键组件：跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器（MLP）结构，智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性，还...……更多

2024-05-17 13:00:00模态,算法,模型,联合,模态,模型

科学家研发自动驾驶新模块，让自动驾驶场景理解更接近人类认知

...自动驾驶模型的可解释性，该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域，他们将其作为一个掩码来调整原始图像的权重，从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样，具备有效...……更多

2024-04-11 10:53:00驾驶,认知,科学家,模块,场景,人类

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...器是否会被「90% 的人更喜欢回答 A」这样的句子所左右?注意力：自动评估器是否被不相关的上下文信息干扰评估结果如表4所示，可以看到，相比其他基线模型，FLAMe系列在大部分维度都表现出明显较低的偏见，而且总体偏见值...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...型之间转移，并能降低CLIP模型的性能。可视化分析图5：注意力图可视化：比较四种模型在干净数据和不同方法的不可学习样本上的情况图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

全球最强开源大模型Llama 3发布：使用15T数据预训练，

... token 的序列上对模型进行了训练，并使用掩码来确保自注意力不会跨越文档边界。2）训练数据Meta 表示，要训练出最佳的语言模型，最重要的是策划一个大型、高质量的训练数据集。据介绍，Llama 3 在超过 15T 的 token 上进行了预...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

麻省理工学院联合metaai开发streamingllm框架

...注意到，过去有许多研究试图解决上述挑战，像是“扩展注意力窗口”，让语言模型能够处理超出预训练序列长度的长文本；或是建立一个固定大小的活动窗口，只关注最近token的键值状态，确保RAM使用率和解码速度保持稳定，...……更多

2023-10-07 00:12:00麻省理工学院,麻省,理工,框架,联合,学院

infini-attention：谷歌大内存机制

...最新SOTA。这就是谷歌最新提出的 Infini-attention机制（无限注意力）。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入，在内存大小上实现 114倍压缩比。什么概念？就是在内存大小不变的情况下，放进去114倍多的...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

清华郑纬民院士：AI for Science的出现，让高性能

...现在预训练模型都是Transfomer，而Transfomer结构是嵌入层、注意力层、前反馈网络层，中间注意力层跟前反馈层都会经过N次迭代，整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算，那最省事了，但CPU的计算能力有限...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

... 3D convolution）为主要模型组件，移除了自编码器中常用的注意力模块，使得模型具备不同分辨率迁移使用的能力。同时，在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性，便于通过微调的方式...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住

...因为当前最佳的基于 Transformer 的 LLM 既深又宽，并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长。举个例子，Llama 2（7B 版本）堆叠了 32 层 Transformer，模型维度为 4096。在这种情况下，TTFT 需要的 walltime 是……更多

2024-08-05 09:35:00准确度,更快,模型,苹果,缓存,模型

贾扬清：大模型尺寸正重走CNN的老路；马斯克：在特斯拉也是这

...寸变化，正在重走CNN的老路！看到大家都被LLaMA 3.1吸引了注意力，贾扬清发出如此感慨。拿大模型尺寸的发展，和CNN的发展作对比，就能发现一个明显的趋势和现象：在ImageNet时代，研究人员和技术从业者见证了参数规模的快速...……更多

2024-08-02 09:47:00特斯,马斯,马斯克,扬清,特斯拉,老路

挑战Scaling Law，Meta发布移动端350M小模型

...窄3)重新使用编码共享（embedding sharing）方法4)使用组查询注意力机制（grouped query attention）在此基础上，作者还提出了一种块间层共享（block-wise layer-sharing）方法，能够在不引入额外内存开销的情况下进一步提高模型准确率，但..……更多

2024-07-23 09:39:00模型,性能,移动,模型,参数,架构