诚意,经济,模型,训练,性能,注意力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

infini-attention：谷歌大内存机制

...最新SOTA。这就是谷歌最新提出的 Infini-attention机制（无限注意力）。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入，在内存大小上实现 114倍压缩比。什么概念？就是在内存大小不变的情况下，放进去114倍多的...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

非Transformer架构站起来了!首个纯无注意力大模型,

...的文本信息时可能会遇到困难。本质上，Transformer 中的注意力机制通过将每个单词（或 token）与文本中的每个单词进行比较来理解上下文，它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

国产大模型竞技场首超GPT-4o！零一万物GLM共同跻身To

...上，Yi-Lightning在以下方面进行了提升。首先是优化混合注意力机制（Hybrid Attention），只在模型的部分层次中将传统的全注意力（Full Attention）替换为滑动窗口注意力（Sliding Window Attention）。由此以来，模型在保证处理长序列数..……更多

2024-10-17 09:48:00竞技场,万物,模型,国产,竞技,模型

清华郑纬民院士：AI for Science的出现，让高性能

...现在预训练模型都是Transfomer，而Transfomer结构是嵌入层、注意力层、前反馈网络层，中间注意力层跟前反馈层都会经过N次迭代，整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算，那最省事了，但CPU的计算能力有限...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

大模型新趋势之MoE：现状、挑战及研究方向

...术，节省内存、加速计算。研究表明，块稀疏FlashAttention注意力机制可以进一步减少GPU内存访问次数，加快计算并节省显存；结合PagedAttention构建vLLM11（一种LLM推理加速系统），可实现KV缓存零浪费且支持各请求间共享KV缓存，从...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

专家模型不要专家并行！微软开源MoE新路径

...训练路径GRIN MoE由常规的Transformer块构成，采用分组查询注意力（GQA）和滑动窗口注意力来提高计算效率。采用RoPE进行位置编码，以便在预训练后实现长上下文能力。在MoE架构中，模型通过路由网络为每个输入token挑选适合的专...……更多

2024-11-12 09:57:00专家,微软,路径,模型,模型,专家

腾讯推出 Hunyuan-Large 开源大模型

...入，并更好地泛化到未见数据KV缓存压缩：采用分组查询注意力（GQA）和跨层注意力（CLA）策略，显著减少了KV缓存的内存占用和计算开销，提高了推理吞吐专家特定学习率缩放：为不同专家设置不同的学习率，确保每个子模型...……更多

2024-11-05 18:56:00腾讯,模型,模型,长上,腾讯,训练

自然语言处理：大模型理论与实践

...N - gram模型和平滑技术、循环神经网络模型、Seq2Seq模型、注意力机制、Transformer模型及预训练语言模型的基本知识。2. 大模型理论- 架构：讲解基于Transformer的编码、解码、编解码大语言模型架构，非Transformer架构如FAT、AFT、RWKV模...……更多

2024-10-23 20:38:00自然语言,模型,实践,理论,自然,语言

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

... 3D convolution）为主要模型组件，移除了自编码器中常用的注意力模块，使得模型具备不同分辨率迁移使用的能力。同时，在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性，便于通过微调的方式...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

Token化一切，甚至网络！北大&谷歌&马普所提出Token

...密集任务。增强模型的可解释性由于 Tokenformer 完全基于注意力机制，它自然受益于在 Token-Parameter 交互中与注意力相关的可解释性特性。这一特点增强了模型的可解释性，为 AI 社区开发更透明、易理解的模型贡献力量。 ……更多

2024-11-15 09:51:00马普,北大,网络,模型,增量式,增量

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...是一种文本兼容身份适配器。他们的方法采用了掩码交叉注意力技术，可无缝整合字符特征，从而在不直接传输像素的情况下实现精确的布局控制。此外，基于 MLLM 的适配器还能调整角色特征，使其与特定面板的文本线索保持一...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住

...因为当前最佳的基于 Transformer 的 LLM 既深又宽，并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长。举个例子，Llama 2（7B 版本）堆叠了 32 层 Transformer，模型维度为 4096。在这种情况下，TTFT 需要的 walltime 是……更多

2024-08-05 09:35:00准确度,更快,模型,苹果,缓存,模型

雷军千万年薪挖角天才少女学者：算法竞争本质是人才竞争｜宅男

...性价比的训练。此外，盘和林表示，去年到今年，雷军的注意力一直在小米汽车上，如今汽车尘埃落定，雷军自然有时间关注前沿，这也说明，雷军即将押注大模型这条新赛道。(责任编辑董湘依制作郑铮宅男财经出品)来源：...……更多

2024-12-31 17:04:00雷军,竞争,年薪,算法,本质,天才

PyTorch官宣：告别CUDA，GPU推理迎来Triton

...Llama3-8B中，占端到端延迟80%的两个主要操作是矩阵乘法和注意力内核，而且它们依旧由CUDA内核操作。为了进一步提升性能，我们开始手写Triton内核来替换上述两个操作。手写Triton内核矩阵乘法对于线性层中的矩阵乘法，编写一...……更多

2024-09-07 09:48:00新时代,推理,内核,矩阵,乘法,英伟

让美国硅谷恐慌！中国工程院院士揭秘：DeepSeek究竟厉害

...本下降，起到了关键作用。”他指出，“MLA主要通过改造注意力算子压缩了KV Cache大小，实现了在同样容量下可以存储更多的KV Cache，该架构和DeepSeek-V3模型中FFN 层的改造相配合，实现了一个非常大的稀疏MoE 层，这成为DeepSeek训...……更多

2025-01-27 14:06:00中国工程院,美国硅谷,硅谷,工程院,美国,院士

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布

...先，使用两个相同的ID来包裹其物体特征。由于LLM的因果注意力机制，这种方法通过第一个ID将ID信息与物体特征关联起来，并通过第二个ID将物体信息与其ID关联起来。其次，提出了一个后视觉顺序，将视觉tokens放置在输入序列...……更多

2024-10-16 13:35:00模型,场景,训练,语言,数据,物体

贾扬清：大模型尺寸正重走CNN的老路；马斯克：在特斯拉也是这

...寸变化，正在重走CNN的老路！看到大家都被LLaMA 3.1吸引了注意力，贾扬清发出如此感慨。拿大模型尺寸的发展，和CNN的发展作对比，就能发现一个明显的趋势和现象：在ImageNet时代，研究人员和技术从业者见证了参数规模的快速...……更多

2024-08-02 09:47:00特斯,马斯,马斯克,扬清,特斯拉,老路

腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全

...速镜头等场景有明显提升。3、从头到尾用full attention（全注意力）的机制，没有用时空模块，提升画面流畅度。混元视频生成模型采用统一的全注意力机制，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换。...……更多

2024-12-04 09:50:00腾讯,权重,推理,模型,参数,代码

挑战Scaling Law，Meta发布移动端350M小模型

...窄3)重新使用编码共享（embedding sharing）方法4)使用组查询注意力机制（grouped query attention）在此基础上，作者还提出了一种块间层共享（block-wise layer-sharing）方法，能够在不引入额外内存开销的情况下进一步提高模型准确率，但..……更多

2024-07-23 09:39:00模型,性能,移动,模型,参数,架构