• 我的订阅
  • 头条热搜
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...了更深的网络。主要差异总结如下:局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的跨度设置为8192个token。 Logit...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...书要分成很多段,然后送去训练。由于大模型训练主要是注意力机制,即注意力参数的训练,只要两个东西相关,就可以发生一个关联。“这是在没有截断的前提下,如果把数据截成8K,第二个8k进来了以后,和第一个8K就没有直...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...神经架构。在 transformer 模型中,这一目标自然可以通过注意力层和前馈层的组合来实现。因此,作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后,他们将对其进行掩蔽(图 2e)...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...及为企业提供更多样化AI选项的市场机会,让科技公司将注意力逐渐转向了SLM。《每日经济新闻》记者注意到,不管是Arcee、Sakana AI和Hugging Face等AI初创公司,还是科技巨头都在通过SLM和更经济的方式吸引投资者和客户。此前,谷...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...研究人员对纯解码器多模态大模型(如LLaVA)和基于交叉注意力的模型(如Flamingo)进行了全面对比,并根据总结出的优势和劣势,提出了一种全新架构,提升了模型的训练效率和多模态推理能力。文中还引入了一种1-D图块(tile...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...算顺序等方法近似 Softmax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。线性 RNN 模型线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。然...……更多
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...v。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时,为提高模型能...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...识库(或任何文本数据集)转换为显式记忆,实现为稀疏注意力键 - 值,然后在推理过程中调用这些内存并将其集成到自注意力层中。新的记忆格式定义了新的记忆层次结构:此外,本文还介绍了一种支持知识外化的记忆电路理...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。 额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...异构性来优先实现效率和可扩展性,并且扩展性不应受到注意力头数量的限制。 MM-SP 工作流。为了应对模态异构性的挑战,研究者提出了一种两阶段式分片策略,以优化图像编码和语言建模阶段的计算工作负载。具体如下图 4 ...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...减少高mask带来的性能下降。在本架构中,patch-mixer是通过注意力层和前馈层的组合来实现的,使用二进制掩码进行mask,整个模型的损失函数为:与MaskDiT相比,这里不需要额外的损失函数,整体设计和训练更加简单。而混合器本...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...略,来减轻异常通道引入的量化误差。简单来说就是,对注意力层和FFN层的输入采用4位量化,同时用8位整数稀疏化中间状态。大量实验表明,BitNet a4.8在相同的训练成本下,实现了与前代BitNet b1.58相当的性能,同时因为可以吃...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...置得与语言模型(Llama3-8B)中的对应块相同,仅包含一个注意力层和一个前馈层,参数也相同,如隐藏维度大小、注意力头的数量和注意力头的维度,并且只训练了图像模型部分。在扩散采样过程中,语言模型部分只需要运行一...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...循,自研 3D 视觉编码器支持图像视频混合训练,通过全注意力机制提升画面运镜能力,并根据自研的图像视频 Scaling Law 设计和训练了最优配比模型。模型方法介绍Hunyuan-Video 是一个综合的视频训练系统,涵盖了从数据处理到模...……更多
...两个关键组件:跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器(MLP)结构,智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性,还...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...《Attention as an RNN》的论文。正如论文名字所示,他们将注意力机制重新诠释为一种 RNN,引入了一种基于并行前缀扫描(prefix scan)算法的新的注意力公式,该公式能够高效地计算注意力的多对多(many-to-many)RNN 输出。基于新公...……更多
zyphra推出zamba2-mini1.2b模型
...代Zamba1相比,Zamba2-mini的关键进步之一是集成了两个共享注意力层(attentionlayers)。这种双层方法增强了模型在不同深度保持信息的能力,从而提高了整体性能。在共享注意力层中加入旋转位置嵌入也略微提高了性能,这表明Zyph...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...d》中被首次提出,Transformer的核心优势在于具有独特的自注意力(Self-attention)机制,能够直接建模任意距离的词元之间的交互关系,解决了循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。相...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...潜在token的数量。线性DiT(Diffusion Transformer):用「线性注意力」替换了DiT中所有的普通注意力,在高分辨率下更加高效,且不会牺牲质量。基于仅解码器模型的文本编码器:用现代的仅解码器SLM替换T5作为文本编码器,并设计...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...MoE的Scaling Law公式,C ≈ 9.59ND + 2.3 ×108D。又比如用交叉层注意力节省KV缓存的内存占用。下面送上发布会现场演讲和技术报告精华内容总结。Hunyuan-Large技术报告MoE的Scaling Law直接上公式:C ≈ 9.59ND + 2.3 × 108D……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...自动驾驶模型的可解释性,该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域,他们将其作为一个掩码来调整原始图像的权重,从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样,具备有效...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...器是否会被「90% 的人更喜欢回答 A」这样的句子所左右?注意力:自动评估器是否被不相关的上下文信息干扰评估结果如表4所示,可以看到,相比其他基线模型,FLAMe系列在大部分维度都表现出明显较低的偏见,而且总体偏见值...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...型之间转移,并能降低CLIP模型的性能。可视化分析图5:注意力图可视化:比较四种模型在干净数据和不同方法的不可学习样本上的情况 图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图...……更多
麻省理工学院联合metaai开发streamingllm框架
...注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近token的键值状态,确保RAM使用率和解码速度保持稳定,...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角掩码,以确保来自不同图像的patch...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。2)训练数据Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型、高质量的训练数据集。据介绍,Llama 3 在超过 15T 的 token 上进行了预...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...架构在处理较长文本时可能会遇到困难。 Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...基准上实现了 SOTA。ELM-2B 生成的一些不同类别的图像至于注意力模式,不同大小的模型的差别倒是不大:L 大小的模型主要关注局部信息,难以捕获长程信息。相较之下,更大的 XL 和 XXL 模型的某些层表现出了更长程的注意力,...……更多
更多关于科技的资讯:
11月16日,一艘装载邢台纳科诺尔精轧科技股份有限公司生产的辊压分切一体机的货轮,从天津港环球滚装码头启航驶往海外。至此
2025-11-30 07:36:00
坚定信心 勇挑大梁·产业新亮点丨“能址星图”如何全省率先把数据“变现”?
10月18日,在2025中国国际数字经济博览会上,秦皇岛市大数据有限公司展示“能址星图”数据产品。 石 勇摄“我们的‘能址星图’产品上架两三个月时间
2025-11-30 07:37:00
重磅!鸣望教育签约英国子午线英语,解锁中英教育合作新范式!
2025年11月20日,鸣望教育行业赋能第27届研讨峰会,达成一项重磅签约。鸣望教育与拥有46 年专业积淀的英国子午线英语学校(Meridian English)正式达成战略合作
2025-11-30 12:05:00
新生态、新平台、新增长|鲸鸿动能数智赋能品牌确定性增长
2025年,中国消费市场的竞争正从流量红利的浅层博弈,迈向以生态力为引擎、深度运营为核心的新阶段。在这一关键转折点,鲸鸿动能于11月28日成功举办“鸿蒙商业增长论坛·品牌营销沙龙”
2025-11-30 12:05:00
全运会宣传中惊现AI MV:谁在用算法谱写湾区之声?
第十五届全国运动会于11月21日圆满落下帷幕。记者从组委会了解到,一首全程由AI生成的原创宣传MV《向着光的方向》已被正式收录进本届赛事的官方宣传素材库
2025-11-30 12:06:00
华为Mate 80等新品发布,华为音乐「音乐助手」一键生成专属歌单
11月25日,华为Mate 80系列 | Mate X7及全场景新品发布会在深圳举行,华为音乐作为鸿蒙6自有应用重磅升级
2025-11-30 12:07:00
胡超 Charles Hu 获2026年《福布斯》“30 Under 30”能源与绿色科技榜单提名
近日,美国领创商业联盟主席、Reverse Energy Solutions Corp.(以下简称“RES”)联合创始人兼首席市场官(CMO)胡超(Charles Hu)近日正式
2025-11-30 12:08:00
11月28日,省工信厅公布首批山西消费名品名单。我市品牌水塔醋业凭借深厚产业积淀成为“时代优品”,优鲜多歌以新零售业态成为“潮流新锐”
2025-11-30 17:55:00
借我一双“星眼” 太空能被“管”好吗?
大皖新闻讯 神舟二十号载人飞船疑似遭空间微小碎片撞击,耽误航天员回家,让空间碎片进入公众视野。而在近地轨道,近年来太空碎片数量激增
2025-11-30 18:40:00
“溯源卢龙 嗨购甜蜜” 卢龙特色好物直播爆单
河北新闻网讯(张丽美、张子亮)11月25日,曾在“数商兴农·寻味卢龙”产地溯源直播活动中创下佳绩的百万粉丝主播“团长mr”
2025-11-30 18:02:00
《疯狂动物城2》爆火!吉林长影电影院线焕新助推观影热潮
时隔九年,迪士尼经典IP续作《疯狂动物城2》重磅归来,与全新升级的吉林长影电影院线强势联动,为吉林省电影市场注入强劲活力
2025-11-30 20:10:00
能源革命与数据革命深度融合,电鸿生态加速电力系统数智化转型
初冬的广州南沙温暖如春、花团锦簇,大涌新春居民贺泽庶开着他心爱的电动车,开进了绿树与鲜花簇拥的广州南沙环市西路超充站,当车头对准充电桩时
2025-11-30 12:06:00
促进民营经济高质量发展·超能量的“中小微”(十九)|乡村小厂造出“搬运神器”
11月12日,智捷智能科技香河有限公司工作人员在室外场地对智能搬运叉车进行调试。 河北日报记者 刘英摄11月12日,天津滨海新区一处海滩上
2025-11-29 07:31:00
厦门网讯(厦门日报记者 许舒昕)在注意力被算法切割的当下,一张纸质报纸竟在粉丝圈掀起抢购潮——从常规售价2元到二手平台单份22
2025-11-29 09:13:00
一、大数据视域下高校学生资助精准识别与分配的核心概念界定大数据技术是对数据进行加工、整理与计算的技术。其核心在于通过信息存储
2025-11-29 12:02:00