• 我的订阅
  • 头条热搜
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...了更深的网络。主要差异总结如下:局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的跨度设置为8192个token。 Logit...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...书要分成很多段,然后送去训练。由于大模型训练主要是注意力机制,即注意力参数的训练,只要两个东西相关,就可以发生一个关联。“这是在没有截断的前提下,如果把数据截成8K,第二个8k进来了以后,和第一个8K就没有直...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...神经架构。在 transformer 模型中,这一目标自然可以通过注意力层和前馈层的组合来实现。因此,作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后,他们将对其进行掩蔽(图 2e)...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...及为企业提供更多样化AI选项的市场机会,让科技公司将注意力逐渐转向了SLM。《每日经济新闻》记者注意到,不管是Arcee、Sakana AI和Hugging Face等AI初创公司,还是科技巨头都在通过SLM和更经济的方式吸引投资者和客户。此前,谷...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...研究人员对纯解码器多模态大模型(如LLaVA)和基于交叉注意力的模型(如Flamingo)进行了全面对比,并根据总结出的优势和劣势,提出了一种全新架构,提升了模型的训练效率和多模态推理能力。文中还引入了一种1-D图块(tile...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...算顺序等方法近似 Softmax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。线性 RNN 模型线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。然...……更多
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...v。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时,为提高模型能...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...识库(或任何文本数据集)转换为显式记忆,实现为稀疏注意力键 - 值,然后在推理过程中调用这些内存并将其集成到自注意力层中。新的记忆格式定义了新的记忆层次结构:此外,本文还介绍了一种支持知识外化的记忆电路理...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。 额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...异构性来优先实现效率和可扩展性,并且扩展性不应受到注意力头数量的限制。 MM-SP 工作流。为了应对模态异构性的挑战,研究者提出了一种两阶段式分片策略,以优化图像编码和语言建模阶段的计算工作负载。具体如下图 4 ...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...减少高mask带来的性能下降。在本架构中,patch-mixer是通过注意力层和前馈层的组合来实现的,使用二进制掩码进行mask,整个模型的损失函数为:与MaskDiT相比,这里不需要额外的损失函数,整体设计和训练更加简单。而混合器本...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...略,来减轻异常通道引入的量化误差。简单来说就是,对注意力层和FFN层的输入采用4位量化,同时用8位整数稀疏化中间状态。大量实验表明,BitNet a4.8在相同的训练成本下,实现了与前代BitNet b1.58相当的性能,同时因为可以吃...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...置得与语言模型(Llama3-8B)中的对应块相同,仅包含一个注意力层和一个前馈层,参数也相同,如隐藏维度大小、注意力头的数量和注意力头的维度,并且只训练了图像模型部分。在扩散采样过程中,语言模型部分只需要运行一...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...循,自研 3D 视觉编码器支持图像视频混合训练,通过全注意力机制提升画面运镜能力,并根据自研的图像视频 Scaling Law 设计和训练了最优配比模型。模型方法介绍Hunyuan-Video 是一个综合的视频训练系统,涵盖了从数据处理到模...……更多
...两个关键组件:跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器(MLP)结构,智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性,还...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...《Attention as an RNN》的论文。正如论文名字所示,他们将注意力机制重新诠释为一种 RNN,引入了一种基于并行前缀扫描(prefix scan)算法的新的注意力公式,该公式能够高效地计算注意力的多对多(many-to-many)RNN 输出。基于新公...……更多
zyphra推出zamba2-mini1.2b模型
...代Zamba1相比,Zamba2-mini的关键进步之一是集成了两个共享注意力层(attentionlayers)。这种双层方法增强了模型在不同深度保持信息的能力,从而提高了整体性能。在共享注意力层中加入旋转位置嵌入也略微提高了性能,这表明Zyph...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...d》中被首次提出,Transformer的核心优势在于具有独特的自注意力(Self-attention)机制,能够直接建模任意距离的词元之间的交互关系,解决了循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。相...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...潜在token的数量。线性DiT(Diffusion Transformer):用「线性注意力」替换了DiT中所有的普通注意力,在高分辨率下更加高效,且不会牺牲质量。基于仅解码器模型的文本编码器:用现代的仅解码器SLM替换T5作为文本编码器,并设计...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...MoE的Scaling Law公式,C ≈ 9.59ND + 2.3 ×108D。又比如用交叉层注意力节省KV缓存的内存占用。下面送上发布会现场演讲和技术报告精华内容总结。Hunyuan-Large技术报告MoE的Scaling Law直接上公式:C ≈ 9.59ND + 2.3 × 108D……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...自动驾驶模型的可解释性,该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域,他们将其作为一个掩码来调整原始图像的权重,从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样,具备有效...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...器是否会被「90% 的人更喜欢回答 A」这样的句子所左右?注意力:自动评估器是否被不相关的上下文信息干扰评估结果如表4所示,可以看到,相比其他基线模型,FLAMe系列在大部分维度都表现出明显较低的偏见,而且总体偏见值...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...型之间转移,并能降低CLIP模型的性能。可视化分析图5:注意力图可视化:比较四种模型在干净数据和不同方法的不可学习样本上的情况 图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图...……更多
麻省理工学院联合metaai开发streamingllm框架
...注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近token的键值状态,确保RAM使用率和解码速度保持稳定,...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角掩码,以确保来自不同图像的patch...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。2)训练数据Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型、高质量的训练数据集。据介绍,Llama 3 在超过 15T 的 token 上进行了预...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...架构在处理较长文本时可能会遇到困难。 Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...基准上实现了 SOTA。ELM-2B 生成的一些不同类别的图像至于注意力模式,不同大小的模型的差别倒是不大:L 大小的模型主要关注局部信息,难以捕获长程信息。相较之下,更大的 XL 和 XXL 模型的某些层表现出了更长程的注意力,...……更多
更多关于科技的资讯:
全程支持极客营创新 拟上市的嘉立创助力18项硬件原型完成开发
2025年8月上旬,一场为期5天的硬件创意盛会——2025极客营(首场硬件黑客松)在深圳科创学院成功举办。来自美国、英国
2025-09-04 08:34:00
原钻产量同比降11%+GIA分级升级 天然钻石稀缺性支撑价格体系
2025年上半年,全球钻石市场呈现显著结构性分化。在整体价格下行压力下,大克拉异形钻凭借独特稀缺性展现强劲韧性。6月拉斯维加斯JCK珠宝展高端展区人流如织
2025-09-04 08:39:00
浪潮通信信息亮相2025年南亚东南亚数字合作大会
近日,2025南亚东南亚数字合作大会在泰国召开。本次大会由云南省人民政府和泰国数字经济与社会部联合主办,以“促进区域数字合作
2025-09-04 10:01:00
浪潮通信信息亮相2025算网融合产业发展大会,数据中心产品荣获优秀案例
近日,以“开放、创新、融合、共赢”为主题的2025算网融合产业发展大会在北京召开。会上,浪潮通信信息申报的“浪潮预制模块化数据中心产品”
2025-09-04 10:02:00
中新经纬9月4日电 据路透社报道,法国数据保护机构周三表示,已对Alphabet旗下的Google(谷歌)处以3.25亿欧元(3
2025-09-04 10:04:00
河北新闻网讯(邓学军)近日,中国贸促会正式发布《中国好礼产业促进计划2025—2026年度推荐企业及产品名录》,承德避暑山庄旅游集团有限责任公司精心选送的“朕在凉快”折扇
2025-09-04 10:05:00
国产GEO工具破局者 小陌引擎在济南书写AI创新传奇
近日,在生成式AI重塑全球数字竞争格局的浪潮中,来自济南高新区齐鲁软件园的济南矩阵跃动智能有限公司,凭借自主研发的国内首个攻克大模型搜索优化难题的“小陌GEO对抗引擎”
2025-09-04 10:13:00
集萃智造产业化基地项目开工,开启规模化量产新篇章未来三年力争实现年产近万台智能机器人南报网讯(通讯员芦玲玲记者徐宁)记者昨天从江苏集萃智能制造技术研究所有限公司(以下简称“集萃智造”)获悉
2025-09-04 07:40:00
山东移动日照分公司携手山东鲜醇乳业打造5G智能工厂 全流程赋能乳业生产新标杆
鲁网9月3日讯在数字化浪潮推动传统产业转型升级的背景下,山东移动日照分公司助力山东鲜醇乳业有限公司成功入选《2025年5G工厂名录》
2025-09-03 17:12:00
当晚期肺癌患者仅需支付最低207元、最高千余元的保费,即可通过“穗新保”全额报销高达30万元的质子治疗费用,重燃高质量生活希望时
2025-09-03 17:13:00
山东移动日照分公司:数智转型,打造高端板材涂镀产业新标杆
鲁网9月3日讯日照市昱岚新材料有限公司招商引资项目总投资达 63 亿元,目标打造全国最具竞争力的马口铁生产基地。项目分三期建设
2025-09-03 17:14:00
短视频平台丰富了公众的日常生活,提供了公众所需的各类信息,近年来,越来越多的人通过短视频平台向公众传播医学知识,但这些内容并非全部真实可信
2025-09-03 21:24:00
夏末秋初求职盛宴,山东省人力资源市场喊你来“挑”工作啦!
金九银十求职季,山东省人力资源市场为广大求职者准备了一系列精彩纷呈的招聘活动,无论是刚踏出校园的应届生,还是寻求职业转型的职场人
2025-09-03 18:51:00
吉哒哒生炸鸡架盛唐荟店开业,凭差异化优势领跑行业
近日,炸鸡品类新势力——济南星瀚途旗下吉哒哒生炸鸡架盛唐荟店正式开业,持续引发市场关注。开业当日,现场食客络绎不绝,人气火爆
2025-09-03 18:57:00
豪米客鲜烤牛肉拌饭以特色引领韩式餐饮新潮流
当下餐饮行业竞争日趋白热化,同质化严重的赛道已难见增长红利,而那些能精准捕捉消费需求、构建独特记忆点的特色品类,正凭借差异化优势突围而出
2025-09-03 18:59:00