• 我的订阅
  • 头条热搜
国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10
...上,Yi-Lightning在以下方面进行了提升。 首先是优化混合注意力机制(Hybrid Attention),只在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动窗口注意力(Sliding Window Attention)。由此以来,模型在保证处理长序列数..……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...现在预训练模型都是Transfomer,而Transfomer结构是嵌入层、注意力层、前反馈网络层,中间注意力层跟前反馈层都会经过N次迭代,整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算,那最省事了,但CPU的计算能力有限...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...术,节省内存、加速计算。研究表明,块稀疏FlashAttention注意力机制可以进一步减少GPU内存访问次数,加快计算并节省显存;结合PagedAttention构建vLLM11(一种LLM推理加速系统),可实现KV缓存零浪费且支持各请求间共享KV缓存,从...……更多
专家模型不要专家并行!微软开源MoE新路径
...训练路径GRIN MoE由常规的Transformer块构成,采用分组查询注意力(GQA)和滑动窗口注意力来提高计算效率。 采用RoPE进行位置编码,以便在预训练后实现长上下文能力。在MoE架构中,模型通过路由网络为每个输入token挑选适合的专...……更多
腾讯推出 Hunyuan-Large 开源大模型
...入,并更好地泛化到未见数据KV缓存压缩:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐专家特定学习率缩放:为不同专家设置不同的学习率,确保每个子模型...……更多
自然语言处理:大模型理论与实践
...N - gram模型和平滑技术、循环神经网络模型、Seq2Seq模型、注意力机制、Transformer模型及预训练语言模型的基本知识。2. 大模型理论- 架构:讲解基于Transformer的编码、解码、编解码大语言模型架构,非Transformer架构如FAT、AFT、RWKV模...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
... 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式...……更多
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer
...密集任务。增强模型的可解释性由于 Tokenformer 完全基于注意力机制,它自然受益于在 Token-Parameter 交互中与注意力相关的可解释性特性。这一特点增强了模型的可解释性,为 AI 社区开发更透明、易理解的模型贡献力量。 ……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...因为当前最佳的基于 Transformer 的 LLM 既深又宽,并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长。举个例子,Llama 2(7B 版本)堆叠了 32 层 Transformer,模型维度为 4096。在这种情况下,TTFT 需要的 walltime 是……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...Llama3-8B中,占端到端延迟80%的两个主要操作是矩阵乘法和注意力内核,而且它们依旧由CUDA内核操作。为了进一步提升性能,我们开始手写Triton内核来替换上述两个操作。手写Triton内核矩阵乘法对于线性层中的矩阵乘法,编写一...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...先,使用两个相同的ID来包裹其物体特征。由于LLM的因果注意力机制,这种方法通过第一个ID将ID信息与物体特征关联起来,并通过第二个ID将物体信息与其ID关联起来。其次,提出了一个后视觉顺序,将视觉tokens放置在输入序列...……更多
贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样
...寸变化,正在重走CNN的老路!看到大家都被LLaMA 3.1吸引了注意力,贾扬清发出如此感慨。拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象:在ImageNet时代,研究人员和技术从业者见证了参数规模的快速...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...窄3)重新使用编码共享(embedding sharing)方法4)使用组查询注意力机制(grouped query attention)在此基础上,作者还提出了一种块间层共享(block-wise layer-sharing)方法,能够在不引入额外内存开销的情况下进一步提高模型准确率,但..……更多
超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务
...RT-DETR 引入了 YOLO 的 RepNCSP 模块,以替代冗余的多尺度自注意力层,通过重新设计轻量化的混合编码器,实现了实时 DETR;而 YOLOv10 借鉴了 DETR 的匹配策略,通过训练额外的一对一检测头,对密集 anchor 预测进行自动筛选,避免了...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...述与生成图像之间的一致性2、在每个transformer层引入交叉注意力机制,从更精细的粒度控制图像生成,使得生成的图像更加精确地贴合文本。具体网络格式如下:归一化旋转位置编码(Normalized RoPE)对于next-scale prediction范式,如...……更多
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
...据大小的增长速度慢。具体来说,结合以往工作,团队将注意力集中在准确估计学习曲线和模型大小的缩放趋势上。按照一般测量方法,是选择最先进的SOTA模型,并在训练集的更大子集(碎片)上训练这些模型的 “超参数缩减 ...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...练的大语言模型中。具体来说,该适配器:由一系列交叉注意力层组成,负责将图像编码器的表示输入进大语言模型通过在文本-图像对上的训练,实现图像表示与语言表征的对齐在适配器训练期间,Meta会对图像编码器的参数进...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...任务时,这种缺陷会带来挑战。2)其次,由于现有 MLLM 注意力机制的计算复杂度较高,微调 MLLMs 并使用它们生成机器人操作动作会产生更高的计算成本。为了平衡推理能力和效率,NLP 领域出现了几项研究。尤其是,Mamba 引入了...……更多
推理成本直降99%!百川智能「1+3」矩阵揭秘,两张4090玩转旗舰新模型
...Baichuan4-Air的MoE架构保持了MLP(多层感知机)和Attention(注意力机制)的内部结构不变,仅对混合专家MLP层的配置方式进行优化,通过合理配置专家数量和激活策略,能够更好地平衡计算负载,减少计算量,提高推理速度。正是...……更多
清华大学金融科技研究院副院长魏晨阳:大模型以超级助理的形式,会给千行百业带来降本增效的巨大机遇
...持续专注在零到一的创新点,通过并购及时实现退出,把注意力放在下一个创新上。活跃稳定的并购机制,对形成和保持纯粹聚焦的创新氛围,十分重要。 ……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...、更加节能的新能源汽车。它去除了Transformer中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,大大提高了建模效率和训练速度,效率翻倍的同时实现了成本的骤降。“两个方面看,一方面缩短客户的沟通时间...……更多
...可能导致令人窒息的监管,或者转移人们对更紧迫风险的注意力。”“这些模型正在改进,且改进是有用的。”Raji说,“但它们还没有接近意识。”(王方) ……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
...一个因果decoder。文本会先被传递到encoder,然后通过交叉注意力机制发送到decoder,而不是预先填充decoder模型。因此,T5模型也是语言模型!它的一个变体是Prefix语言模型,或者说是PrefixLM架构,它们做的事情几乎一样,除了交叉...……更多
Sora“超级涌现力”将把AI引向何方
...文本构建意义的网络2017年,谷歌公司发表了一篇题为《注意力就是你所需的一切》的论文,提出了一种以自注意力机制为核心的神经网络架构Transformer。只要给定足够多的句子,Transformer就可学习句子中单词与单词之间的共生关...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...是在专家数据上进行(自)监督训练,并大规模应用基于注意力的架构。在此过程中,研究者们开发出了具有令人印象深刻的认知能力的 LLM,如 OpenAI 的 GPT 系列、LLaMA 模型系列或谷歌 DeepMind 的 Chinchilla 和 Gemini。然而,目前还...……更多
彩云科技发布基于DCFormer架构通用大模型云锦天章
...”彩云科技团队构建DCFormer框架,提出可动态组合的多头注意力(DCMHA),替换Transformer核心组件多头注意力模块(MHA),解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型...……更多
无需训练即可大幅提升SAM 2!SAM2Long来了,港中文 上海AI Lab出品
...质量的帧,SAM2Long 通过以下几个步骤来调整每个内存帧在注意力计算中的权重。首先,定义一组线性分布的标准权重,用于对内存中的帧进行加权。这些权重在一个预定义的范围 [w_low, w_high] 之间线性分布,较高的权重将分配给...……更多
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...Transformer会在这类问题上遇到困难,一个关键因素是Softmax注意力机制的均值特性。直观上,解决计数任务的一种简单方法是让查询token关注所有之前的token,并对与之相同的token分配较高的注意力权重,而对其他的分配较低的权重...……更多
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
...GLM-4v-9B等更大参数量的模型。图3方法框图:H-Attn代表高注意力权;L-Attn代表低注意权重;注意权重较低的令牌将被过滤;共享LLM层表示在SCM中使用LLM的块层研究背景多模态大型语言模型(MLMM)在近年了引起了很大的关注。研究...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
... 个 transformer 层(sheesh), 每层都有一个解码器层:多头注意力块和密集块,键值大小 128。多头注意力块:48 个 head 用于查询,8 个用于键 / 值(KV)。KV 大小为 128。密集块(密集前馈块):加宽因子 8,隐藏层大小 32768。每个 ...……更多
更多关于科技的资讯:
MOVA生态链企业获数千万融资,瞄准海外电动工具赛道、预计2025年营收破亿|硬氪首发
作者|黄楠编辑|袁斯来硬氪获悉,沃庭科技(苏州)有限公司(以下简称“沃庭科技”)近日完成数千万元天使轮融资,本轮资金将用于加大技术研发投入
2025-09-23 06:51:00
刘强东,正悄悄孕育“山姆杀手”
前不久,刘强东现身宿迁,又给老家人送上了一份大礼:四家京东折扣超市。有人问,这不是赚老乡钱吗,算什么礼物?因为这些超市主打的
2025-09-22 10:23:00
近日,合众人寿秦皇岛中支开展“鎏金岁月,匠心相伴”主题金箔手作沙龙活动,通过沉浸式手工体验,为参加客户呈现了一场融合艺术鉴赏与情感联结的特别回馈
2025-09-22 10:32:00
东港股份转型科技先锋 AI具身机器人深耕为民服务
海报新闻记者 宋嵩 张彤彤“您好,我是小智,有什么可以帮助您?”在政务大厅、大型展馆、学校可以看到忙碌的“小家伙”,它们各司其职
2025-09-22 10:33:00
“人拉肩扛”到“云端挖矿” 山东黄金的数智蜕变
海报新闻记者 张彤彤三山岛金矿的井下巷道里,5G信号正穿梭于岩壁之间,中控室的大屏上,矿石流动的情况与千米深的矿洞数据实时变化
2025-09-22 10:33:00
从莱阳田野到国际餐桌 春雪食品引领鸡肉调理品行业高质量发展
海报新闻记者 宋嵩故事的起点,要追溯到2012年。彼时,山东春雪食品有限公司在莱阳设立莱阳春雪食品有限公司,最初只是一家区域性的鸡肉加工企业
2025-09-22 10:37:00
大窑饮品重磅推出“宜养说” 植物蛋白赛道再添“实力派”
当下消费者正变得前所未有的理性,这一趋势在饮品市场尤为明显:“好喝”是基础,“健康”已成为新门槛。基于对“轻养生”需求的深度洞察
2025-09-22 10:38:00
近日,西贝创始人贾国龙与网红企业家罗永浩就预制菜价值展开的公开论战,将这一话题推向了舆论漩涡。这场争论背后,折射的正是全社会对食品安全认知的深化——从单纯的“无害”向更高层次的“真实
2025-09-22 10:38:00
从鼓房到健身房:无人值守场景重塑消费体验
本报记者 胡 静 □ 陈跃佳中午十二时,李先生步入街角的24小时无人便利店,扫码开门、自选商品、刷脸支付,全程耗时不足两分钟
2025-09-22 10:39:00
鱼竿里的“大国重器” 光威复材以碳纤维技术书写国产突围之路
海报新闻记者 宋嵩 张彤彤“以前用玻璃纤维竿,钓条十斤的鱼就胳膊酸,这碳纤维的又结实又轻,真是材料不一样了!” 威海的老钓手王师傅喜欢“炫耀”他的新鱼竿
2025-09-22 10:40:00
南山智尚:纤维经纬织就智造之路
大众网·海报新闻记者 康洁一条条线可以让提线木偶惟妙惟肖的表演,而一根根强度高、耐磨损的纤维可以实现机器人手部灵巧的运动
2025-09-22 10:41:00
刚拿到新iPhone就提示设备空间不足?微信员工回应:有bug
日前,iPhone 17系列开售,很多拿到新机的用户第一时间就是转移数据。但最近有微信用户发现,在向新iPhone导入聊天记录时
2025-09-22 10:51:00
京东美妆实现整体双位数高增长 召开首届“至美奖”颁奖盛典
9月19日,京东美妆携手时尚行业知名杂志《嘉人》,在天津泰达航母主题公园举办首届京东美妆“至美奖”颁奖盛典,超百家国内外知名美妆品牌齐聚一堂
2025-09-22 11:10:00
两款泰国产芒果零食获SIAL创新大奖
消费日报网讯 9月初,在2025 SIAL西雅国际食品展(深圳)举办同期,第24届SIAL创新大赛获奖榜单正式发布。CHIN HUAY PUBLIC COMPANY LIMITE
2025-09-22 11:42:00
始祖鸟烟花秀惹争议,关联公司亚玛芬曾抽检不合格,事件波及安踏集团
近日,户外品牌始祖鸟联手艺术家蔡国强合作,在喜马拉雅山脉放烟花一事引发广泛争议。9月21日,西藏日喀则市网信办官方账号“云端珠峰”就此事发布情况通报称
2025-09-22 12:33:00