• 我的订阅
  • 头条热搜
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...的文本信息时可能会遇到困难。 本质上,Transformer 中的注意力机制通过将每个单词(或 token)与文本中的每个单词进行比较来理解上下文,它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩...……更多
国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10
...上,Yi-Lightning在以下方面进行了提升。 首先是优化混合注意力机制(Hybrid Attention),只在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动窗口注意力(Sliding Window Attention)。由此以来,模型在保证处理长序列数..……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...现在预训练模型都是Transfomer,而Transfomer结构是嵌入层、注意力层、前反馈网络层,中间注意力层跟前反馈层都会经过N次迭代,整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算,那最省事了,但CPU的计算能力有限...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...术,节省内存、加速计算。研究表明,块稀疏FlashAttention注意力机制可以进一步减少GPU内存访问次数,加快计算并节省显存;结合PagedAttention构建vLLM11(一种LLM推理加速系统),可实现KV缓存零浪费且支持各请求间共享KV缓存,从...……更多
专家模型不要专家并行!微软开源MoE新路径
...训练路径GRIN MoE由常规的Transformer块构成,采用分组查询注意力(GQA)和滑动窗口注意力来提高计算效率。 采用RoPE进行位置编码,以便在预训练后实现长上下文能力。在MoE架构中,模型通过路由网络为每个输入token挑选适合的专...……更多
腾讯推出 Hunyuan-Large 开源大模型
...入,并更好地泛化到未见数据KV缓存压缩:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐专家特定学习率缩放:为不同专家设置不同的学习率,确保每个子模型...……更多
自然语言处理:大模型理论与实践
...N - gram模型和平滑技术、循环神经网络模型、Seq2Seq模型、注意力机制、Transformer模型及预训练语言模型的基本知识。2. 大模型理论- 架构:讲解基于Transformer的编码、解码、编解码大语言模型架构,非Transformer架构如FAT、AFT、RWKV模...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
... 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式...……更多
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer
...密集任务。增强模型的可解释性由于 Tokenformer 完全基于注意力机制,它自然受益于在 Token-Parameter 交互中与注意力相关的可解释性特性。这一特点增强了模型的可解释性,为 AI 社区开发更透明、易理解的模型贡献力量。 ……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...是一种文本兼容身份适配器。他们的方法采用了掩码交叉注意力技术,可无缝整合字符特征,从而在不直接传输像素的情况下实现精确的布局控制。此外,基于 MLLM 的适配器还能调整角色特征,使其与特定面板的文本线索保持一...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...因为当前最佳的基于 Transformer 的 LLM 既深又宽,并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长。举个例子,Llama 2(7B 版本)堆叠了 32 层 Transformer,模型维度为 4096。在这种情况下,TTFT 需要的 walltime 是……更多
...性价比的训练。此外,盘和林表示,去年到今年,雷军的注意力一直在小米汽车上,如今汽车尘埃落定,雷军自然有时间关注前沿,这也说明,雷军即将押注大模型这条新赛道。(责任编辑 董湘依 制作 郑铮 宅男财经出品)来源:...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...Llama3-8B中,占端到端延迟80%的两个主要操作是矩阵乘法和注意力内核,而且它们依旧由CUDA内核操作。为了进一步提升性能,我们开始手写Triton内核来替换上述两个操作。手写Triton内核矩阵乘法对于线性层中的矩阵乘法,编写一...……更多
让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里
...本下降,起到了关键作用。”他指出,“MLA主要通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN 层的改造相配合,实现了一个非常大的稀疏MoE 层,这成为DeepSeek训...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...先,使用两个相同的ID来包裹其物体特征。由于LLM的因果注意力机制,这种方法通过第一个ID将ID信息与物体特征关联起来,并通过第二个ID将物体信息与其ID关联起来。其次,提出了一个后视觉顺序,将视觉tokens放置在输入序列...……更多
贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样
...寸变化,正在重走CNN的老路!看到大家都被LLaMA 3.1吸引了注意力,贾扬清发出如此感慨。拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象:在ImageNet时代,研究人员和技术从业者见证了参数规模的快速...……更多
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...速镜头等场景有明显提升。3、从头到尾用full attention(全注意力)的机制,没有用时空模块,提升画面流畅度。混元视频生成模型采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换。...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...窄3)重新使用编码共享(embedding sharing)方法4)使用组查询注意力机制(grouped query attention)在此基础上,作者还提出了一种块间层共享(block-wise layer-sharing)方法,能够在不引入额外内存开销的情况下进一步提高模型准确率,但..……更多
超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务
...RT-DETR 引入了 YOLO 的 RepNCSP 模块,以替代冗余的多尺度自注意力层,通过重新设计轻量化的混合编码器,实现了实时 DETR;而 YOLOv10 借鉴了 DETR 的匹配策略,通过训练额外的一对一检测头,对密集 anchor 预测进行自动筛选,避免了...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...述与生成图像之间的一致性2、在每个transformer层引入交叉注意力机制,从更精细的粒度控制图像生成,使得生成的图像更加精确地贴合文本。具体网络格式如下:归一化旋转位置编码(Normalized RoPE)对于next-scale prediction范式,如...……更多
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
...据大小的增长速度慢。具体来说,结合以往工作,团队将注意力集中在准确估计学习曲线和模型大小的缩放趋势上。按照一般测量方法,是选择最先进的SOTA模型,并在训练集的更大子集(碎片)上训练这些模型的 “超参数缩减 ...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...练的大语言模型中。具体来说,该适配器:由一系列交叉注意力层组成,负责将图像编码器的表示输入进大语言模型通过在文本-图像对上的训练,实现图像表示与语言表征的对齐在适配器训练期间,Meta会对图像编码器的参数进...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...任务时,这种缺陷会带来挑战。2)其次,由于现有 MLLM 注意力机制的计算复杂度较高,微调 MLLMs 并使用它们生成机器人操作动作会产生更高的计算成本。为了平衡推理能力和效率,NLP 领域出现了几项研究。尤其是,Mamba 引入了...……更多
推理成本直降99%!百川智能「1+3」矩阵揭秘,两张4090玩转旗舰新模型
...Baichuan4-Air的MoE架构保持了MLP(多层感知机)和Attention(注意力机制)的内部结构不变,仅对混合专家MLP层的配置方式进行优化,通过合理配置专家数量和激活策略,能够更好地平衡计算负载,减少计算量,提高推理速度。正是...……更多
清华大学金融科技研究院副院长魏晨阳:大模型以超级助理的形式,会给千行百业带来降本增效的巨大机遇
...持续专注在零到一的创新点,通过并购及时实现退出,把注意力放在下一个创新上。活跃稳定的并购机制,对形成和保持纯粹聚焦的创新氛围,十分重要。 ……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...、更加节能的新能源汽车。它去除了Transformer中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,大大提高了建模效率和训练速度,效率翻倍的同时实现了成本的骤降。“两个方面看,一方面缩短客户的沟通时间...……更多
...可能导致令人窒息的监管,或者转移人们对更紧迫风险的注意力。”“这些模型正在改进,且改进是有用的。”Raji说,“但它们还没有接近意识。”(王方) ……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
...一个因果decoder。文本会先被传递到encoder,然后通过交叉注意力机制发送到decoder,而不是预先填充decoder模型。因此,T5模型也是语言模型!它的一个变体是Prefix语言模型,或者说是PrefixLM架构,它们做的事情几乎一样,除了交叉...……更多
Sora“超级涌现力”将把AI引向何方
...文本构建意义的网络2017年,谷歌公司发表了一篇题为《注意力就是你所需的一切》的论文,提出了一种以自注意力机制为核心的神经网络架构Transformer。只要给定足够多的句子,Transformer就可学习句子中单词与单词之间的共生关...……更多
更多关于科技的资讯:
从迷失到笃行:一位古贝春经销商的二十载商海沉浮与顿悟
鲁网11月27日讯(记者 赵洪斌)在鲁北商业版图上,王文俊的名字与古贝春酒业紧紧相连。然而,这段长达二十余年的合作关系
2025-11-28 08:45:00
近日,广东宇太能源与河北某工业玻璃龙头企业签约,合作利用空微子发电技术降低企业电耗。该项目由玻璃企业投资,宇太能源提供技术及设备支持
2025-11-28 08:57:00
罗振宇、张夕勇、杨慧林、罗军民四位大咖重磅推荐,杨钧博士《未来竞速》即将出版发行
百年汽车产业大变局的必读之作。近日,由国内汽车行业资深媒体人与研究观察者杨钧博士撰写的新书《竞速未来-全球新能源汽车的崛起与挑战》一书已由中国出版集团中译出版社正式出版发行
2025-11-28 09:27:00
近日,鹏华基金发布公告,旗下科创创业人工智能ETF鹏华 (认购代码:588413)于11月28日正式发行。作为首批双创人工智能ETF中的一员
2025-11-28 10:11:00
入选概率不及万分之二,阿里千问斩获顶级AI会议最佳论文
11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出
2025-11-28 11:01:00
11月24日,位于启东市南阳镇的朗峰新材料启东有限公司生产车间内,自动化生产线高速运转,一条薄如蝉翼的银色金属带材从特制喷嘴中“飞”出
2025-11-28 11:05:00
济南轨道交通集团举办财务资本培训,实战专家孙春浩解析财务精英三级跃迁路径
近日,济南轨道交通集团全资子公司莱芜交通发展集团成功举办财务管理及融资业务培训。本次培训由集团财务管理部部长刘文芹主持
2025-11-28 11:09:00
锚定本土、驱动创新的金融实践!青岛银行荣膺CFV“最佳品牌竞争力城商行”奖项
11月21日,在上海举办的“2025第一财经金融价值年会”上,青岛银行凭借在科技金融、绿色金融、地方经济服务及创新能力方面的突出表现
2025-11-28 11:18:00
挂号缴费不用跑!微信医保移动支付在北京140家公立医院全面上线
近日,北京市参保市民就医迎来“智慧升级”——微信医保移动支付功能已在中国医学科学院、北京协和医院、北京大学人民医院等140家公立医院全面上线
2025-11-28 11:28:00
河北省煤田地质局物测队引入新装备提升探测能力
河北新闻网讯(吕若汐、齐彦红)11月18日,地球物理勘探设备供应商法国塞赛尔公司正式向河北省煤田地质局物测队交付了两套数字地震仪(激发系统)诺玛德65尼奥
2025-11-28 11:53:00
中新经纬11月28日电 北京市广电局网站消息,《北京市促进“人工智能+视听”产业高质量发展行动方案(2025-2029年)》(下称《行动方案》)近日发布
2025-11-28 11:57:00
均胜电子:定位“汽车+机器人Tier1”,双轮驱动进阶智能新时代
全球领先的智能汽车科技解决方案提供商均胜电子(600699.SH / 00699.HK)正以创新驱动和全球协同,在汽车电子
2025-11-28 12:15:00
严禁“带病运行”!河南就政务信息系统开发公开征求意见
大河网讯 为给非涉密政务信息系统的开发建设加上一把“安全锁”,规范全生命周期的安全管控工作,11月27日,省行政审批政务信息管理局起草了《非涉密政务信息系统开发安全管理指南(征求意见稿)》(以下简称《征求意见稿》)
2025-11-28 14:10:00
吉林机场集团门户网站二次升级 打造智慧出行服务新标杆
为持续优化用户体验、丰富服务维度,吉林省民航机场集团有限公司门户网站(https//www.jlairports.com)正式迎来二次重大升级
2025-11-28 14:41:00
商赢酱酒以文化赋能商务社交,重塑“场景思维”新体验
11月25日,一场以“商界链接创富圈层,共享‘商赢酱酒’杯中哲学,解锁中国式商务社交的‘心’语”为主题的交流会在济南成功举办
2025-11-28 14:55:00