• 我的订阅
  • 头条热搜
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...v。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时,为提高模型能...……更多
DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
...其主要内容是关于NSA(即Natively Sparse Attention,原生稀疏注意力)。与此同时,在论文署名中,第一作者袁景阳是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作...……更多
...运文解释,它运用了多种技术创新,如采用MLA(多头潜在注意力)架构,成功压缩了键值缓存;使用对偶流水线机制,通过设计流水线调度,让GPU算力和通信算力在训练中并行隐藏,成功减少了计算瓶颈,实现几乎不间断的运算...……更多
...2.0”系列大模型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...架构在处理较长文本时可能会遇到困难。 Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句...……更多
MiniMax进化论:一群「偏执者」的破浪前行
...。也是在同一时期,在同行还普遍采用传统Transformer的自注意力计算机制时,MiniMax就已经开启了对混合注意力机制的探索,并在其后将这一技术用于M1模型。所谓混合注意力机制,就是1/8使用自注意力机制,另外7/8使用了自创的L...……更多
DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿
快科技1月27日消息,随着DeepSeek全球爆火,其创始人梁文锋从幕后走到了台前。20日下午,高层主持召开专家、企业家和教科文卫体等领域代表座谈会。此前,非常少露面的DeepSeek老板梁文锋,受邀参加并发言。此前接受媒体采...……更多
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
...为我的书做了宣传》的文章中,祖克曼称DeepSeek创始人梁文锋为他的书写了中文版序言,并呼吁梁文锋“尽快联系”他。据《华尔街日报》介绍,祖克曼是《华尔街日报》的特约撰稿人。他作为一名调查记者,在该报工作长达27...……更多
DeepSeek创始人老家成热门打卡地:家长带着孩子拍照打卡
...息,据报道,今年春节,近日火爆全球的DeepSeek创始人梁文锋回到家乡——广东省湛江市吴川市覃巴镇米历岭村过年。梁文锋受到乡民的热烈欢迎,村民在村口拉起横幅,上面写有“热烈欢迎文锋荣归故里,家乡因你而骄傲”等...……更多
0提示词就能续写小说!彩云科技首创DCFormer架构大模型,AI秒变网文产粮神器
...,彩云科技团队构建DCFormer框架,提出可动态组合的多头注意力(DCMHA),替换Transformer核心组件多头注意力模块(MHA),解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了...……更多
同时登顶中美下载排行榜,DeepSeek凭啥超越GPT?看它自己怎么回答
...骥微博账号值得一提的是,1月20日,深度求索的创始人梁文锋参加了国务院总理李强主持召开的专家、企业家和教科文卫体等领域代表座谈会。据东方网报道,梁文锋本科、研究生毕业于浙江大学,拥有信息与电子工程学系本科...……更多
「数据中台」降温后,企业数智化下一局何解?
...这类企业往往在建立数据中台的过程中用力过猛,将大量注意力放在数据资产基础设施的建设上,又“大而全”地对各类数据进行整理和统一,却忽略了自身业务的实际需求。数千万甚至亿级的资源和人力投入,却使得数据中台...……更多
DeepSeek,这条诞生在杭州的“鲸鱼” 这几天在全球科技圈、资本圈掀起滔天巨浪
金鳞耀岁 共启新程梁文锋在总理座谈会上发言 新闻联播截图昨天傍晚DeepSeek最新发布的乙巳新年春节AI贺词 一场名为DeepSeek(深度求索)的风暴,正在席卷全球。昨天,中美两国的苹果应用商店同时被一条“鲸鱼”攻占。作为...……更多
...论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力),简单来说,NSA针对现代硬件进行了优化设计,能够加速推理过程,同时降低预训练成本,且不牺牲性能。有从业者表示,“NSA的创新价值不可限量,可以算是《At...……更多
DeepSeek爆火 网友热议广东AI三杰
...体综合报道,近日,随着DeepSeek公司的崛起,其创始人梁文锋成为了公众瞩目的焦点。这位1985年出生于广东湛江的科技奇才,梁文锋的成功并非一蹴而就。自浙江大学毕业后,他便开始了在人工智能领域的探索之旅。在量化投资...……更多
了解CEEX:揭秘其创新通缩策略下的MeMe平台币CMC
...正确”方式。在信息热点快速迭代的币圈,最有价值的是注意力。知名博主@redphonecrypto指出:“代币吸引注意力的能力比其他指标更重要,吸引注意力的能力越强,其潜在的上升空间就越大。”在这样的环境下,CEEX和其旗下的Me...……更多
腾讯、阿里都碰壁!梁文锋拒绝投资:不想用DeepSeek赚快钱
快科技3月11日消息,据媒体报道,DeepSeek创始人梁文锋拒绝了通过其大模型赚快钱的投资提议,他表示希望保持对科学研究的专注,而不是急于通过外部投资实现快速盈利。据知情人士透露,梁文锋担心外部投资者会干预DeepSeek...……更多
杭州四小龙:闪耀的“东方神秘力量”
...former。区别于以往的神经网络模型,它使用了全新的“自注意力机制”来处理语言,能让机器更好地关联上下文,更精准地理解人类语言。到了2018年,谷歌基于Transformer推出了Bert模型,让机器知道一段话里提到的“苹果”究竟...……更多
腾讯猛攻AI的底气:去年日赚6亿元,马化腾见过梁文锋后亲自定调
...还在早期,各行各业都会受益于AI普及。“我们业界和梁文锋都有交流,很敬佩市场上出现独立、开源的产品。”另一方面,腾讯加大投放力度,在27天里投放共花了2.81亿元。除线上投放,腾讯元宝在线下也走上了“下乡”之路...……更多
...的原因,还是它成功地吸引了从美国总统到硅谷领袖们的注意力。更加具有“爽点”的是,因为DeepSeek的存在,OpenAI(美国开放式人工智能研究中心)的首席执行官山姆·奥特曼都“承认错误”了。有人甚至说,DeepSeek才配被称为...……更多
AI来袭,但“SaaS扛把子”神策数据说:要先做更落地的事 | 36氪专访
...里圈中讨论的重要问题。面对AI来袭,神策数据创始人桑文锋更愿意用理性的态度来面对。“ChatGPT极大刷新了我的认知,以前我确实觉得有许多事 AI 搞不了,但现在我坚定了信念,在未来,AI可以让客户经营实现‘全自动驾驶’...……更多
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...Transformer会在这类问题上遇到困难,一个关键因素是Softmax注意力机制的均值特性。直观上,解决计数任务的一种简单方法是让查询token关注所有之前的token,并对与之相同的token分配较高的注意力权重,而对其他的分配较低的权重...……更多
HuggingFace工程师亲授:如何在Transformer中实现最好的位置编码
...篇文章前,你需要掌握一些基本的线性代数、三角学和自注意力的知识。问题陈述与所有问题一样,最好首先了解我们想要实现的目标。Transformer 中的自注意力机制用于理解序列中 token 之间的关系。自注意力是一种集合运算,...……更多
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...适应从非专业到专业场景的需求;第二,鉴于 Transformer 注意力机制作为概率输出模型,天生具有不可控的机理,AI 须具备可预测和稳定的性能;第三,面对大模型可能产生的信息幻觉,确保内容的准确性和真实性是一大挑战;...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
AI圈开年首炸:139位中国清北名校天才 创立一家震撼硅谷的企业
...,DeepSeek的团队规模虽小,但实力不容小觑。其创始人梁文锋领导的团队仅有139名工程师和研究人员,相比之下,OpenAI拥有1200名研究人员,Anthropic也有500多名。然而,DeepSeek凭借一系列吸睛的标签,如“未寻求外部融资”、“创...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...基准上实现了 SOTA。ELM-2B 生成的一些不同类别的图像至于注意力模式,不同大小的模型的差别倒是不大:L 大小的模型主要关注局部信息,难以捕获长程信息。相较之下,更大的 XL 和 XXL 模型的某些层表现出了更长程的注意力,...……更多
DeepSeek掀城市反思潮,江苏省委机关报再度发文追问
...了大厂的前面。也许我们更应该发问的是,当未出圈的梁文锋或者“梁文锋们”用这样的语言传递他们的热爱时,或者当他们失败时,我们能否听到,能否包容。文章继而写道,什么是打造创新型组织的必要条件?“创新需要尽...……更多
只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早
...师的绘画技法。深入解读 ProcessPainter 的核心技术1. 时序注意力机制(Temporal Attention)用时序注意力学习生成绘画过程是 ProcessPainter 的核心创新。绘画序列生成的关键是,整个序列是同一张图从抽象到具体的变化过程, 前后帧在...……更多
更多关于财经的资讯:
美团开启“18会员惊喜日” ,会员权益惊喜加倍
10月18日,美团“18会员惊喜日”重磅开启,围绕“每月18日,会员权益惊喜加倍”打造一系列重磅活动,此次以“1000万份真免单”作为升级的首次见面礼
2025-10-18 18:51:00
建设银行聊城分行:“要装修,找建行”信用卡分期解燃眉之急
建设银行推出了信用卡装修分期产品,装修分期最高100万元的申请额度,6-60期灵活的还款期限,可以满足客户本人名下房产
2025-10-18 19:22:00
建设银行聊城分行:多措并举助力消费经济发展
建设银行为满足多种消费者群体的融资需求,不断创新推出消费贷款产品,针对公积金缴存客户推出“建易贷”、针对建行房贷客户推出“房易贷”
2025-10-18 19:22:00
牵手太钢跨界合作 新远宏落地太原 两年内营收增幅122%
一个填补了当地核心部件制造的空白,一个解决了原料运输成本高的困扰。记者10月16日从太钢获悉,太钢集团近年来与四川新远宏机械设备有限公司的跨界合作
2025-10-18 07:07:00
汇元玺业主公开信 凸显招商蛇口库存难题
8月,徐汇汇元玺业主在其公众号的一封封反映项目质量问题的公开信,揭露了招商蛇口的的库存问题。徐汇汇元玺是由香港置地、徐汇城投与招商蛇口联合打造的滨江高端住宅项目
2025-10-17 16:18:00
全球最大培育钻石在河南诞生,企查查:培育钻石相关企业超800家
据媒体报道,近日,在第十五届中国河南国际投资贸易洽谈会上,力量钻石宣布通过高温高压法成功培育出一颗重达156.47克拉的钻石原石
2025-10-17 16:24:00
2025可持续全球领导者大会在沪举行 中国人寿探讨保险业可持续发展
10月16日至18日,2025可持续全球领导者大会(以下简称“可持续大会”)在上海市黄浦区世博园区召开。大会以“携手应对挑战
2025-10-17 16:38:00
时隔仨月再抛“跨界”方案!纳尔股份,拿下“两连板”
时隔不到3个月,主营精密涂布复合材料业务的纳尔股份(002825)再度吹响进军半导体领域的冲锋号。日前,公司对外透露,其拟花费不低于3
2025-10-17 16:40:00
民生银行东营河口支行走进德胜街商户开展消保宣传活动
在经济快速发展的当下,金融安全对于每一位消费者来说都至关重要。为了提升广大商户和居民的金融知识水平,增强消费者权益保护意识以及反诈防诈能力
2025-10-17 16:47:00
民生银行济南泺源支行走进企业 普及防范非法集资知识筑牢金融风险“防护墙”
为提升企业员工防范非法集资的意识和能力,守护企业及员工财产安全,近日,民生银行济南泺源支行组织工作人员走进辖区合作企业
2025-10-17 16:47:00
中荷人寿山东省分公司蜜丝会月饼DIY解锁团圆新体验
桂香渐浓时,团圆意渐浓。中秋节前夕,中荷人寿山东省分公司举办了“月满中秋 饼承心意”蜜丝会月饼DIY活动,30余位女性嘉宾齐聚一堂
2025-10-17 16:48:00
民生银行临沂沂水支行开展反假货币宣传活动 提升公众识别能力
为深入贯彻落实国家关于加强反假货币工作的总体要求,进一步提升公众防范假币意识和识别能力,营造良好的现金流通环境,2025年9月
2025-10-17 16:49:00
民生银行临沂兰山支行深耕商圈教育宣传,筑牢反诈防假金融安全屏障
当前电信网络诈骗手段持续翻新、假币风险仍需警惕,民生银行临沂兰山支行积极履行金融机构社会责任,充分发挥“前哨预警”作用
2025-10-17 16:49:00
民生银行济南玉兰花园社区支行:“三步走”防诈策略守护银发族养老钱
在数字化浪潮下,针对老年群体的金融诈骗手段层出不穷。为守护老年人的钱袋子安全,近日,民生银行济南玉兰花园社区支行精心策划了一场别开生面的反诈宣传活动
2025-10-17 16:49:00
青岛一医疗器械企业拒签政府采购合同被罚2400元且禁入一年
近日,中国政府采购网公布的行政处罚信息显示,青岛慧润兴业医疗器械有限公司(统一社会信用代码:91370203MA3MBDJY74)因中标后无正当理由拒不签订政府采购合同
2025-10-17 16:49:00