• 我的订阅
  • 头条热搜
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...v。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时,为提高模型能...……更多
DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
...其主要内容是关于NSA(即Natively Sparse Attention,原生稀疏注意力)。与此同时,在论文署名中,第一作者袁景阳是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作...……更多
...运文解释,它运用了多种技术创新,如采用MLA(多头潜在注意力)架构,成功压缩了键值缓存;使用对偶流水线机制,通过设计流水线调度,让GPU算力和通信算力在训练中并行隐藏,成功减少了计算瓶颈,实现几乎不间断的运算...……更多
...2.0”系列大模型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...架构在处理较长文本时可能会遇到困难。 Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句...……更多
MiniMax进化论:一群「偏执者」的破浪前行
...。也是在同一时期,在同行还普遍采用传统Transformer的自注意力计算机制时,MiniMax就已经开启了对混合注意力机制的探索,并在其后将这一技术用于M1模型。所谓混合注意力机制,就是1/8使用自注意力机制,另外7/8使用了自创的L...……更多
DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿
快科技1月27日消息,随着DeepSeek全球爆火,其创始人梁文锋从幕后走到了台前。20日下午,高层主持召开专家、企业家和教科文卫体等领域代表座谈会。此前,非常少露面的DeepSeek老板梁文锋,受邀参加并发言。此前接受媒体采...……更多
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
...为我的书做了宣传》的文章中,祖克曼称DeepSeek创始人梁文锋为他的书写了中文版序言,并呼吁梁文锋“尽快联系”他。据《华尔街日报》介绍,祖克曼是《华尔街日报》的特约撰稿人。他作为一名调查记者,在该报工作长达27...……更多
DeepSeek创始人老家成热门打卡地:家长带着孩子拍照打卡
...息,据报道,今年春节,近日火爆全球的DeepSeek创始人梁文锋回到家乡——广东省湛江市吴川市覃巴镇米历岭村过年。梁文锋受到乡民的热烈欢迎,村民在村口拉起横幅,上面写有“热烈欢迎文锋荣归故里,家乡因你而骄傲”等...……更多
0提示词就能续写小说!彩云科技首创DCFormer架构大模型,AI秒变网文产粮神器
...,彩云科技团队构建DCFormer框架,提出可动态组合的多头注意力(DCMHA),替换Transformer核心组件多头注意力模块(MHA),解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了...……更多
同时登顶中美下载排行榜,DeepSeek凭啥超越GPT?看它自己怎么回答
...骥微博账号值得一提的是,1月20日,深度求索的创始人梁文锋参加了国务院总理李强主持召开的专家、企业家和教科文卫体等领域代表座谈会。据东方网报道,梁文锋本科、研究生毕业于浙江大学,拥有信息与电子工程学系本科...……更多
「数据中台」降温后,企业数智化下一局何解?
...这类企业往往在建立数据中台的过程中用力过猛,将大量注意力放在数据资产基础设施的建设上,又“大而全”地对各类数据进行整理和统一,却忽略了自身业务的实际需求。数千万甚至亿级的资源和人力投入,却使得数据中台...……更多
DeepSeek,这条诞生在杭州的“鲸鱼” 这几天在全球科技圈、资本圈掀起滔天巨浪
金鳞耀岁 共启新程梁文锋在总理座谈会上发言 新闻联播截图昨天傍晚DeepSeek最新发布的乙巳新年春节AI贺词 一场名为DeepSeek(深度求索)的风暴,正在席卷全球。昨天,中美两国的苹果应用商店同时被一条“鲸鱼”攻占。作为...……更多
...论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力),简单来说,NSA针对现代硬件进行了优化设计,能够加速推理过程,同时降低预训练成本,且不牺牲性能。有从业者表示,“NSA的创新价值不可限量,可以算是《At...……更多
DeepSeek爆火 网友热议广东AI三杰
...体综合报道,近日,随着DeepSeek公司的崛起,其创始人梁文锋成为了公众瞩目的焦点。这位1985年出生于广东湛江的科技奇才,梁文锋的成功并非一蹴而就。自浙江大学毕业后,他便开始了在人工智能领域的探索之旅。在量化投资...……更多
了解CEEX:揭秘其创新通缩策略下的MeMe平台币CMC
...正确”方式。在信息热点快速迭代的币圈,最有价值的是注意力。知名博主@redphonecrypto指出:“代币吸引注意力的能力比其他指标更重要,吸引注意力的能力越强,其潜在的上升空间就越大。”在这样的环境下,CEEX和其旗下的Me...……更多
腾讯、阿里都碰壁!梁文锋拒绝投资:不想用DeepSeek赚快钱
快科技3月11日消息,据媒体报道,DeepSeek创始人梁文锋拒绝了通过其大模型赚快钱的投资提议,他表示希望保持对科学研究的专注,而不是急于通过外部投资实现快速盈利。据知情人士透露,梁文锋担心外部投资者会干预DeepSeek...……更多
杭州四小龙:闪耀的“东方神秘力量”
...former。区别于以往的神经网络模型,它使用了全新的“自注意力机制”来处理语言,能让机器更好地关联上下文,更精准地理解人类语言。到了2018年,谷歌基于Transformer推出了Bert模型,让机器知道一段话里提到的“苹果”究竟...……更多
腾讯猛攻AI的底气:去年日赚6亿元,马化腾见过梁文锋后亲自定调
...还在早期,各行各业都会受益于AI普及。“我们业界和梁文锋都有交流,很敬佩市场上出现独立、开源的产品。”另一方面,腾讯加大投放力度,在27天里投放共花了2.81亿元。除线上投放,腾讯元宝在线下也走上了“下乡”之路...……更多
...的原因,还是它成功地吸引了从美国总统到硅谷领袖们的注意力。更加具有“爽点”的是,因为DeepSeek的存在,OpenAI(美国开放式人工智能研究中心)的首席执行官山姆·奥特曼都“承认错误”了。有人甚至说,DeepSeek才配被称为...……更多
AI来袭,但“SaaS扛把子”神策数据说:要先做更落地的事 | 36氪专访
...里圈中讨论的重要问题。面对AI来袭,神策数据创始人桑文锋更愿意用理性的态度来面对。“ChatGPT极大刷新了我的认知,以前我确实觉得有许多事 AI 搞不了,但现在我坚定了信念,在未来,AI可以让客户经营实现‘全自动驾驶’...……更多
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...Transformer会在这类问题上遇到困难,一个关键因素是Softmax注意力机制的均值特性。直观上,解决计数任务的一种简单方法是让查询token关注所有之前的token,并对与之相同的token分配较高的注意力权重,而对其他的分配较低的权重...……更多
HuggingFace工程师亲授:如何在Transformer中实现最好的位置编码
...篇文章前,你需要掌握一些基本的线性代数、三角学和自注意力的知识。问题陈述与所有问题一样,最好首先了解我们想要实现的目标。Transformer 中的自注意力机制用于理解序列中 token 之间的关系。自注意力是一种集合运算,...……更多
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...适应从非专业到专业场景的需求;第二,鉴于 Transformer 注意力机制作为概率输出模型,天生具有不可控的机理,AI 须具备可预测和稳定的性能;第三,面对大模型可能产生的信息幻觉,确保内容的准确性和真实性是一大挑战;...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
AI圈开年首炸:139位中国清北名校天才 创立一家震撼硅谷的企业
...,DeepSeek的团队规模虽小,但实力不容小觑。其创始人梁文锋领导的团队仅有139名工程师和研究人员,相比之下,OpenAI拥有1200名研究人员,Anthropic也有500多名。然而,DeepSeek凭借一系列吸睛的标签,如“未寻求外部融资”、“创...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...基准上实现了 SOTA。ELM-2B 生成的一些不同类别的图像至于注意力模式,不同大小的模型的差别倒是不大:L 大小的模型主要关注局部信息,难以捕获长程信息。相较之下,更大的 XL 和 XXL 模型的某些层表现出了更长程的注意力,...……更多
DeepSeek掀城市反思潮,江苏省委机关报再度发文追问
...了大厂的前面。也许我们更应该发问的是,当未出圈的梁文锋或者“梁文锋们”用这样的语言传递他们的热爱时,或者当他们失败时,我们能否听到,能否包容。文章继而写道,什么是打造创新型组织的必要条件?“创新需要尽...……更多
只要一张图就能还原绘画过程,这篇论文比Paints-UNDO实现得更早
...师的绘画技法。深入解读 ProcessPainter 的核心技术1. 时序注意力机制(Temporal Attention)用时序注意力学习生成绘画过程是 ProcessPainter 的核心创新。绘画序列生成的关键是,整个序列是同一张图从抽象到具体的变化过程, 前后帧在...……更多
更多关于财经的资讯:
国家能源集团成立新公司,含资源循环利用服务相关业务
近日,国华(浮山)新能源有限公司成立,法定代表人为赵宏伟,注册资本为2000万元,经营范围包含:发电业务、输电业务、供(配)电业务
2025-10-11 13:48:00
比亚迪公布3D显示相关专利,可拓展座舱内视觉空间
近日,比亚迪(002594)申请的“一种3D显示系统、方法、车载遮阳板组件和车辆”专利公布。专利摘要显示,本申请公开了一种3D显示系统
2025-10-11 13:48:00
上海电力等在盐城滨海成立海上风力发电公司
近日,国电投和智(滨海)海上风力发电有限公司成立,法定代表人为葛前华,注册资本为5亿元,经营范围包含:发电业务、输电业务
2025-10-11 13:48:00
千里科技等成立智行网联公司,含多项AI业务
近日,千里智行网联(成都)科技有限公司成立,注册资本1.5亿元,经营范围包含:人工智能理论与算法软件开发;人工智能行业应用系统集成服务;物联网应用服务;物联网技术服务等。企查查股
2025-10-11 13:48:00
海南水务集团投资成立农业旅游发展公司
近日,海南水发农业旅游发展有限公司成立,法定代表人为王佳希,注册资本为5000万元,经营范围包含:水产品零售;水产品批发
2025-10-11 13:48:00
舜禹股份成立智算低碳科技公司,含AI业务
近日,舜禹智算(上海)低碳科技有限公司成立,注册资本4000万元,经营范围包含:碳减排、碳转化、碳捕捉、碳封存技术研发
2025-10-11 14:00:00
【阜成门外】胡捷:美国政府“停摆”背后是财政制度失灵
中新经纬10月11日电 题:美国政府“停摆”背后是财政制度失灵作者 胡捷 上海交通大学上海高级金融学院教授美国政府“停摆”已超过十天
2025-10-11 14:39:00
2025重庆企业100强发布 长安汽车、赛力斯、龙湖荣膺三甲
2025年10月10日,重庆市企业联合会(企业家协会)在渝召开新闻发布会,发布2025重庆企业100强分析报告及名单。会上同时发布2025重庆制造业企业100强
2025-10-11 15:25:00
中汇人寿潍坊中支积极开展金融知识普及与防诈骗宣传活动
为积极践行以人民为中心的价值取向,助力提升公众金融素养,中汇人寿潍坊中支于近期开展了一系列金融知识普及与防诈骗宣传活动
2025-10-11 15:27:00
中汇人寿潍坊中支赶大集送金融“安全礼”筑牢基层群众资金防护墙
“大姐,您看这宣传册,陌生人让您转账汇款一定要多核实,这可能是电信诈骗的套路!”“大爷,要是有人说能帮您‘高息理财’,千万别信
2025-10-11 15:28:00
精准服务暖商圈金融知识入人心—中汇人寿潍坊中支创新开展金融教育宣传
近日,山东潍坊佳乐家核心商圈内,中汇人寿潍坊中支开展的金融教育宣传活动吸引众多商户与消费者参与。该机构以“分群体精准宣传”为核心
2025-10-11 15:29:00
吉林农商银行与吉林信托签署战略合作协议
10月9日,吉林农商银行与吉林信托战略合作签约仪式在长春举行。吉林农商银行董事长王立生,吉林信托董事长邢中成出席签约仪式并讲话
2025-10-11 15:30:00
面对连阴雨天气带来的影响——国人寿财险山东省分公司多措并举为秋收提供风险保障
齐鲁晚报˙齐鲁壹点记者闫明 通讯员崔广勋当前正值秋收的关键时期,连续多日的阴雨天气给山东省丰收在望的秋粮收获增加了困难和风险因素
2025-10-11 15:30:00
诚信兴商进社区,吉林银行通化分行跨境人民币宣传暖民心
“原来用人民币做跨境结算又安全又划算,以后和国外客户做生意更有底了!”近日,通化市江南社区与厚德载物小区的跨境人民币宣传活动现场
2025-10-11 15:30:00
因这项案由,连云港港口集团收海事罚单
齐鲁晚报·齐鲁壹点记者于中国海事局监管信息公开栏获悉,10月11日,连云港港口集团有限公司(下称“连云港港口集团”)收连云港海事局罚单
2025-10-11 15:31:00