• 我的订阅
  • 头条热搜
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...v。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时,为提高模型能...……更多
DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
...其主要内容是关于NSA(即Natively Sparse Attention,原生稀疏注意力)。与此同时,在论文署名中,第一作者袁景阳是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作...……更多
...运文解释,它运用了多种技术创新,如采用MLA(多头潜在注意力)架构,成功压缩了键值缓存;使用对偶流水线机制,通过设计流水线调度,让GPU算力和通信算力在训练中并行隐藏,成功减少了计算瓶颈,实现几乎不间断的运算...……更多
...2.0”系列大模型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...架构在处理较长文本时可能会遇到困难。 Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句...……更多
MiniMax进化论:一群「偏执者」的破浪前行
...。也是在同一时期,在同行还普遍采用传统Transformer的自注意力计算机制时,MiniMax就已经开启了对混合注意力机制的探索,并在其后将这一技术用于M1模型。所谓混合注意力机制,就是1/8使用自注意力机制,另外7/8使用了自创的L...……更多
DeepSeek创始人梁文锋:中国AI不可能永远跟随 必然有人站到技术的前沿
快科技1月27日消息,随着DeepSeek全球爆火,其创始人梁文锋从幕后走到了台前。20日下午,高层主持召开专家、企业家和教科文卫体等领域代表座谈会。此前,非常少露面的DeepSeek老板梁文锋,受邀参加并发言。此前接受媒体采...……更多
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
...为我的书做了宣传》的文章中,祖克曼称DeepSeek创始人梁文锋为他的书写了中文版序言,并呼吁梁文锋“尽快联系”他。据《华尔街日报》介绍,祖克曼是《华尔街日报》的特约撰稿人。他作为一名调查记者,在该报工作长达27...……更多
DeepSeek创始人老家成热门打卡地:家长带着孩子拍照打卡
...息,据报道,今年春节,近日火爆全球的DeepSeek创始人梁文锋回到家乡——广东省湛江市吴川市覃巴镇米历岭村过年。梁文锋受到乡民的热烈欢迎,村民在村口拉起横幅,上面写有“热烈欢迎文锋荣归故里,家乡因你而骄傲”等...……更多
0提示词就能续写小说!彩云科技首创DCFormer架构大模型,AI秒变网文产粮神器
...,彩云科技团队构建DCFormer框架,提出可动态组合的多头注意力(DCMHA),替换Transformer核心组件多头注意力模块(MHA),解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了...……更多
同时登顶中美下载排行榜,DeepSeek凭啥超越GPT?看它自己怎么回答
...骥微博账号值得一提的是,1月20日,深度求索的创始人梁文锋参加了国务院总理李强主持召开的专家、企业家和教科文卫体等领域代表座谈会。据东方网报道,梁文锋本科、研究生毕业于浙江大学,拥有信息与电子工程学系本科...……更多
「数据中台」降温后,企业数智化下一局何解?
...这类企业往往在建立数据中台的过程中用力过猛,将大量注意力放在数据资产基础设施的建设上,又“大而全”地对各类数据进行整理和统一,却忽略了自身业务的实际需求。数千万甚至亿级的资源和人力投入,却使得数据中台...……更多
DeepSeek,这条诞生在杭州的“鲸鱼” 这几天在全球科技圈、资本圈掀起滔天巨浪
金鳞耀岁 共启新程梁文锋在总理座谈会上发言 新闻联播截图昨天傍晚DeepSeek最新发布的乙巳新年春节AI贺词 一场名为DeepSeek(深度求索)的风暴,正在席卷全球。昨天,中美两国的苹果应用商店同时被一条“鲸鱼”攻占。作为...……更多
...论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力),简单来说,NSA针对现代硬件进行了优化设计,能够加速推理过程,同时降低预训练成本,且不牺牲性能。有从业者表示,“NSA的创新价值不可限量,可以算是《At...……更多
DeepSeek爆火 网友热议广东AI三杰
...体综合报道,近日,随着DeepSeek公司的崛起,其创始人梁文锋成为了公众瞩目的焦点。这位1985年出生于广东湛江的科技奇才,梁文锋的成功并非一蹴而就。自浙江大学毕业后,他便开始了在人工智能领域的探索之旅。在量化投资...……更多
了解CEEX:揭秘其创新通缩策略下的MeMe平台币CMC
...正确”方式。在信息热点快速迭代的币圈,最有价值的是注意力。知名博主@redphonecrypto指出:“代币吸引注意力的能力比其他指标更重要,吸引注意力的能力越强,其潜在的上升空间就越大。”在这样的环境下,CEEX和其旗下的Me...……更多
腾讯、阿里都碰壁!梁文锋拒绝投资:不想用DeepSeek赚快钱
快科技3月11日消息,据媒体报道,DeepSeek创始人梁文锋拒绝了通过其大模型赚快钱的投资提议,他表示希望保持对科学研究的专注,而不是急于通过外部投资实现快速盈利。据知情人士透露,梁文锋担心外部投资者会干预DeepSeek...……更多
杭州四小龙:闪耀的“东方神秘力量”
...former。区别于以往的神经网络模型,它使用了全新的“自注意力机制”来处理语言,能让机器更好地关联上下文,更精准地理解人类语言。到了2018年,谷歌基于Transformer推出了Bert模型,让机器知道一段话里提到的“苹果”究竟...……更多
腾讯猛攻AI的底气:去年日赚6亿元,马化腾见过梁文锋后亲自定调
...还在早期,各行各业都会受益于AI普及。“我们业界和梁文锋都有交流,很敬佩市场上出现独立、开源的产品。”另一方面,腾讯加大投放力度,在27天里投放共花了2.81亿元。除线上投放,腾讯元宝在线下也走上了“下乡”之路...……更多
...的原因,还是它成功地吸引了从美国总统到硅谷领袖们的注意力。更加具有“爽点”的是,因为DeepSeek的存在,OpenAI(美国开放式人工智能研究中心)的首席执行官山姆·奥特曼都“承认错误”了。有人甚至说,DeepSeek才配被称为...……更多
AI来袭,但“SaaS扛把子”神策数据说:要先做更落地的事 | 36氪专访
...里圈中讨论的重要问题。面对AI来袭,神策数据创始人桑文锋更愿意用理性的态度来面对。“ChatGPT极大刷新了我的认知,以前我确实觉得有许多事 AI 搞不了,但现在我坚定了信念,在未来,AI可以让客户经营实现‘全自动驾驶’...……更多
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...Transformer会在这类问题上遇到困难,一个关键因素是Softmax注意力机制的均值特性。直观上,解决计数任务的一种简单方法是让查询token关注所有之前的token,并对与之相同的token分配较高的注意力权重,而对其他的分配较低的权重...……更多
HuggingFace工程师亲授:如何在Transformer中实现最好的位置编码
...篇文章前,你需要掌握一些基本的线性代数、三角学和自注意力的知识。问题陈述与所有问题一样,最好首先了解我们想要实现的目标。Transformer 中的自注意力机制用于理解序列中 token 之间的关系。自注意力是一种集合运算,...……更多
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...适应从非专业到专业场景的需求;第二,鉴于 Transformer 注意力机制作为概率输出模型,天生具有不可控的机理,AI 须具备可预测和稳定的性能;第三,面对大模型可能产生的信息幻觉,确保内容的准确性和真实性是一大挑战;...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
AI圈开年首炸:139位中国清北名校天才 创立一家震撼硅谷的企业
...,DeepSeek的团队规模虽小,但实力不容小觑。其创始人梁文锋领导的团队仅有139名工程师和研究人员,相比之下,OpenAI拥有1200名研究人员,Anthropic也有500多名。然而,DeepSeek凭借一系列吸睛的标签,如“未寻求外部融资”、“创...……更多
制造业AI也迎来大模型时刻? | 智造观察
...学习的解决方案在工业界普遍尝试,创新奇智提出基于双注意力机制的少样本学习和基于原型的分类器学习方法,并且还通过技术创新,扩充数据弥补工业视觉中训练样本不足的问题。2022年底,伴随ChatGPT走热,创新奇智也看到...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...基准上实现了 SOTA。ELM-2B 生成的一些不同类别的图像至于注意力模式,不同大小的模型的差别倒是不大:L 大小的模型主要关注局部信息,难以捕获长程信息。相较之下,更大的 XL 和 XXL 模型的某些层表现出了更长程的注意力,...……更多
DeepSeek掀城市反思潮,江苏省委机关报再度发文追问
...了大厂的前面。也许我们更应该发问的是,当未出圈的梁文锋或者“梁文锋们”用这样的语言传递他们的热爱时,或者当他们失败时,我们能否听到,能否包容。文章继而写道,什么是打造创新型组织的必要条件?“创新需要尽...……更多
更多关于财经的资讯:
中胤时尚等成立新公司,含集成电路业务
近日,浙江英诺云电子科技有限公司成立,注册资本1000万元,经营范围包含:集成电路销售;电子产品销售;网络技术服务;信息系统集成服务等。企查查股权穿透显示,该公司由中胤时尚(30
2025-10-17 13:48:00
中国铝业在大连成立新公司,注册资本31.7亿
近日,中铝(大连)铝业有限公司成立,法定代表人为程涛,注册资本31.7亿人民币,经营范围包括有色金属压延加工、常用有色金属冶炼、新材料技术研发等。企查查股权穿透显示,该公司由中国
2025-10-17 13:48:00
共探开源生态与软件智造新未来 中国国际软件博览会首次在郑州举行
大河网讯 10月15日,第27届中国国际软件博览会在郑州开幕。这是“软博会”首次在郑州举行。本届盛会不仅是把脉软件产业动态
2025-10-17 13:49:00
以保险力量共创绿色未来 中国太保亮相2025可持续全球领导者大会
以“携手应对挑战:全球行动、创新与可持续增长”为主题的2025可持续全球领导者大会,于10月16日至18日在上海市黄浦区世博园区正式召开
2025-10-17 12:22:00
又来一家,控制权拟变更!德力股份,股价“一字”涨停
16日早盘,停牌5个交易日的德力股份(002571)复牌即“一字”涨停。这背后,是这家“卖子”后又拟“卖身”的家用玻璃龙头企业筹划控制权变更事项迎来新进展
2025-10-16 12:39:00
邮储银行河南省分行“民宿贷”助青年返乡创业
大河网讯 给时光以礼物,予岁月以温柔。邮储银行河南省分行重磅推出《礼物》系列专题视频,金融有支持,创业有力量。通过一个个创业故事
2025-10-16 14:09:00
中原银行与中国平煤神马集团签署战略合作协议
大河网讯 10月15日,中原银行股份有限公司(简称中原银行)与中国平煤神马控股集团有限公司(简称中国平煤神马集团)在中原银行大厦举行战略合作协议签约仪式
2025-10-16 14:10:00
邮储银行焦作市分行上下联动 警银协同堵截21万涉诈资金
大河网讯 日前,邮储银行焦作市分行凭借高效的“总分联动机制”,联合焦作市反诈中心,成功拦截一笔21万元涉诈资金,以实际行动筑牢群众财产安全防线
2025-10-16 14:10:00
大全能源在上海投资成立能源科技公司
近日,大全能源科技(上海)有限公司成立,法定代表人为徐广福,注册资本为2亿元,经营范围包含:储能技术服务;电池零配件销售
2025-10-16 14:12:00
计算芯片公司奕行智能新设子公司,含AI与集成电路业务
近日,奕算智能科技(北京)有限公司成立,法定代表人为刘珲,注册资本为500万元,经营范围包含:集成电路设计;人工智能应用软件开发
2025-10-16 14:12:00
穗恒运A等成立综合能源服务公司,含多项光伏业务
近日,盐城恒正综合能源服务有限公司成立,法定代表人为黄启银,经营范围包含:发电业务、输电业务、供(配)电业务;光伏设备及元器件制造
2025-10-16 14:12:00
中建投租赁新造63800吨散货船“远海青翰”轮举行交船暨...
2025年10月11日,中建投租赁新造63800吨散货船“远海青翰”轮在南通象屿海洋装备有限责任公司(以下简称“南通象屿海装”)举行交船暨命名仪式
2025-10-16 14:29:00
天猫精灵联合方太推出全屋智能3.0,智能厨房迎来“空间觉醒”时代
2025云栖大会上,天猫精灵全屋智能3.0的发布引领行业从“设备联网”向“空间觉醒”跨越,而方太作为首家厨电合作伙伴的深度参与
2025-10-16 14:29:00
Porsche Design Tower Bangkok 正式奠基,树立亚洲奢华居住新标杆
曼谷,2025年9月25日 —— Porsche Design Tower Bangkok 今日在曼谷举行奠基仪式,标志着 Porsche Design 在亚洲高端住宅领域迈出重要一步
2025-10-16 14:29:00
美利信成立智能科技公司,含新兴能源相关业务
近日,重庆綦美智能科技有限公司成立,注册资本3000万元,经营范围包含:新材料技术研发;新兴能源技术研发;石墨及碳素制品销售;通用零部件制造等。企查查股权穿透显示,该公司由美利信
2025-10-16 14:48:00