• 我的订阅
  • 头条热搜
从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型
...的发现:强大的 Mamba 模型与通常被认为性能不佳的线性注意力有着内在的相似性:本文用统一的公式表述了 Mamba 中的核心模块状态空间模型(SSM)和线性注意力,揭示了二者之间的密切联系,并探究了是哪些特殊的属性和设计...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...潜在token的数量。线性DiT(Diffusion Transformer):用「线性注意力」替换了DiT中所有的普通注意力,在高分辨率下更加高效,且不会牺牲质量。基于仅解码器模型的文本编码器:用现代的仅解码器SLM替换T5作为文本编码器,并设计...……更多
阿里开源版Sora上线即屠榜 4070就能跑 免费商用
...的多语言文本进行编码,并在每个Transformer块内加入交叉注意力机制,将文本嵌入到模型架构中。此外,Wan采用线性层和SiLU层来处理输入时间嵌入并分别预测六个调制参数。这样的MLP在所有Transformer块之间共享,每个块都学习一...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
清华大学丘成桐团队合作推出高维数据非传统去噪新方法
...性结构,新加坡国立大学统计与数据科学系的研究团队和清华丘成桐数学中心团队提出了一种新算法。该算法基于数据统计分布和隐含几何结构,旨在从高维环境空间中的离散样本点恢复出光滑的低维流形结构。研究人员将高维...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
476 万、模型构建与定制大单:阿里云(中)
...。中标候选人公示2025 年 4 月 2 日发布中标候选人公示,阿里云 4760283.02 元(不含税)中。第一:阿里云计算有限公司投标报价:4760283.02 元(不含税)第二:北京蜻虹科技有限公司投标报价:4839623.00 元(不含税)第三:杭州辉...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。 额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数...……更多
AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
...大学尤洋以及3位学生推出。具体来说,PAB通过减少冗余注意力计算,可实现高达21.6FPS和10.6倍加速,并且不会牺牲基于DiT的流行视频生成模型(包括Open-Sora、Open-Sora-Plan和Latte)的质量。作为一种免训练方法,PAB可为将来任何基...……更多
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
...集上均表现优秀在推理速度方面,通义千问团队利用稀疏注意力机制将注意力部分的计算量压缩了约12.5倍,将处理1M tokens上下文时的首字返回时间从4.9分钟降低到68秒,实现了4.3倍的速度提升。Qwen2.5-Turbo推理速度可提升4.3倍Qwen2...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...现在预训练模型都是Transfomer,而Transfomer结构是嵌入层、注意力层、前反馈网络层,中间注意力层跟前反馈层都会经过N次迭代,整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算,那最省事了,但CPU的计算能力有限...……更多
KIMI概念爆火,杭州这家上市公司连续20%涨停!
...——Transformer-XL和XLNet。Transformer-XL成为首个全面超越RNN的注意力语言模型,相关论文是NeurIPS 2019与ACL 2019的最高引论文之一;XLNet则在20项任务上超越谷歌BERT模型。 (杨植麟 中)月之暗面的名字来源于英国摇滚乐队Pink F……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...,通过反演实现一步图像重建;掩码引导编辑技术,利用注意力重缩放机制执行局部图像编辑。大量实验证明了 SwiftEdit 的有效性和效率。特别是,SwiftEdit 可实现即时文本引导的图像编辑,其速度比以往的多步骤方法至少快 50 ...……更多
在杭州,我们看到了阿里AI生态的近百种应用 | 焦点分析
...。用印有小猪佩奇、爱心等图案的积木套装迅速捕获观众注意力的“AI手办故事会”,在人机交互形式上做了新文章。“AI手办故事会”。图源:作者拍摄参加Demo Show之前,“AI手办故事会”团队已经在宾馆里焊了两天的芯片——...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
...新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅。与Transformer相比,RNN模型的一大优势是应对长序列的能力。比如Mamba,内部状态大小始终保持不变,...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...时间序列的周期性特征。这个过程通过构建时间转移多头注意力机制实现——将未来的时空嵌入作为查询(Query),历史的时空嵌入作为键(Key),以及历史的时空数据表示作为值(Value)。 作者引入了RMSNorm来提高训练稳定性...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...算顺序等方法近似 Softmax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。线性 RNN 模型线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。然...……更多
「衔远科技」,以ChatGPT助企业数智化创新
...、对话与交互式人工智能的研究经验,他2016年提出的自注意力融合多头机制的自然语言表征机理是Transformer架构的核心思想之一,被Transformer、GAT等论文引用超过2000次;在AIGC领域,他提出的自然语言生成算法被引用3000余次。周...……更多
阿里妈妈首提AIGB并实现大规模商业化落地,将正式开源Benchmark
...不同的模型侧重点不同,例如,Transformer 模型主要基于自注意力机制,能够对样本中跨时序和分层信息进行提取和关联,擅长进行自回归处理。而 Diffusion Model 则缓慢地将随机噪声添加到数据中,然后学习逆向扩散过程以从噪声...……更多
阿里巴巴推出atomovideo高保真图生视频框架
...deo使用预先训练好的T2I模型为基础,在每个空间卷积层和注意力层之后新添加一维时空卷积和注意力模块,T2I模型参数固定,只训练添加的时空层。由于输入的串联图像信息仅由VAE编码,代表的是低层次信息,有助于增强视频相...……更多
长城基金雷俊:量化投资再开新局
...的模型更加丰富。因此,在AI赋能下,因子挖掘可以通过注意力机制和时间序列建模等方法增强收益,在非线性模型中与因子合成等其他环节形成收益互补,量化模型最终形成的系统中包含大量的非结构性数据,能够进一步扩充...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...错进行了理论分析。值得一提的是,他们并没有使用线性注意力机制下的线性回归任务进行理论分析,而是使用真实世界LLM在用的softmax多头注意力机制的transformer结构,并利用Bradley-Terry 模型和 Plackett-Luce 模型(LLM对齐的实际选...……更多
再也不用戳屏幕的“神仙座舱”来了 智己车机进入iPhone时刻
...安全!还是安全!相关研究显示,70%的致命事故都是司机注意力不集中造成的。IM AIOS通过减少触屏操作,直接把驾驶员的注意力拉回路况上。比如调空调温度,以前得戳3次屏幕,现在一句话搞定,眼睛都不用斜一下。 再加上...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...术,节省内存、加速计算。研究表明,块稀疏FlashAttention注意力机制可以进一步减少GPU内存访问次数,加快计算并节省显存;结合PagedAttention构建vLLM11(一种LLM推理加速系统),可实现KV缓存零浪费且支持各请求间共享KV缓存,从...……更多
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
...lama,成为全球第一开源模型家族。DeepSeek此前一度夺走了注意力,更是引发了新一轮的大模型技术竞赛。这个月初,Meta开源最新的LLaMA-4模型,随后快速冲上Chatbot Arena 排行榜第二,仅次于Google刚发布的 Gemini 2.5 Pro。但很快LLaMA-4...……更多
腾讯入局,月之暗面估值飙升百亿元?知情人士:只投了一点点
...GDP抽成。杨植麟认为,广告抽成即广告主为用户的时间、注意力买单,这种模式已在互联网平台得到了验证,确定性更高,但因用户的时间与注意力有限,该商业模式的机会也相对局限。从GDP抽成即从产品产生的价值中抽成。“...……更多
“3D视频版Sora”来了!
...视点的正弦嵌入传递给UNet中的卷积块,并在空间和视图注意力块中,使用输入视频进行交叉注意力条件设定。为了提高时间一致性,SV4D引入了一个额外的运动注意力块,并以第一帧的相应视图为交叉注意力条件。▲SV4D模型结构...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
近期,清华大学电子工程系方璐教授课题组、自动化系戴琼海教授课题组创新性地设计了全前向智能光计算训练架构,开发出一种名为“太极-II”的通用光训练芯片。该架构摆脱了对电计算离线训练的依赖,而且能够为智能系...……更多
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
...为设计下一代专门用于推理的AI模型提供了概念框架。 清华叉院姚期智、袁洋领衔这篇论文由清华交叉信息研究院姚期智、袁洋领衔,论文第一作者为张伊凡。张伊凡张伊凡2021年本科毕业于于北京大学元培学院,现为清华大学...……更多
更多关于科技的资讯:
猛犸世纪AI智能体训练营开课,引爆“一人公司”新范式
AI时代,企业的核心竞争力是什么?在2025年11月19日至20日于深圳南山成功举办的“猛犸AI智能体增长训练营”上,答案被清晰地指向了同一个方向
2025-11-24 14:18:00
澳柯玛多款产品获市长杯工业设计大赛金、银、铜奖
鲁网11月24日讯近日,青岛市2025年第八届“市长杯”工业设计大赛获奖名单正式公布,澳柯玛生活电器凭借卓越的设计实力
2025-11-24 14:44:00
嘉必优捷报频传,瞄定中国生物制造踏新阶
近日,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》正式发布,明确提出,推动生物制造、量子科技、氢能和核聚变能等成为新的经济增长点
2025-11-24 15:18:00
为规范大型网络平台个人信息处理活动,保护个人信息合法权益,促进平台经济健康发展,国家互联网信息办公室、公安部起草了《大型网络平台个人信息保护规定(征求意见稿)》
2025-11-24 15:29:00
为强化员工合规意识,切实保障SPACC+营销模式下老年客户的服务安全,富德生命人寿保险有限公司张家口中心支公司于11月12日至13日
2025-11-24 15:32:00
10月29日至31日,百年人寿银行保险渠道在深圳大学举办“金鹏启梦,领行新程”主题研学班。本次活动聚焦专业能力跃升与价值成长路径
2025-11-24 15:33:00
多维促消费,畅享“双十一”——邮储银行三明市分行携手商圈平台打造银客商共赢典范东南网11月24日讯 为紧抓“双十一”消费机遇
2025-11-24 15:44:00
王嘉琳女士受邀出席睿海希尔顿花园酒店开业盛典,共贺新章
日前,重庆渝北中央公园睿海希尔顿花园酒店(以下简称“睿海希尔顿花园酒店”)在渝北区中央公园片区盛大开业。作为全国首家开业的4
2025-11-24 16:30:00
11月21日,2025北京零售商品博览会在北京展览馆启幕,展会以“品质零售·融聚共生”为主题,联动生产商、品牌商、渠道商
2025-11-24 17:41:00
“这个锅的厂家还在吗?”一则寻锅视频在全网爆火,这口“用了三十年仍旧不锈不粘、耐用如初”的锅也被网友称为“传家锅”。感动之余
2025-11-24 18:26:00
AR-500CJ无人直升机用上“芜湖造”发动机
大皖新闻讯 近日,中央电视台第7频道(CCTV-7)在节目中播出AR-500CJ无人直升机海上测试画面。这款无人机的核心动力“云雀”重油发动机
2025-11-24 19:07:00
抢占未来产业新赛道 人形机器人加速场景革命——“企创云课堂@科学咖啡馆”聚焦具身智能前沿,走进杭州南湖未来科学园
11月20日,“企创云课堂@科学咖啡馆:具身觉醒,智能机器人的产业突围与场景革命”主题活动在浙江杭州南湖未来科学园成功举行
2025-11-24 19:30:00
亿货宝“星探智链计划”重磅启动!“明星流量+Ai硬核供应链”双引擎赋能实体经济新增长!
2025年10月27日至29日,“解锁千万门店业绩爆增的密码"亿货宝·星探智链战略合作发布会暨泰国皇室欢迎晚宴在杭州太虚湖假日酒店紫光厅隆重举行
2025-11-24 19:34:00
科技创新是发展新质生产力的核心要素,齐鲁银行滨州分行积极响应科技金融政策号召,结合科技创新活动高投入、长周期、轻资产的特点
2025-11-24 19:34:00
东南网11月24日讯(福建日报记者 林霞) 近日,我省新发布23个软件业技术创新重点攻关及产业化项目,分布于人工智能与关键软件领域
2025-11-25 01:13:00