• 我的订阅
  • 头条热搜
从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型
...的发现:强大的 Mamba 模型与通常被认为性能不佳的线性注意力有着内在的相似性:本文用统一的公式表述了 Mamba 中的核心模块状态空间模型(SSM)和线性注意力,揭示了二者之间的密切联系,并探究了是哪些特殊的属性和设计...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...潜在token的数量。线性DiT(Diffusion Transformer):用「线性注意力」替换了DiT中所有的普通注意力,在高分辨率下更加高效,且不会牺牲质量。基于仅解码器模型的文本编码器:用现代的仅解码器SLM替换T5作为文本编码器,并设计...……更多
阿里开源版Sora上线即屠榜 4070就能跑 免费商用
...的多语言文本进行编码,并在每个Transformer块内加入交叉注意力机制,将文本嵌入到模型架构中。此外,Wan采用线性层和SiLU层来处理输入时间嵌入并分别预测六个调制参数。这样的MLP在所有Transformer块之间共享,每个块都学习一...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
清华大学丘成桐团队合作推出高维数据非传统去噪新方法
...性结构,新加坡国立大学统计与数据科学系的研究团队和清华丘成桐数学中心团队提出了一种新算法。该算法基于数据统计分布和隐含几何结构,旨在从高维环境空间中的离散样本点恢复出光滑的低维流形结构。研究人员将高维...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
衔远科技周伯文:大模型需要与应用场景相结合,中美GPT追赶是个动态过程
...授,以及协同交互智能研究中心主任。周伯文提出的“自注意力融合多头机制”的自然语言表征机理,成为ChatGPT背后所使用的Transformer架构的核心思想之一,他还曾与图灵奖得主Yoshua Bengio在NLP方向合作发表论文,至今已被引用...……更多
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
476 万、模型构建与定制大单:阿里云(中)
...。中标候选人公示2025 年 4 月 2 日发布中标候选人公示,阿里云 4760283.02 元(不含税)中。第一:阿里云计算有限公司投标报价:4760283.02 元(不含税)第二:北京蜻虹科技有限公司投标报价:4839623.00 元(不含税)第三:杭州辉...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。 额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数...……更多
AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
...大学尤洋以及3位学生推出。具体来说,PAB通过减少冗余注意力计算,可实现高达21.6FPS和10.6倍加速,并且不会牺牲基于DiT的流行视频生成模型(包括Open-Sora、Open-Sora-Plan和Latte)的质量。作为一种免训练方法,PAB可为将来任何基...……更多
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
...集上均表现优秀在推理速度方面,通义千问团队利用稀疏注意力机制将注意力部分的计算量压缩了约12.5倍,将处理1M tokens上下文时的首字返回时间从4.9分钟降低到68秒,实现了4.3倍的速度提升。Qwen2.5-Turbo推理速度可提升4.3倍Qwen2...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...现在预训练模型都是Transfomer,而Transfomer结构是嵌入层、注意力层、前反馈网络层,中间注意力层跟前反馈层都会经过N次迭代,整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算,那最省事了,但CPU的计算能力有限...……更多
KIMI概念爆火,杭州这家上市公司连续20%涨停!
...——Transformer-XL和XLNet。Transformer-XL成为首个全面超越RNN的注意力语言模型,相关论文是NeurIPS 2019与ACL 2019的最高引论文之一;XLNet则在20项任务上超越谷歌BERT模型。 (杨植麟 中)月之暗面的名字来源于英国摇滚乐队Pink F……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...,通过反演实现一步图像重建;掩码引导编辑技术,利用注意力重缩放机制执行局部图像编辑。大量实验证明了 SwiftEdit 的有效性和效率。特别是,SwiftEdit 可实现即时文本引导的图像编辑,其速度比以往的多步骤方法至少快 50 ...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
...新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅。与Transformer相比,RNN模型的一大优势是应对长序列的能力。比如Mamba,内部状态大小始终保持不变,...……更多
在杭州,我们看到了阿里AI生态的近百种应用 | 焦点分析
...。用印有小猪佩奇、爱心等图案的积木套装迅速捕获观众注意力的“AI手办故事会”,在人机交互形式上做了新文章。“AI手办故事会”。图源:作者拍摄参加Demo Show之前,“AI手办故事会”团队已经在宾馆里焊了两天的芯片——...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...时间序列的周期性特征。这个过程通过构建时间转移多头注意力机制实现——将未来的时空嵌入作为查询(Query),历史的时空嵌入作为键(Key),以及历史的时空数据表示作为值(Value)。 作者引入了RMSNorm来提高训练稳定性...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...算顺序等方法近似 Softmax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。线性 RNN 模型线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。然...……更多
「衔远科技」,以ChatGPT助企业数智化创新
...、对话与交互式人工智能的研究经验,他2016年提出的自注意力融合多头机制的自然语言表征机理是Transformer架构的核心思想之一,被Transformer、GAT等论文引用超过2000次;在AIGC领域,他提出的自然语言生成算法被引用3000余次。周...……更多
阿里妈妈首提AIGB并实现大规模商业化落地,将正式开源Benchmark
...不同的模型侧重点不同,例如,Transformer 模型主要基于自注意力机制,能够对样本中跨时序和分层信息进行提取和关联,擅长进行自回归处理。而 Diffusion Model 则缓慢地将随机噪声添加到数据中,然后学习逆向扩散过程以从噪声...……更多
阿里巴巴推出atomovideo高保真图生视频框架
...deo使用预先训练好的T2I模型为基础,在每个空间卷积层和注意力层之后新添加一维时空卷积和注意力模块,T2I模型参数固定,只训练添加的时空层。由于输入的串联图像信息仅由VAE编码,代表的是低层次信息,有助于增强视频相...……更多
长城基金雷俊:量化投资再开新局
...的模型更加丰富。因此,在AI赋能下,因子挖掘可以通过注意力机制和时间序列建模等方法增强收益,在非线性模型中与因子合成等其他环节形成收益互补,量化模型最终形成的系统中包含大量的非结构性数据,能够进一步扩充...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...错进行了理论分析。值得一提的是,他们并没有使用线性注意力机制下的线性回归任务进行理论分析,而是使用真实世界LLM在用的softmax多头注意力机制的transformer结构,并利用Bradley-Terry 模型和 Plackett-Luce 模型(LLM对齐的实际选...……更多
再也不用戳屏幕的“神仙座舱”来了 智己车机进入iPhone时刻
...安全!还是安全!相关研究显示,70%的致命事故都是司机注意力不集中造成的。IM AIOS通过减少触屏操作,直接把驾驶员的注意力拉回路况上。比如调空调温度,以前得戳3次屏幕,现在一句话搞定,眼睛都不用斜一下。 再加上...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...术,节省内存、加速计算。研究表明,块稀疏FlashAttention注意力机制可以进一步减少GPU内存访问次数,加快计算并节省显存;结合PagedAttention构建vLLM11(一种LLM推理加速系统),可实现KV缓存零浪费且支持各请求间共享KV缓存,从...……更多
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
...lama,成为全球第一开源模型家族。DeepSeek此前一度夺走了注意力,更是引发了新一轮的大模型技术竞赛。这个月初,Meta开源最新的LLaMA-4模型,随后快速冲上Chatbot Arena 排行榜第二,仅次于Google刚发布的 Gemini 2.5 Pro。但很快LLaMA-4...……更多
腾讯入局,月之暗面估值飙升百亿元?知情人士:只投了一点点
...GDP抽成。杨植麟认为,广告抽成即广告主为用户的时间、注意力买单,这种模式已在互联网平台得到了验证,确定性更高,但因用户的时间与注意力有限,该商业模式的机会也相对局限。从GDP抽成即从产品产生的价值中抽成。“...……更多
“3D视频版Sora”来了!
...视点的正弦嵌入传递给UNet中的卷积块,并在空间和视图注意力块中,使用输入视频进行交叉注意力条件设定。为了提高时间一致性,SV4D引入了一个额外的运动注意力块,并以第一帧的相应视图为交叉注意力条件。▲SV4D模型结构...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
近期,清华大学电子工程系方璐教授课题组、自动化系戴琼海教授课题组创新性地设计了全前向智能光计算训练架构,开发出一种名为“太极-II”的通用光训练芯片。该架构摆脱了对电计算离线训练的依赖,而且能够为智能系...……更多
更多关于科技的资讯:
厦门网讯(厦门日报记者 林露虹 通讯员 管轩 雷飏)集护眼、通透、高刷新率于一体的天马 “天工屏”;“全球最窄四等边设计”的手机屏幕……今年以来
2025-10-10 08:28:00
2025河北国际工业设计周活动观察:全球智慧赋能未来智造
全球智慧赋能未来智造——2025河北国际工业设计周活动观察9月20日,2025河北国际工业设计周主会场活动在雄安新区举行
2025-10-10 08:40:00
工信部日前公布首批制造业数字化转型促进中心建设主体名单,太原福莱瑞达物流设备科技有限公司入选。制造业数字化转型促进中心是国家落实产业数字化战略的核心公共服务载体
2025-10-10 08:42:00
10月9日,从太原第二热电厂获悉,为全力保障太原市冬季供热安全稳定,持续提升供热服务质效,太原二热秉持“早谋划、早部署
2025-10-10 08:43:00
齐鲁晚报·齐鲁壹点客户端 李孟霏在刚刚过去的国庆中秋“双节”,山东移动威海乳山分公司移动社区营销团队实现品牌口碑与业务发展的双赢
2025-10-10 11:07:00
优优绿能(301590)成立于2015年,是国内直流充电桩模块领军企业之一,2024年在国内充电模块市占率达16%,位居行业第二
2025-10-10 23:06:00
恒润达生信披“迷雾”:“消失”的研发总监与首席科学家?
除研发核心人员离职或在外创办同行业企业外,上海恒润达生生物科技股份有限公司(下称“恒润达生”)招股书对研发团队人员信披的真实性
2025-10-10 23:06:00
互联网贷款普及后,不少初次接触的用户常因平台选择难、流程不熟悉犯愁。其实只要按步骤操作执行,安全又高效,下面由榕易有钱为大家梳理了几项关键步骤
2025-10-10 11:34:00
从志愿翻译到时装新星 河南姑娘在非洲书写青春与梦想
大河网讯 非洲大陆,机遇与挑战并存。越来越多的中国人选择在这里扎根创业,为当地发展注入新活力。毕业于河南工业大学的何方方便是其中之一
2025-10-10 12:11:00
姜杰秀:心中有梦,创业有方,用执着与努力让喜龙果出海
鲁网10月10日讯“我父亲就是做农副产品加工的,从小受父亲的熏陶,我对农副产品加工就有别样的情愫。于是,我就在农副产品加工上有了梦想
2025-10-10 13:56:00
中新经纬10月10日电 “市说新语”微信号10日消息,近日,国家市场监管总局(国家标准委)批准发布一批重要国家标准,涉及助老扶幼
2025-10-10 14:06:00
解锁工业自动化密码,威图与易盼2025IAS硬核破圈瞬间
"新质驱动、高端引领、数智赋能" ,2025中国国际工业博览会聚焦新工业新经济,旨在拉开加快构建一流产业生态,开启智能制造新时代的帷幕
2025-10-10 14:59:00
圆满收官 | 威图RiLineX全新一代配电平台正式发布
制造业行业数字化与智能化水平要求日益提升,这意味着制造业将面临集人力、技术、时间和成本全面优化的巨大挑战。配电系统作为工业场景下能源传输的载体
2025-10-10 14:59:00
河北日报讯(许君强、李晴宇)9月24日,2025河北国际工业设计周辛集分会场活动在辛集市工业设计创新中心启动。此次分会场以“跨界融合·创新设计”为主题
2025-10-10 15:23:00
中新经纬10月10日电 题:这届年轻人,为什么抢着把“国宝”贴冰箱上作者 周慎 中国科大先研院人工智能文旅融合研究院执行院长十一黄金周刚过
2025-10-10 15:45:00