• 我的订阅
  • 头条热搜
从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型
...的发现:强大的 Mamba 模型与通常被认为性能不佳的线性注意力有着内在的相似性:本文用统一的公式表述了 Mamba 中的核心模块状态空间模型(SSM)和线性注意力,揭示了二者之间的密切联系,并探究了是哪些特殊的属性和设计...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...潜在token的数量。线性DiT(Diffusion Transformer):用「线性注意力」替换了DiT中所有的普通注意力,在高分辨率下更加高效,且不会牺牲质量。基于仅解码器模型的文本编码器:用现代的仅解码器SLM替换T5作为文本编码器,并设计...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
清华大学丘成桐团队合作推出高维数据非传统去噪新方法
...性结构,新加坡国立大学统计与数据科学系的研究团队和清华丘成桐数学中心团队提出了一种新算法。该算法基于数据统计分布和隐含几何结构,旨在从高维环境空间中的离散样本点恢复出光滑的低维流形结构。研究人员将高维...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
衔远科技周伯文:大模型需要与应用场景相结合,中美GPT追赶是个动态过程
...授,以及协同交互智能研究中心主任。周伯文提出的“自注意力融合多头机制”的自然语言表征机理,成为ChatGPT背后所使用的Transformer架构的核心思想之一,他还曾与图灵奖得主Yoshua Bengio在NLP方向合作发表论文,至今已被引用...……更多
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
...集上均表现优秀在推理速度方面,通义千问团队利用稀疏注意力机制将注意力部分的计算量压缩了约12.5倍,将处理1M tokens上下文时的首字返回时间从4.9分钟降低到68秒,实现了4.3倍的速度提升。Qwen2.5-Turbo推理速度可提升4.3倍Qwen2...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。 额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数...……更多
AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
...大学尤洋以及3位学生推出。具体来说,PAB通过减少冗余注意力计算,可实现高达21.6FPS和10.6倍加速,并且不会牺牲基于DiT的流行视频生成模型(包括Open-Sora、Open-Sora-Plan和Latte)的质量。作为一种免训练方法,PAB可为将来任何基...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...现在预训练模型都是Transfomer,而Transfomer结构是嵌入层、注意力层、前反馈网络层,中间注意力层跟前反馈层都会经过N次迭代,整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算,那最省事了,但CPU的计算能力有限...……更多
KIMI概念爆火,杭州这家上市公司连续20%涨停!
...——Transformer-XL和XLNet。Transformer-XL成为首个全面超越RNN的注意力语言模型,相关论文是NeurIPS 2019与ACL 2019的最高引论文之一;XLNet则在20项任务上超越谷歌BERT模型。 (杨植麟 中)月之暗面的名字来源于英国摇滚乐队Pink F……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...,通过反演实现一步图像重建;掩码引导编辑技术,利用注意力重缩放机制执行局部图像编辑。大量实验证明了 SwiftEdit 的有效性和效率。特别是,SwiftEdit 可实现即时文本引导的图像编辑,其速度比以往的多步骤方法至少快 50 ...……更多
在杭州,我们看到了阿里AI生态的近百种应用 | 焦点分析
...。用印有小猪佩奇、爱心等图案的积木套装迅速捕获观众注意力的“AI手办故事会”,在人机交互形式上做了新文章。“AI手办故事会”。图源:作者拍摄参加Demo Show之前,“AI手办故事会”团队已经在宾馆里焊了两天的芯片——...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
...新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅。与Transformer相比,RNN模型的一大优势是应对长序列的能力。比如Mamba,内部状态大小始终保持不变,...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...时间序列的周期性特征。这个过程通过构建时间转移多头注意力机制实现——将未来的时空嵌入作为查询(Query),历史的时空嵌入作为键(Key),以及历史的时空数据表示作为值(Value)。 作者引入了RMSNorm来提高训练稳定性...……更多
阿里妈妈首提AIGB并实现大规模商业化落地,将正式开源Benchmark
...不同的模型侧重点不同,例如,Transformer 模型主要基于自注意力机制,能够对样本中跨时序和分层信息进行提取和关联,擅长进行自回归处理。而 Diffusion Model 则缓慢地将随机噪声添加到数据中,然后学习逆向扩散过程以从噪声...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...算顺序等方法近似 Softmax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。线性 RNN 模型线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。然...……更多
「衔远科技」,以ChatGPT助企业数智化创新
...、对话与交互式人工智能的研究经验,他2016年提出的自注意力融合多头机制的自然语言表征机理是Transformer架构的核心思想之一,被Transformer、GAT等论文引用超过2000次;在AIGC领域,他提出的自然语言生成算法被引用3000余次。周...……更多
阿里巴巴推出atomovideo高保真图生视频框架
...deo使用预先训练好的T2I模型为基础,在每个空间卷积层和注意力层之后新添加一维时空卷积和注意力模块,T2I模型参数固定,只训练添加的时空层。由于输入的串联图像信息仅由VAE编码,代表的是低层次信息,有助于增强视频相...……更多
长城基金雷俊:量化投资再开新局
...的模型更加丰富。因此,在AI赋能下,因子挖掘可以通过注意力机制和时间序列建模等方法增强收益,在非线性模型中与因子合成等其他环节形成收益互补,量化模型最终形成的系统中包含大量的非结构性数据,能够进一步扩充...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...错进行了理论分析。值得一提的是,他们并没有使用线性注意力机制下的线性回归任务进行理论分析,而是使用真实世界LLM在用的softmax多头注意力机制的transformer结构,并利用Bradley-Terry 模型和 Plackett-Luce 模型(LLM对齐的实际选...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...术,节省内存、加速计算。研究表明,块稀疏FlashAttention注意力机制可以进一步减少GPU内存访问次数,加快计算并节省显存;结合PagedAttention构建vLLM11(一种LLM推理加速系统),可实现KV缓存零浪费且支持各请求间共享KV缓存,从...……更多
“3D视频版Sora”来了!
...视点的正弦嵌入传递给UNet中的卷积块,并在空间和视图注意力块中,使用输入视频进行交叉注意力条件设定。为了提高时间一致性,SV4D引入了一个额外的运动注意力块,并以第一帧的相应视图为交叉注意力条件。▲SV4D模型结构...……更多
腾讯入局,月之暗面估值飙升百亿元?知情人士:只投了一点点
...GDP抽成。杨植麟认为,广告抽成即广告主为用户的时间、注意力买单,这种模式已在互联网平台得到了验证,确定性更高,但因用户的时间与注意力有限,该商业模式的机会也相对局限。从GDP抽成即从产品产生的价值中抽成。“...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
近期,清华大学电子工程系方璐教授课题组、自动化系戴琼海教授课题组创新性地设计了全前向智能光计算训练架构,开发出一种名为“太极-II”的通用光训练芯片。该架构摆脱了对电计算离线训练的依赖,而且能够为智能系...……更多
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
...为设计下一代专门用于推理的AI模型提供了概念框架。 清华叉院姚期智、袁洋领衔这篇论文由清华交叉信息研究院姚期智、袁洋领衔,论文第一作者为张伊凡。张伊凡张伊凡2021年本科毕业于于北京大学元培学院,现为清华大学...……更多
电商之外,阿里的另一场反击!
一切才刚开始。被马云反复强调的AI,正悄然开启阿里巴巴的新篇章。这不但体现在它正加速电商业务的AI变革,也体现在它对中国AI初创公司拔尖者包圆式的投资。业内甚至有句玩笑话:“如果你想投资中国AI初创公司,最好的...……更多
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...全球最大的针对双臂机器人操作任务的扩散基础模型,由清华大学人工智能研究院 TSAIL 团队构建。当前,机器人领域公认的卡脖子问题是 “不够智能”。许多模型需要人教几十遍才能完成单个任务,面对没教过的情况则 “束手...……更多
赛道正在变得拥挤 腾讯混元大模型杀入文生视频 让用户 “用起来”是关键
...体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换;通过先进的图像视频混合VAE(3D 变分编码器),让模型在细节表现有明显提升,特别是...……更多
更多关于科技的资讯:
智网车路云 创新领未来——2024鄂尔多斯智能网联产业生态大会开幕
本文转自:人民网-内蒙古频道活动现场。实习生 王柯然摄人民网鄂尔多斯12月23日电 (张雪冬、实习生王柯然)12月23日
2024-12-23 22:04:00
乘联会秘书长:不看好日产和本田合并 忘记降油耗的三缸机了吗
快科技12月23日消息,乘联分会秘书长崔东树通过其个人微信公众号发文称,个人不看好日产和本田的合并。在他看来,本田和日产均需要加大中国本土化研发投入和实现依托中国产业链优势的产品创新
2024-12-23 22:04:00
《王者荣耀》梦幻联动:QQ飞车女主小橘子开到王者峡谷
快科技12月23日消息,《王者荣耀》宣布联动《QQ飞车》,女主小橘子来到王者峡谷。设计团队采用运动机能与现代时尚风格进行设计
2024-12-23 22:04:00
快递包裹飞起来!山东移动临沂分公司5G-A赋能现代物流城发展
齐鲁晚报·齐鲁壹点 主余凤近日,在临沂市新明辉智慧仓储物流园,一个快递包裹正等待着它的特殊旅程。与往常不同,这个包裹不是通过传统的货车运输
2024-12-23 22:25:00
美团“团买买”突然停止运营!可退款
快科技12月23日消息,美团旗下微信社群团购业务“团买买”发布公告称,由于平台业务调整,团买买将于2024年12月31日24时起停止运营
2024-12-23 22:34:00
新一代核心系统全面上线!中华财险与阿里云达成数智化升级新合作
中国网讯(记者 胡俊)12月23日,中华财险新一代分布式核心系统全面上线,其建设规模和复杂度在业内均为罕见,成效也殊为显著
2024-12-23 22:55:00
蚂蚁集团大动作!成立新的支付宝事业群 实施轮值总裁制度
快科技12月23日消息,蚂蚁集团发布全员信,进行新一轮组织架构调整。在新的组织架构调整中,蚂蚁集团将新成立数字支付事业群和支付宝事业群两大事业群
2024-12-23 23:04:00
EA否决《死亡空间4》
格兰·斯科菲尔德开创了《死亡空间》系列,在离开EA Visceral后又与他人创立了Sledgehammer工作室,动视收购了该工作室并将其升格为年货供应商
2024-12-23 23:04:00
【评论员观察】抓首发经济抢市场机遇
“察势者明,趋势者智。”中央经济工作会议后,“首发经济”成为热门话题。简单而言,首发经济是企业一系列开创性经济活动的集合
2024-12-23 23:25:00
男子9年前买199元“恋爱险”结婚后兑付:到账1万元
快科技12月23日消息,据报道,近期有多位网友发帖称,自己多年前购买的“恋爱保险”,最近在保险公司的要求下赔付1999元
2024-12-23 23:34:00
2025开年首款新机!REDMI Turbo 4开启预约:首发天玑8400-Ultra
快科技12月23日消息,REDMI Turbo 4目前已经正式开启预约,该机将于2025年1月发布,是2025开年首款新机
2024-12-23 18:33:00
韩国学术界呼吁效仿台积电成立KSMC:维持半导体领导地位
快科技12月23日消息,据媒体报道,韩国国家工程院(NAEK)近日在首尔举行的研讨会上,讨论了效仿台积电成立韩国半导体制造公司(KSMC)的计划
2024-12-23 18:33:00
央视曝光智能门锁突然自燃失火原因!看完速转发给家人
快科技12月23日消息,据央视报道,日前,贵州贵阳一小区位于13层的住宅发生火情,消防员到场后发现,房屋门锁紧闭,无人员在内
2024-12-23 18:33:00
小米SU7最新版本OTA推送:正式接入VLM视觉语言大模型
快科技12月23日消息,小米汽车官方宣布,小米SU7汽车已接收到Xiaomi HyperOS 1.4.5版本的OTA更新
2024-12-23 18:33:00
近日,中新经纬小编跟随搬家师傅体验了“搬家小哥”的一天。曹师傅表示:“老手平均一个月挣一万四五没问题,单王也能到两万。也有挣几千的
2024-12-23 18:47:00