• 我的订阅
  • 头条热搜
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...迎投稿或者联系报道。在自然语言处理、语音识别和时间序列分析等众多领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此,北京大学林宙辰、徐鑫提出...……更多
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
【新智元导读】TimeMixer++是一个创新的时间序列分析模型,通过多尺度和多分辨率的方法在多个任务上超越了现有模型,展示了时间序列分析的新视角,在预测和分类等任务带来了更高的准确性和灵活性。在数据驱动的时代,时...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强大性能与高效运算的大规模时序预...……更多
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer
...现代通用基础模型能够将多模态数据编码成统一的 Token 序列,并有效捕捉它们之间的复杂依赖关系。相反,Token-Parameter 计算主要依赖于固定的 linear projection,大大限制 model size 的 scaling。Scaling model 是通常改变模型结构,……更多
揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷
...上的表现显著优于现有模型,而且在符号公式表示、时间序列预测和语言建模等实际任务中也同样表现出色,超过了Transformer等主流模型。论文链接:https://arxiv.org/pdf/2410.02675.pdf代码链接:https://github.com/YihongDong/FAN……更多
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...的推理中保持或超过了全注意力模型。同时,NSA在64k长度序列的解码、前向传播和后向传播过程中实现比全注意力机制显著的加速,验证其在整个模型生命周期中的效率。“此次DeepSeek发布的论文,可以称为基石更新。”业内人...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transformer 也因此难以处理非常长的文本。前段时间,Mamba ...……更多
infini-attention:谷歌大内存机制
...通过固定数量的参数来存储和回忆信息,而不是随着输入序列长度的增加而增加参数量,能减少内存占用和计算成本。线性注意力机制不同于传统Transformer中的二次方复杂度注意力机制,它能通过更小的计算开销来检索和更新长...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...了降低计算成本,作者利用了 transformer 计算开销与输入序列大小(即每张图像的 patch 数量)的强依赖关系。本文的主要目标是在训练过程中减少 transformer 处理每张图像的有效 patch 数。通过在 transformer 的输入层随机掩蔽(mask)...……更多
2023年度新车总结:纯电还是燃油?如今早已不是非黑即白的问题了!
...始,纯电动新车也开始了高性能取向的尝试,海外品牌AMG序列有了EQ车型,奥迪RS序列有了e-tron车型,中国品牌也有昊铂SSR、极氪001 FR,MG cyberster等… 性能,绝对不是纯油或纯电的专属,而性能之外,油与电的争论还在继续…油...……更多
清华、北大等发布Self-Play强化学习最新综述
...牌类游戏不同,电子游戏通常具有实时操作、更长的动作序列以及更广泛的动作空间和观察空间。在星际争霸(StarCraft)中,玩家需要收集资源、建设基地并组建军队,通过精心的计划和战术执行,使对方玩家失去所有建筑物,...……更多
RNN回归!Bengio新作大道至简与Transformer一较高下
...费的时间,以及新模型带来的加速比。横轴为输入数据的序列长度,批量大小为64。可以看到,相比于原版的LSTM和GRU,minLSTM、minGRU和Mamba的运行时间不会随序列长度而增加(后3个模型的线在左图中重叠了)。当序列长度为4096时...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。相较于RNN,Transformer具有两个显著的优势。1)处理长序列数据:RNN受限于循环结构,难以处理长序列数据。Self-attention机制能够同时处理序列中的所有位置...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...ba 7B 的亮点:无需增加内存存储,就可以处理任意长度的序列,并且能够在单个 24GB A10 GPU 上运行。目前可以在 Hugging Face 上查看并使用 Falcon Mamba 7B,这个仅用因果解码器的模型采用了新颖的Mamba 状态空间语言模型(State Space Lan……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...过程的先验知识。 为了解决这个问题,研究人员在输入序列中插入一个基于文本的tile标签以标记图块的开始以及在整个平铺结构中的位置,然后在标签后附加tile的256个图像token,总共设计了三种标签:1)无标签:无tile标签直...……更多
5年投资超1000亿,北京公布一系列AI重磅成果,北大清华百度蚂蚁微软大佬齐谈AI未来|钛媒体AGI
...覆性技术路线创新,北京将设立创新专项,前瞻布局新型架构芯片、脑智能、类脑智能等新路径探索,《若干措施》择优纳入市级科技研发计划,最高支持3000万元。在数据方面,鼓励各类主体开放共享高质量训练数据,根据数...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...sformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句子中距离较远的单词,模型也能有效地捕获其...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...,速度也要够快才行。 Mamba凭借固定的推理开销,在长序列中的优势明显,但Transformer这边也是有推理加速方案的,比如推测解码。而由于Mamba本身的结构特性,不能直接应用这种方案,所以作者设计了全新的算法,并结合硬件...……更多
马斯克打脸OpenAI!全球最大模型Grok-1开源
...(activation sharding)和8位数字精度量化(8-bit quantization) 最大序列长度为8,192个数据单元,以处理更长的上下文信息纽约时报点评道,开源Gork背后的原始代码,是这个世界上最富有的人控制AI未来战斗的升级。Meta CEO扎克伯格刚刚也对...……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...时KV cache可以量化为3位整数。low-bit attention对于高效的长序列建模至关重要,它减少了KV cache的内存占用和IO,并加速了注意力计算。 在本文的实验中,作者采用RoPE后量化。使用absmax函数将QKV头直接量化为无符号整数,无需任何...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...链接:https://huggingface.co/spirit-lm/Meta-spirit-lm将语音和文本序列拼接成一条token流,并使用一个小型的、自动整理(automatically-curated)的语音-文本平行语料库,采用逐词交错的方法进行训练。Spirit LM有两个版本:……更多
上海交大团队研发通用人工智能,解决传统蛋白质工程难题
...发的蛋白质工程通用人工智能技术,实现面向功能的蛋白序列设计,并被湿实验验证成功之时,心中涌起的激动是无与伦比的。”上海交通大学自然科学研究院&物理与天文学院&药学院特聘教授洪亮表示。图 | 洪亮(来源...……更多
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
...标后来也被应用于T5等模型,不过进行了一定修改,采用序列到序列的格式。说到这里,值得注意的是,T5中的去噪本身并不完全是一个新的目标函数(在机器学习的意义上),而是一种跨输入的数据转换,也就是说,你也可以...……更多
皇冠轿车/全新普拉多首发 一汽丰田车展阵容
...(LC250)车型基于TNGA-F架构平台打造,车系中分为3种产品序列:定位旗舰豪华型的LC300、定位重载使用的LC70,以及兼顾越野和舒适性的LC250。全新的LC250是新一代Land Cruiser的核心车型,与LC300系列采用相同的GA-F平台架构,可以显...……更多
AI真·炼丹:整整14天,无需人类参与
...更大输入长度 另一方面,AlphaFold2因其高维张量运算和长序列并行计算,在推理过程中常⾯临超⼤内存需求,不光影响推理速度,还会限制更长蛋白质序列的预测。为此英特尔从软硬协同的方式给出完整解决方案。一面是提升内...……更多
全球首创智能四驱电混技术“压垮”纯电领域!更省、更远、更安全
...候长城也是拿出了自己的“看家本领”,全新的两大技术序列—Hi4、Hi4-T技术。比起目前市面上大多数的混动动力技术来说更加的先进,而且是基于长城汽车“更省、更远、更安全”的理念,构建行业独有的新能源四驱混动技术...……更多
堪比酷睿横空出世 英特尔发布全新Core Ultra处理器
...后还有3款(2024Q1,maybe),主要包括-H及-U系列。从数字序列来看,则主要包括“5”,“7”两大主流系列,也是市场上销售范围最广,需求量最大的系列。当然也会有“9”系和“3”系来满足高阶和入门用户群体。 以上就是这...……更多
Arrow Lake/酷睿Ultra 200已知信息汇总
...veP核+SkymontE核的设计,但是在面向移动端主流性能的产品序列ArrowLake-H中,还会额外拥有上一代MeteorLake中的Crestmont微架构LPE核心,和MeteorLake核心种类保持为一致的P+E+LPE三丛集核心。 GPU与MeteorLake也保持一致,Arro……更多
信号表征指数级强、内存节省35%,量子隐式表征网络
...还有许多其他潜在的应用,如表示场景或 3D 对象、时间序列预测和求解微分方程。对于一大类对连续信号建模的任务,我们都可以考虑引入隐式表征网络作为基本组件。基于本文的理论和实验基础,我们可以在未来的工作中将 Q...……更多
国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10
...力(Sliding Window Attention)。由此以来,模型在保证处理长序列数据高性能表现的同时,还能大大降低推理成本。Yi-Lightning还引入了跨层注意力(Cross-Layer Attention, CLA),允许模型在不同的层次之间共享键(Key)和值(Value)头,.……更多
更多关于科技的资讯:
【专家观点】中国人民大学新闻学院副院长王润泽:让新闻真实在技术加持下实现多维跃进
3月2日,贵州日报智媒创建启动仪式暨天眼新闻7.0创优版上线仪式在贵州饭店国际会议中心举行。现场,中国人民大学新闻学院副院长王润泽分享了在智媒时代
2025-03-02 22:47:00
这张照片 可以看到不一样的地球
这张照片中冒着绿色光辉的是地球——光辉是由大气气辉、极光,以及多云的太平洋上即将升起的太阳光组成。顶部那个像是黑暗中一道裂缝的部分是银河系——这与地球上的视角基本一样
2025-03-02 23:09:00
全国首个LNG绿色智算中心落址珠海:降低制冷耗能超50%
快科技3月2日消息,据报道,全国首个“LNG冷能综合利用+绿色智算中心”项目(以下简称“LNG绿色智算中心”)在珠海经济技术开发区管委会启动
2025-03-02 23:09:00
济南人工智能创新应用大赛复赛暨颁奖典礼成功举办
3月2日,一场聚焦智慧农业与大数据创新融合的AI赛事——“智算融合 智绘未来”济南人工智能创新应用大赛复赛暨颁奖典礼在数字济南体验馆成功举办
2025-03-02 23:11:00
鸿蒙智行:遭10多万条异常评论诋毁!奖励最高500万元征集线索
快科技3月2日消息,今晚,鸿蒙智能汽车技术生态联盟官方微博“鸿蒙智行发言人”发布了账号的第一条微博,称通过查证和部分网友提供的线索和证据
2025-03-02 23:39:00
助力3250家企业“走出去”,外贸“新春第一展”开幕
本文转自:人民网-上海频道人民网上海3月2日电 (记者龚莎)3月1日,外贸“新春第一展”——第33届华东进出口商品交易会(以下简称“华交会”)在上海新国际博览中心开幕
2025-03-02 19:52:00
167天的奇迹救援!发射失利的两颗中国探月卫星又活了
快科技3月2日消息,一般来说,卫星发射升空后如果遇到故障,想要救援几乎是不可能的,但是中国却创造了一个奇迹!2024年3月13日
2025-03-02 20:09:00
亚马逊首款量子芯片Ocelot发布:量子纠错成本降低90%
继谷歌、微软之后,亚马逊近日也发布了自家的第一代量子计算芯片 Ocelot,首次实现了可扩展的玻色子纠错架构,与目前的量子纠错方式相比成本可以降低超过90%
2025-03-02 20:39:00
生育率实在太低!韩国考虑每周只工作35小时
韩国的生育率一直都是全球最低,2023年韩国的生育率来到了历史最低水平,育龄女性的生育率只有0.72,这意味着每100个育龄女性只会生72个孩子
2025-03-02 20:39:00
比亚迪发布智能车载无人机系统“灵鸢”:全品牌车型可搭
快科技3月2日消息,今日晚间,比亚迪携手大疆在深圳举办智能车载无人机系统发布会,并将该系统正式定名为“灵鸢”。据介绍,“灵鸢”让汽车获得垂向视野
2025-03-02 21:09:00
江南时报讯 记者获悉,江苏首批32家标杆孵化器名单近日出炉。这些标杆孵化器涉及前沿新材料、生物医药、智能制造、绿色技术
2025-03-02 21:14:00
首搭灵鸢无人机系统!豹8无人机版上市:选配价16000元
快科技3月2日消息,比亚迪携手大疆在深圳举办智能车载无人机系统发布会,并将该系统正式定名为“灵鸢”。除已经上市的仰望U8(越野玩家版)外
2025-03-02 21:39:00
全国名字最长的火车站定了!史无前例的7个字
快科技3月2日消息,国铁集团近日正式发文,明确在建的京唐城际始发站正式名称为“北京城市副中心”站,一共7个字(不包含末尾的站字)
2025-03-02 21:39:00
我去试驾了小米SU7 Ultra:它真的想重新定义豪车!
万众期待的 SU7 Ultra 前天上市了, 52.99 万的价格直接把社媒引爆了。雷总之前还说目标一年卖一万辆,结果发布会当晚就完成了
2025-03-02 21:39:00
难以理解!为什么在自然界中 颜色鲜艳代表危险
大自然有自己的规则,鲜艳的颜色通常代表了危险信号,拥有鲜艳颜色的动物,它们很显眼,时刻在提醒潜在捕食者不要招惹自己。那么
2025-03-02 22:09:00