序列,架构,北大,混合,团队,性能头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...迎投稿或者联系报道。在自然语言处理、语音识别和时间序列分析等众多领域中，序列建模是一项至关重要的任务。然而，现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此，北京大学林宙辰、徐鑫提出...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

超越Transformer，全面升级！MIT等华人团队发布通

【新智元导读】TimeMixer++是一个创新的时间序列分析模型，通过多尺度和多分辨率的方法在多个任务上超越了现有模型，展示了时间序列分析的新视角，在预测和分类等任务带来了更高的准确性和灵活性。在数据驱动的时代，时...……更多

2024-10-30 09:58:00时序,架构,团队,领先,任务,升级

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代，时序预测已成为众多领域不可或缺的核心组成。然而，构建一个兼具强大性能与高效运算的大规模时序预...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

Token化一切，甚至网络！北大&谷歌&马普所提出Token

...现代通用基础模型能够将多模态数据编码成统一的 Token 序列，并有效捕捉它们之间的复杂依赖关系。相反，Token-Parameter 计算主要依赖于固定的 linear projection，大大限制 model size 的 scaling。Scaling model 是通常改变模型结构，……更多

2024-11-15 09:51:00马普,北大,网络,模型,增量式,增量

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。前段时间，Mamba ...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

infini-attention：谷歌大内存机制

...通过固定数量的参数来存储和回忆信息，而不是随着输入序列长度的增加而增加参数量，能减少内存占用和计算成本。线性注意力机制不同于传统Transformer中的二次方复杂度注意力机制，它能通过更小的计算开销来检索和更新长...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...了降低计算成本，作者利用了 transformer 计算开销与输入序列大小（即每张图像的 patch 数量）的强依赖关系。本文的主要目标是在训练过程中减少 transformer 处理每张图像的有效 patch 数。通过在 transformer 的输入层随机掩蔽（mask）...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

2023年度新车总结：纯电还是燃油？如今早已不是非黑即白的问

...始，纯电动新车也开始了高性能取向的尝试，海外品牌AMG序列有了EQ车型，奥迪RS序列有了e-tron车型，中国品牌也有昊铂SSR、极氪001 FR，MG cyberster等… 性能，绝对不是纯油或纯电的专属，而性能之外，油与电的争论还在继续…油...……更多

2023-12-29 09:15:00燃油,新车,是非,年度,还是,问题

清华、北大等发布Self-Play强化学习最新综述

...牌类游戏不同，电子游戏通常具有实时操作、更长的动作序列以及更广泛的动作空间和观察空间。在星际争霸（StarCraft）中，玩家需要收集资源、建设基地并组建军队，通过精心的计划和战术执行，使对方玩家失去所有建筑物，...……更多

2024-09-10 13:38:00清华,北大,学习,算法,策略,训练

RNN回归！Bengio新作大道至简与Transformer

...费的时间，以及新模型带来的加速比。横轴为输入数据的序列长度，批量大小为64。可以看到，相比于原版的LSTM和GRU，minLSTM、minGRU和Mamba的运行时间不会随序列长度而增加（后3个模型的线在左图中重叠了）。当序列长度为4096时...……更多

2024-10-26 09:53:00高下,新作,大道,门控,模型,训练

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附

...络（RNN）、卷积神经网络（CNN）等传统神经网络存在的长序列依赖问题。相较于RNN，Transformer具有两个显著的优势。1）处理长序列数据：RNN受限于循环结构，难以处理长序列数据。Self-attention机制能够同时处理序列中的所有位置...……更多

2024-10-21 10:03:00模型,行业报告,新纪元,报告,发展,行业

非Transformer架构站起来了!首个纯无注意力大模型,

...ba 7B 的亮点：无需增加内存存储，就可以处理任意长度的序列，并且能够在单个 24GB A10 GPU 上运行。目前可以在 Hugging Face 上查看并使用 Falcon Mamba 7B，这个仅用因果解码器的模型采用了新颖的Mamba 状态空间语言模型（State Space Lan……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

...过程的先验知识。为了解决这个问题，研究人员在输入序列中插入一个基于文本的tile标签以标记图块的开始以及在整个平铺结构中的位置，然后在标签后附加tile的256个图像token，总共设计了三种标签：1）无标签：无tile标签直...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

5年投资超1000亿，北京公布一系列AI重磅成果，北大清华百

...覆性技术路线创新，北京将设立创新专项，前瞻布局新型架构芯片、脑智能、类脑智能等新路径探索，《若干措施》择优纳入市级科技研发计划，最高支持3000万元。在数据方面，鼓励各类主体开放共享高质量训练数据，根据数...……更多

2024-04-28 11:00:00大佬,清华,微软,重磅,北京,蚂蚁

Mamba再次挑战霸主Transformer！首个通用Mam

...sformer的自注意力机制（Self-Attention）让模型可以关注输入序列中的所有位置，并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系，也就是说，对于句子中距离较远的单词，模型也能有效地捕获其...……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

3天把Llama训成Mamba，性能不降，推理更快！

...，速度也要够快才行。 Mamba凭借固定的推理开销，在长序列中的优势明显，但Transformer这边也是有推理加速方案的，比如推测解码。而由于Mamba本身的结构特性，不能直接应用这种方案，所以作者设计了全新的算法，并结合硬件...……更多

2024-09-06 10:01:00推理,更快,性能,模型,输出,训练

马斯克打脸OpenAI！全球最大模型Grok-1开源

...(activation sharding)和8位数字精度量化(8-bit quantization) 最大序列长度为8,192个数据单元，以处理更长的上下文信息纽约时报点评道，开源Gork背后的原始代码，是这个世界上最富有的人控制AI未来战斗的升级。Meta CEO扎克伯格刚刚也对...……更多

2024-03-20 13:44:00马斯,马斯克,模型,全球,马斯,马斯克

首个可保留情感的音频LLM！Meta重磅开源7B-Spiri

...链接：https://huggingface.co/spirit-lm/Meta-spirit-lm将语音和文本序列拼接成一条token流，并使用一个小型的、自动整理（automatically-curated）的语音-文本平行语料库，采用逐词交错的方法进行训练。Spirit LM有两个版本：……更多

2024-11-23 09:43:00音频,模态,重磅,文本,任务,情感

上海交大团队研发通用人工智能，解决传统蛋白质工程难题

...发的蛋白质工程通用人工智能技术，实现面向功能的蛋白序列设计，并被湿实验验证成功之时，心中涌起的激动是无与伦比的。”上海交通大学自然科学研究院&物理与天文学院&药学院特聘教授洪亮表示。图 | 洪亮（来源...……更多

2024-05-07 09:24:00上海交大,人工智能,交大,上海,蛋白质,蛋白

前谷歌科学家Yi Tay「LLM演义」系列博客第一弹：BER

...标后来也被应用于T5等模型，不过进行了一定修改，采用序列到序列的格式。说到这里，值得注意的是，T5中的去噪本身并不完全是一个新的目标函数（在机器学习的意义上），而是一种跨输入的数据转换，也就是说，你也可以...……更多

2024-07-22 09:39:00科学家,江湖,科学,博客,模型,目标

皇冠轿车/全新普拉多首发一汽丰田车展阵容

...（LC250）车型基于TNGA-F架构平台打造，车系中分为3种产品序列：定位旗舰豪华型的LC300、定位重载使用的LC70，以及兼顾越野和舒适性的LC250。全新的LC250是新一代Land Cruiser的核心车型，与LC300系列采用相同的GA-F平台架构，可以显...……更多

2023-11-15 09:43:00普拉多,皇冠,普拉,丰田,车展,阵容

AI真·炼丹：整整14天，无需人类参与

...更大输入长度另一方面，AlphaFold2因其高维张量运算和长序列并行计算，在推理过程中常⾯临超⼤内存需求，不光影响推理速度，还会限制更长蛋白质序列的预测。为此英特尔从软硬协同的方式给出完整解决方案。一面是提升内...……更多

2024-07-01 19:47:00人类,英特,英特尔,制药,处理,处理器

全球首创智能四驱电混技术“压垮”纯电领域！更省、更远、更安全

...候长城也是拿出了自己的“看家本领”，全新的两大技术序列—Hi4、Hi4-T技术。比起目前市面上大多数的混动动力技术来说更加的先进，而且是基于长城汽车“更省、更远、更安全”的理念，构建行业独有的新能源四驱混动技术...……更多

2023-11-02 11:21:00领域,智能,安全,全球,技术,越野

堪比酷睿横空出世英特尔发布全新Core Ultra处理器

...后还有3款（2024Q1，maybe），主要包括-H及-U系列。从数字序列来看，则主要包括“5”，“7”两大主流系列，也是市场上销售范围最广，需求量最大的系列。当然也会有“9”系和“3”系来满足高阶和入门用户群体。以上就是这...……更多

2023-12-16 13:46:00英特,堪比,英特尔,处理器,全新,处理

Arrow Lake/酷睿Ultra 200已知信息汇总

...veP核+SkymontE核的设计，但是在面向移动端主流性能的产品序列ArrowLake-H中，还会额外拥有上一代MeteorLake中的Crestmont微架构LPE核心，和MeteorLake核心种类保持为一致的P+E+LPE三丛集核心。 GPU与MeteorLake也保持一致，Arro……更多

2024-10-11 22:59:00信息,核心,架构,性能,英特,处理器

信号表征指数级强、内存节省35%，量子隐式表征网络

...还有许多其他潜在的应用，如表示场景或 3D 对象、时间序列预测和求解微分方程。对于一大类对连续信号建模的任务，我们都可以考虑引入隐式表征网络作为基本组件。基于本文的理论和实验基础，我们可以在未来的工作中将 Q...……更多

2024-06-27 09:24:00量子,信号,内存,指数,网络,量子

国产大模型竞技场首超GPT-4o！零一万物GLM共同跻身To

...力（Sliding Window Attention）。由此以来，模型在保证处理长序列数据高性能表现的同时，还能大大降低推理成本。Yi-Lightning还引入了跨层注意力（Cross-Layer Attention, CLA），允许模型在不同的层次之间共享键（Key）和值（Value）头，.……更多

2024-10-17 09:48:00竞技场,万物,模型,国产,竞技,模型

Llama3训练每3小时崩一次？豆包大模型、港大为脆皮万卡训

...利用 Checkpoint 保存过程中 GPU 到 CPU 内存拷贝 ( D2H 复制)，序列化，本地存盘，上传到存储系统各个阶段的执行独立性。此外，不同训练进程共同分担 Checkpoint 存取任务的并行处理潜力也没有被充分发掘。这些系统设计上的不足增...……更多

2024-08-09 09:37:00万卡,训练,豆包,脆皮,大为,模型

史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学

...的示例，这里运行具有四个输入 token 和四个输出 token 的序列。每种颜色代表不同的序列。我们可以扩展相同的技巧，从而运行具有 2048 个输入 token 和 128 个输出 token 的 Llama 3 70B。每个 batch 中包含用于一个序列的 2048 个输入 to.……更多

2024-06-27 09:24:00辍学生,哈佛,芯片,速度,芯片,模型