• 我的订阅
  • 头条热搜
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...了更深的网络。主要差异总结如下:局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的跨度设置为8192个token。 Logit...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...书要分成很多段,然后送去训练。由于大模型训练主要是注意力机制,即注意力参数的训练,只要两个东西相关,就可以发生一个关联。“这是在没有截断的前提下,如果把数据截成8K,第二个8k进来了以后,和第一个8K就没有直...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...神经架构。在 transformer 模型中,这一目标自然可以通过注意力层和前馈层的组合来实现。因此,作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后,他们将对其进行掩蔽(图 2e)...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...及为企业提供更多样化AI选项的市场机会,让科技公司将注意力逐渐转向了SLM。《每日经济新闻》记者注意到,不管是Arcee、Sakana AI和Hugging Face等AI初创公司,还是科技巨头都在通过SLM和更经济的方式吸引投资者和客户。此前,谷...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...识库(或任何文本数据集)转换为显式记忆,实现为稀疏注意力键 - 值,然后在推理过程中调用这些内存并将其集成到自注意力层中。新的记忆格式定义了新的记忆层次结构:此外,本文还介绍了一种支持知识外化的记忆电路理...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。 额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...异构性来优先实现效率和可扩展性,并且扩展性不应受到注意力头数量的限制。 MM-SP 工作流。为了应对模态异构性的挑战,研究者提出了一种两阶段式分片策略,以优化图像编码和语言建模阶段的计算工作负载。具体如下图 4 ...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...减少高mask带来的性能下降。在本架构中,patch-mixer是通过注意力层和前馈层的组合来实现的,使用二进制掩码进行mask,整个模型的损失函数为:与MaskDiT相比,这里不需要额外的损失函数,整体设计和训练更加简单。而混合器本...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
...两个关键组件:跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器(MLP)结构,智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性,还...……更多
zyphra推出zamba2-mini1.2b模型
...代Zamba1相比,Zamba2-mini的关键进步之一是集成了两个共享注意力层(attentionlayers)。这种双层方法增强了模型在不同深度保持信息的能力,从而提高了整体性能。在共享注意力层中加入旋转位置嵌入也略微提高了性能,这表明Zyph...……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...自动驾驶模型的可解释性,该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域,他们将其作为一个掩码来调整原始图像的权重,从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样,具备有效...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...器是否会被「90% 的人更喜欢回答 A」这样的句子所左右?注意力:自动评估器是否被不相关的上下文信息干扰评估结果如表4所示,可以看到,相比其他基线模型,FLAMe系列在大部分维度都表现出明显较低的偏见,而且总体偏见值...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...型之间转移,并能降低CLIP模型的性能。可视化分析图5:注意力图可视化:比较四种模型在干净数据和不同方法的不可学习样本上的情况 图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图...……更多
麻省理工学院联合metaai开发streamingllm框架
...注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近token的键值状态,确保RAM使用率和解码速度保持稳定,...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。2)训练数据Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型、高质量的训练数据集。据介绍,Llama 3 在超过 15T 的 token 上进行了预...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...架构在处理较长文本时可能会遇到困难。 Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...时间序列的周期性特征。这个过程通过构建时间转移多头注意力机制实现——将未来的时空嵌入作为查询(Query),历史的时空嵌入作为键(Key),以及历史的时空数据表示作为值(Value)。 作者引入了RMSNorm来提高训练稳定性...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...的文本信息时可能会遇到困难。 本质上,Transformer 中的注意力机制通过将每个单词(或 token)与文本中的每个单词进行比较来理解上下文,它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩...……更多
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...现在预训练模型都是Transfomer,而Transfomer结构是嵌入层、注意力层、前反馈网络层,中间注意力层跟前反馈层都会经过N次迭代,整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算,那最省事了,但CPU的计算能力有限...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
... 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...因为当前最佳的基于 Transformer 的 LLM 既深又宽,并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长。举个例子,Llama 2(7B 版本)堆叠了 32 层 Transformer,模型维度为 4096。在这种情况下,TTFT 需要的 walltime 是……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...Llama3-8B中,占端到端延迟80%的两个主要操作是矩阵乘法和注意力内核,而且它们依旧由CUDA内核操作。为了进一步提升性能,我们开始手写Triton内核来替换上述两个操作。手写Triton内核矩阵乘法对于线性层中的矩阵乘法,编写一...……更多
贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样
...寸变化,正在重走CNN的老路!看到大家都被LLaMA 3.1吸引了注意力,贾扬清发出如此感慨。拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象:在ImageNet时代,研究人员和技术从业者见证了参数规模的快速...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...窄3)重新使用编码共享(embedding sharing)方法4)使用组查询注意力机制(grouped query attention)在此基础上,作者还提出了一种块间层共享(block-wise layer-sharing)方法,能够在不引入额外内存开销的情况下进一步提高模型准确率,但..……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...述与生成图像之间的一致性2、在每个transformer层引入交叉注意力机制,从更精细的粒度控制图像生成,使得生成的图像更加精确地贴合文本。具体网络格式如下:归一化旋转位置编码(Normalized RoPE)对于next-scale prediction范式,如...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...任务时,这种缺陷会带来挑战。2)其次,由于现有 MLLM 注意力机制的计算复杂度较高,微调 MLLMs 并使用它们生成机器人操作动作会产生更高的计算成本。为了平衡推理能力和效率,NLP 领域出现了几项研究。尤其是,Mamba 引入了...……更多
清华大学金融科技研究院副院长魏晨阳:大模型以超级助理的形式,会给千行百业带来降本增效的巨大机遇
...持续专注在零到一的创新点,通过并购及时实现退出,把注意力放在下一个创新上。活跃稳定的并购机制,对形成和保持纯粹聚焦的创新氛围,十分重要。 ……更多
更多关于科技的资讯:
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00
厦门网讯(厦门日报记者 朱道衡)近日,2025鼓浪屿世遗文创作品征集活动启动。此次活动面向全国(含港澳台地区)高校、企业
2025-10-03 08:37:00
厦门网讯(厦门日报记者 楚燕 通讯员 石青青)长假期间,许多人从忙碌的工作中解脱出来,趁机好好休息。可是,如果休息方式不得当
2025-10-03 08:37:00
渤海之潮涌动着澎湃的脉搏,海河之畔镌刻着科技的印记。10年前,一颗带有“清华”基因的种子在天津这片沃土扎根;10年后,它长成一棵枝繁叶茂的参天大树
2025-10-03 09:25:00
太燃了!无人机空中展旗!高新区国庆“氛围组”已上线!
2025-10-03 23:48:00
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00
“FutureBOT未来引力”2025北京机器人文化节首日盛况 打造国庆科技打卡新地标
国庆首日,“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇正式拉开帷幕,成为国庆假期极具科技温度的打卡地
2025-10-03 19:06:00
走到白石山巅的尽头,这家建在悬崖边的“云端咖啡厅”绝对让你惊呼。
2025-10-03 11:37:00
泰康人寿发布新品“泰康百万药无忧(庆典版)医疗保险”(以下‬简称“百万药无忧”),以广覆盖、易投保、强保障、低费率为优势
2025-10-03 09:17:00
厦门网讯(厦门日报记者 翁华鸿 通讯员 林雨新)在近日举行的2025全球数据管理峰会“数据要素分论坛暨大数据统计与人工智能技术创新管理研讨会”上
2025-10-03 08:38:00
兴趣-实践-视野:达芬奇金奖少年带来的教育启示录
摘要:2025“你是达芬奇”全球青少年科学与艺术创新赛圆满落幕,其中金奖获奖少年的亲身实践告诉我们,在AI赋能的新时代
2025-10-02 16:22:00
单日调用近1万亿次,高德助力北斗规模化民用跨入新量级
2025年10月1日,随着国庆长假首日出行高峰的到来,高德基于北斗卫星导航系统的定位数量接近1万亿次,支撑导航总里程数超90亿公里
2025-10-02 22:31:00
10月1日,从太钢获悉,今年以来,太钢不锈进料加工团队以“精准备案、高效协同”为核心,在进料铬铁镍铁资源利用方面取得突破性进展
2025-10-02 17:39:00
厦门网讯(厦门日报记者 林露虹)记者昨日从中国移动咪咕公司获悉,该公司打造的“鼓浪屿AI伴游”服务已正式上线。市民和游客只需打开“鼓浪屿元宇宙”微信小程序
2025-10-02 08:57:00