• 我的订阅
  • 头条热搜
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...了更深的网络。主要差异总结如下:局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的跨度设置为8192个token。 Logit...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...书要分成很多段,然后送去训练。由于大模型训练主要是注意力机制,即注意力参数的训练,只要两个东西相关,就可以发生一个关联。“这是在没有截断的前提下,如果把数据截成8K,第二个8k进来了以后,和第一个8K就没有直...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...神经架构。在 transformer 模型中,这一目标自然可以通过注意力层和前馈层的组合来实现。因此,作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后,他们将对其进行掩蔽(图 2e)...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...及为企业提供更多样化AI选项的市场机会,让科技公司将注意力逐渐转向了SLM。《每日经济新闻》记者注意到,不管是Arcee、Sakana AI和Hugging Face等AI初创公司,还是科技巨头都在通过SLM和更经济的方式吸引投资者和客户。此前,谷...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...研究人员对纯解码器多模态大模型(如LLaVA)和基于交叉注意力的模型(如Flamingo)进行了全面对比,并根据总结出的优势和劣势,提出了一种全新架构,提升了模型的训练效率和多模态推理能力。文中还引入了一种1-D图块(tile...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...算顺序等方法近似 Softmax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。线性 RNN 模型线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。然...……更多
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...v。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时,为提高模型能...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...识库(或任何文本数据集)转换为显式记忆,实现为稀疏注意力键 - 值,然后在推理过程中调用这些内存并将其集成到自注意力层中。新的记忆格式定义了新的记忆层次结构:此外,本文还介绍了一种支持知识外化的记忆电路理...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。 额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...异构性来优先实现效率和可扩展性,并且扩展性不应受到注意力头数量的限制。 MM-SP 工作流。为了应对模态异构性的挑战,研究者提出了一种两阶段式分片策略,以优化图像编码和语言建模阶段的计算工作负载。具体如下图 4 ...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...减少高mask带来的性能下降。在本架构中,patch-mixer是通过注意力层和前馈层的组合来实现的,使用二进制掩码进行mask,整个模型的损失函数为:与MaskDiT相比,这里不需要额外的损失函数,整体设计和训练更加简单。而混合器本...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...略,来减轻异常通道引入的量化误差。简单来说就是,对注意力层和FFN层的输入采用4位量化,同时用8位整数稀疏化中间状态。大量实验表明,BitNet a4.8在相同的训练成本下,实现了与前代BitNet b1.58相当的性能,同时因为可以吃...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...置得与语言模型(Llama3-8B)中的对应块相同,仅包含一个注意力层和一个前馈层,参数也相同,如隐藏维度大小、注意力头的数量和注意力头的维度,并且只训练了图像模型部分。在扩散采样过程中,语言模型部分只需要运行一...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...循,自研 3D 视觉编码器支持图像视频混合训练,通过全注意力机制提升画面运镜能力,并根据自研的图像视频 Scaling Law 设计和训练了最优配比模型。模型方法介绍Hunyuan-Video 是一个综合的视频训练系统,涵盖了从数据处理到模...……更多
...两个关键组件:跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器(MLP)结构,智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性,还...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...《Attention as an RNN》的论文。正如论文名字所示,他们将注意力机制重新诠释为一种 RNN,引入了一种基于并行前缀扫描(prefix scan)算法的新的注意力公式,该公式能够高效地计算注意力的多对多(many-to-many)RNN 输出。基于新公...……更多
zyphra推出zamba2-mini1.2b模型
...代Zamba1相比,Zamba2-mini的关键进步之一是集成了两个共享注意力层(attentionlayers)。这种双层方法增强了模型在不同深度保持信息的能力,从而提高了整体性能。在共享注意力层中加入旋转位置嵌入也略微提高了性能,这表明Zyph...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...d》中被首次提出,Transformer的核心优势在于具有独特的自注意力(Self-attention)机制,能够直接建模任意距离的词元之间的交互关系,解决了循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。相...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...MoE的Scaling Law公式,C ≈ 9.59ND + 2.3 ×108D。又比如用交叉层注意力节省KV缓存的内存占用。下面送上发布会现场演讲和技术报告精华内容总结。Hunyuan-Large技术报告MoE的Scaling Law直接上公式:C ≈ 9.59ND + 2.3 × 108D……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...潜在token的数量。线性DiT(Diffusion Transformer):用「线性注意力」替换了DiT中所有的普通注意力,在高分辨率下更加高效,且不会牺牲质量。基于仅解码器模型的文本编码器:用现代的仅解码器SLM替换T5作为文本编码器,并设计...……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...自动驾驶模型的可解释性,该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域,他们将其作为一个掩码来调整原始图像的权重,从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样,具备有效...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...器是否会被「90% 的人更喜欢回答 A」这样的句子所左右?注意力:自动评估器是否被不相关的上下文信息干扰评估结果如表4所示,可以看到,相比其他基线模型,FLAMe系列在大部分维度都表现出明显较低的偏见,而且总体偏见值...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...型之间转移,并能降低CLIP模型的性能。可视化分析图5:注意力图可视化:比较四种模型在干净数据和不同方法的不可学习样本上的情况 图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图...……更多
麻省理工学院联合metaai开发streamingllm框架
...注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近token的键值状态,确保RAM使用率和解码速度保持稳定,...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。2)训练数据Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型、高质量的训练数据集。据介绍,Llama 3 在超过 15T 的 token 上进行了预...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角掩码,以确保来自不同图像的patch...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...基准上实现了 SOTA。ELM-2B 生成的一些不同类别的图像至于注意力模式,不同大小的模型的差别倒是不大:L 大小的模型主要关注局部信息,难以捕获长程信息。相较之下,更大的 XL 和 XXL 模型的某些层表现出了更长程的注意力,...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...架构在处理较长文本时可能会遇到困难。 Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句...……更多
更多关于科技的资讯:
本报讯 (记者 闫 利)罐头行业是我国传统的出口产业,罐头产品也是目前食品工业重要的出口产品。从大家熟知的桃罐头、橘子罐头到蘑菇罐头
2025-02-27 11:14:00
享受以旧换新优惠 消费者“扎堆儿”买手机
本报讯 (记者 史晓菲 文/摄)今年开始,购买手机等3C产品享受以旧换新优惠政策,截至目前,新政策实施两个月,手机等产品销售火爆
2025-02-27 11:14:00
本报讯 (记者 解 磊) 2月20日—22日,由中国眼镜协会、中国中轻国际控股有限公司主办的第23届中国上海国际眼镜业展览会在上海浦东举行
2025-02-27 11:15:00
腾讯元宝入驻微信“九宫格”:便捷下载,深度体验
2月27日消息,腾讯对腾讯元宝的推广又加了大力度。日前有媒体报道称,腾讯内部已协调部署,微信“九宫格”正在灰度测试给腾讯元宝提供下载入口
2025-02-27 11:21:00
国网山东信通公司:视频赋能配电室,智能守护电力安全
在电力系统运维领域,配电室的安全稳定运行至关重要。国网山东信通公司不仅凭借创新建设配电室视频监测系统,为配电室的安全运行带来全方位保障和质的飞跃
2025-02-27 11:22:00
【鲸创焕新】五载深耕积淀,社区家装生态再升级
【鲸创焕新】五载深耕积淀,社区家装生态再升级2019年诞生于常州,我们以革新存量房改造为己任。面对行业长期存在的"改造周期长
2025-02-27 11:34:00
小米SU7 Ultra第三款配色来了:“鹦鹉绿”实车公布
快科技2月27日消息,小米SU7 Ultra将在今晚7点正式发布,刚刚官方公布出了全新配色——鹦鹉绿。自此,小米SU7 Ultra已经公布出了三款配色
2025-02-27 11:36:00
价值48元 《王者荣耀》今天免费送皮肤了
快科技2月27日消息,《王者荣耀》今天上线戈娅新皮肤“玫蓝誓约”,参与游戏内【玫蓝誓约】活动,可免费获取。该限时活动在2月27日版本更新后逐步开启
2025-02-27 11:36:00
造谣对比测试时迈巴赫轮胎被放气 尊界法务:已关注、均充分取证
快科技2月27日消息,近日尊界S800和迈巴赫S级对比测试一事闹得沸沸扬扬,节奏四起。其中有人称迈巴赫S级在测试中被动了手脚——轮胎被放气
2025-02-27 11:36:00
佰维推出全球首款双档EXPO配置内存!DDR5-8000/6400 CL34/28可选
快科技2月27日消息,佰维宣布其DW100 OCLAB联名内存即将上市,这款内存条专为AMD X870 (E)、B850平台优化
2025-02-27 11:36:00
仅限主力薅羊毛!京东外卖开启补贴政策:最高减20元!
快科技2月27日消息,今日,京东外卖宣布推出了“餐补优惠活动”。据了解,京东推出的这一优惠政策包含:“满15元减10元”
2025-02-27 11:36:00
5000只海鸥入侵英国小镇 鸟屎满天飞还高空抛骨头
阿尔弗雷德·希区柯克执导的恐怖电影《群鸟》,电影中鸟群攻击人类的场景,如今照进现实,在英国一小镇上演。据报道,至少有5000只海鸥“入侵”了该地区
2025-02-27 11:36:00
对话商汤王晓刚:自动驾驶借助强化学习将超越人类,今年商业化迎爆发
搜狐科技高端访谈栏目《1号位》与知名企业家、公司高管展开深度对话,本期我们邀请到商汤科技联合创始人&首席科学家
2025-02-27 11:36:00
衢州联通引领智慧医疗新篇章:DeepSeek人工智能系统成功接入当地三甲医院
近日,衢州联通携手衢州市人民医院及生态公司,积极响应国家关于人工智能与医疗健康深度融合的战略部署,成功将DeepSeek人工智能系统全面接入衢州市人民医院(温州医科大学附属衢州医院)
2025-02-27 11:36:00
园区“法人服务总入口”开启公测
从能办可办到好办易办,苏州工业园区以行政审批的“颗粒度”提升企业无感直达体验度。全国首创“AI服务总入口”、在全国率先打造“Person in Enterprise”(PIE)用户体系
2025-02-27 11:39:00