• 我的订阅
  • 头条热搜
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...了更深的网络。主要差异总结如下:局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的跨度设置为8192个token。 Logit...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...书要分成很多段,然后送去训练。由于大模型训练主要是注意力机制,即注意力参数的训练,只要两个东西相关,就可以发生一个关联。“这是在没有截断的前提下,如果把数据截成8K,第二个8k进来了以后,和第一个8K就没有直...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...神经架构。在 transformer 模型中,这一目标自然可以通过注意力层和前馈层的组合来实现。因此,作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后,他们将对其进行掩蔽(图 2e)...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...及为企业提供更多样化AI选项的市场机会,让科技公司将注意力逐渐转向了SLM。《每日经济新闻》记者注意到,不管是Arcee、Sakana AI和Hugging Face等AI初创公司,还是科技巨头都在通过SLM和更经济的方式吸引投资者和客户。此前,谷...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...研究人员对纯解码器多模态大模型(如LLaVA)和基于交叉注意力的模型(如Flamingo)进行了全面对比,并根据总结出的优势和劣势,提出了一种全新架构,提升了模型的训练效率和多模态推理能力。文中还引入了一种1-D图块(tile...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...算顺序等方法近似 Softmax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。线性 RNN 模型线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。然...……更多
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...v。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注意力)在提高效率同时,为提高模型能...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...识库(或任何文本数据集)转换为显式记忆,实现为稀疏注意力键 - 值,然后在推理过程中调用这些内存并将其集成到自注意力层中。新的记忆格式定义了新的记忆层次结构:此外,本文还介绍了一种支持知识外化的记忆电路理...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。 额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...异构性来优先实现效率和可扩展性,并且扩展性不应受到注意力头数量的限制。 MM-SP 工作流。为了应对模态异构性的挑战,研究者提出了一种两阶段式分片策略,以优化图像编码和语言建模阶段的计算工作负载。具体如下图 4 ...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...减少高mask带来的性能下降。在本架构中,patch-mixer是通过注意力层和前馈层的组合来实现的,使用二进制掩码进行mask,整个模型的损失函数为:与MaskDiT相比,这里不需要额外的损失函数,整体设计和训练更加简单。而混合器本...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...略,来减轻异常通道引入的量化误差。简单来说就是,对注意力层和FFN层的输入采用4位量化,同时用8位整数稀疏化中间状态。大量实验表明,BitNet a4.8在相同的训练成本下,实现了与前代BitNet b1.58相当的性能,同时因为可以吃...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...置得与语言模型(Llama3-8B)中的对应块相同,仅包含一个注意力层和一个前馈层,参数也相同,如隐藏维度大小、注意力头的数量和注意力头的维度,并且只训练了图像模型部分。在扩散采样过程中,语言模型部分只需要运行一...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...循,自研 3D 视觉编码器支持图像视频混合训练,通过全注意力机制提升画面运镜能力,并根据自研的图像视频 Scaling Law 设计和训练了最优配比模型。模型方法介绍Hunyuan-Video 是一个综合的视频训练系统,涵盖了从数据处理到模...……更多
...两个关键组件:跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器(MLP)结构,智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性,还...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...《Attention as an RNN》的论文。正如论文名字所示,他们将注意力机制重新诠释为一种 RNN,引入了一种基于并行前缀扫描(prefix scan)算法的新的注意力公式,该公式能够高效地计算注意力的多对多(many-to-many)RNN 输出。基于新公...……更多
zyphra推出zamba2-mini1.2b模型
...代Zamba1相比,Zamba2-mini的关键进步之一是集成了两个共享注意力层(attentionlayers)。这种双层方法增强了模型在不同深度保持信息的能力,从而提高了整体性能。在共享注意力层中加入旋转位置嵌入也略微提高了性能,这表明Zyph...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...d》中被首次提出,Transformer的核心优势在于具有独特的自注意力(Self-attention)机制,能够直接建模任意距离的词元之间的交互关系,解决了循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。相...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...MoE的Scaling Law公式,C ≈ 9.59ND + 2.3 ×108D。又比如用交叉层注意力节省KV缓存的内存占用。下面送上发布会现场演讲和技术报告精华内容总结。Hunyuan-Large技术报告MoE的Scaling Law直接上公式:C ≈ 9.59ND + 2.3 × 108D……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...潜在token的数量。线性DiT(Diffusion Transformer):用「线性注意力」替换了DiT中所有的普通注意力,在高分辨率下更加高效,且不会牺牲质量。基于仅解码器模型的文本编码器:用现代的仅解码器SLM替换T5作为文本编码器,并设计...……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...自动驾驶模型的可解释性,该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域,他们将其作为一个掩码来调整原始图像的权重,从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样,具备有效...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...器是否会被「90% 的人更喜欢回答 A」这样的句子所左右?注意力:自动评估器是否被不相关的上下文信息干扰评估结果如表4所示,可以看到,相比其他基线模型,FLAMe系列在大部分维度都表现出明显较低的偏见,而且总体偏见值...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...型之间转移,并能降低CLIP模型的性能。可视化分析图5:注意力图可视化:比较四种模型在干净数据和不同方法的不可学习样本上的情况 图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图...……更多
麻省理工学院联合metaai开发streamingllm框架
...注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近token的键值状态,确保RAM使用率和解码速度保持稳定,...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。2)训练数据Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型、高质量的训练数据集。据介绍,Llama 3 在超过 15T 的 token 上进行了预...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角掩码,以确保来自不同图像的patch...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...基准上实现了 SOTA。ELM-2B 生成的一些不同类别的图像至于注意力模式,不同大小的模型的差别倒是不大:L 大小的模型主要关注局部信息,难以捕获长程信息。相较之下,更大的 XL 和 XXL 模型的某些层表现出了更长程的注意力,...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...架构在处理较长文本时可能会遇到困难。 Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句...……更多
更多关于科技的资讯:
小狗散步配备“坐骑”机器狗惊呆路人 网友神回复抢镜了
快科技3月3日消息,近日,四川成都,一则小狗坐机器狗散步的视频引发了网友热议。据视频画面显示,一只白色的小狗稳坐机器狗背部
2025-03-03 17:40:00
贵州发现两栖动物新物种“魏氏纤树蛙”:生活在海拔1600米竹林中
快科技3月3日消息,据报道,近日贵州雷公山国家级自然保护区发现了一种两栖动物新物种——魏氏纤树蛙(Gracixalus weii)
2025-03-03 17:40:00
真我首款可更换镜头概念机公布:10倍无损光学变焦
快科技3月3日消息,真我预热了几天的“影像黑科技”产品终于公布——真我首款可更换镜头概念机。从官方公布的海报来看,真我这款新机采用了大圆形后摄
2025-03-03 17:40:00
抗衰老、延长寿命的追求:NMN全球市场能否面临挑战?
中信证券发布的NMN深度行业研报揭示了中国保健品市场的迅猛发展,过去10年的复合增速高达9.5%。据测算,当前国内每1%保健品人口对应的NMN(β-烟酰胺单核苷酸)市场空间为304亿元
2025-03-03 17:57:00
苹果AI进度严重落后!新版AI Siri要等到iOS 20了
快科技3月3日消息,根据Mark Gurman最新透露,苹果在AI技术开发上遭遇了多项重大挑战,导致许多原计划推出的功能被迫延后
2025-03-03 18:10:00
男子用思域发动机、不锈钢管手搓飞机:仅用10天就成功升空
快科技3月3日消息,日前,有博主发视频称,自己改装本田思域1.5T发动机,使用不锈钢管、手钳、角磨机等用料,花费10天手搓了一台飞机
2025-03-03 18:10:00
官方喊你来当深圳人了:本科、硕士、博士通通有补贴 最高10万
3月3日消息,据国内媒体报道称,深圳就业应届毕业生最高补贴10万。深圳方面表示“百万英才汇南粤”行动计划是省委为广东省实现高质量发展而作出的重大部署
2025-03-03 18:10:00
男子开特斯拉狂飙226km/h还拍视频炫耀遭举报:驾照没了
快科技3月3日消息,近日有男子称,自己因为在群聊中炫耀自己超速行为,被人举报,被处扣驾驶证12分、罚款2000元、驾照吊销2年的处罚
2025-03-03 18:10:00
乌鸦反哺、斑羚飞渡 这些让你感动到哭的故事:都是假的!
在童年的儿歌和故事书中,动物常常被赋予人类的情感和道德:乌鸦反哺彰显孝道,老鹰断喙重生诠释坚韧,斑羚飞渡悬崖谱写牺牲……这些故事承载着文化的期许
2025-03-03 18:10:00
华为打造智能基站:地铁出站秒级降低功率 能耗大降37%
快科技3月3日消息,近日,华为无线网络传来重磅消息,安徽移动携手集团研究院、集团设计院以及华为,于合肥共同打造了规模达千站的无线高阶自智网络示范区
2025-03-03 18:40:00
小米SU7 Ultra民间圈速公布!仅比500万的法拉利SF90慢0.04秒
快科技3月3日消息,今天下午,懂车帝全程直播,联合中国知名车手马青骅在天津V1国际赛车场测试了小米SU7 Ultra的赛道性能
2025-03-03 18:40:00
周鸿祎:DeepSeek会让学渣和学霸的差距越拉越大 且不可逆转
快科技3月3日消息,360集团创始人、董事长周鸿祎今日发视频,谈到了DeepSeek对于普通人的影响。他表示,AI对普通人的影响正在被低估
2025-03-03 18:40:00
周鸿祎再谈DeepSeek:精英人群获得的帮助更大 普通员工反而会退步
快科技3月3日消息,近日,360集团创始人兼董事长周鸿祎在其个人社交账号发布视频,再次谈及了DeepSeek,并介绍了AI普及对大众工作生活的改变和影响
2025-03-03 18:40:00
冯小刚电影《向阳·花》定档4月4日:赵丽颖领衔主演
快科技3月3日消息,冯小刚电影官微发文称,由冯小刚导演、赵丽颖领衔主演的电影《向阳·花》官宣定档4月4日全国上映。官微写道
2025-03-03 18:40:00
日本团队做出世界上最小的射击游戏!纳米粒子立大功
据媒体phys报道,日本名古屋大学工程研究所Takayuki Hoshino教授领导的研究团队,通过实时操控纳米级粒子
2025-03-03 18:40:00