• 我的订阅
  • 头条热搜
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...了更深的网络。主要差异总结如下:局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的跨度设置为8192个token。 Logit...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...书要分成很多段,然后送去训练。由于大模型训练主要是注意力机制,即注意力参数的训练,只要两个东西相关,就可以发生一个关联。“这是在没有截断的前提下,如果把数据截成8K,第二个8k进来了以后,和第一个8K就没有直...……更多
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...神经架构。在 transformer 模型中,这一目标自然可以通过注意力层和前馈层的组合来实现。因此,作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后,他们将对其进行掩蔽(图 2e)...……更多
微软、英伟达纷纷押注小模型,大模型不香了?
...及为企业提供更多样化AI选项的市场机会,让科技公司将注意力逐渐转向了SLM。《每日经济新闻》记者注意到,不管是Arcee、Sakana AI和Hugging Face等AI初创公司,还是科技巨头都在通过SLM和更经济的方式吸引投资者和客户。此前,谷...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...识库(或任何文本数据集)转换为显式记忆,实现为稀疏注意力键 - 值,然后在推理过程中调用这些内存并将其集成到自注意力层中。新的记忆格式定义了新的记忆层次结构:此外,本文还介绍了一种支持知识外化的记忆电路理...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba在介绍Mamba 2的时候我们讲过,线性RNN(或SSM)跟线性注意力是一回事。所以可以根据x,B,C与V,K,Q的对应关系直接复用注意力中的投影矩阵。 额外的参数包括SSM需要的A矩阵和Δt(由x投影得到),这就完成了基本的参数...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...异构性来优先实现效率和可扩展性,并且扩展性不应受到注意力头数量的限制。 MM-SP 工作流。为了应对模态异构性的挑战,研究者提出了一种两阶段式分片策略,以优化图像编码和语言建模阶段的计算工作负载。具体如下图 4 ...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...减少高mask带来的性能下降。在本架构中,patch-mixer是通过注意力层和前馈层的组合来实现的,使用二进制掩码进行mask,整个模型的损失函数为:与MaskDiT相比,这里不需要额外的损失函数,整体设计和训练更加简单。而混合器本...……更多
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网络/脉冲神经网络的异构。于...……更多
...两个关键组件:跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器(MLP)结构,智能地识别并去除那些对于当前层不重要的Token。这一过程不仅考虑了Token在文本或图像序列中的独立重要性,还...……更多
zyphra推出zamba2-mini1.2b模型
...代Zamba1相比,Zamba2-mini的关键进步之一是集成了两个共享注意力层(attentionlayers)。这种双层方法增强了模型在不同深度保持信息的能力,从而提高了整体性能。在共享注意力层中加入旋转位置嵌入也略微提高了性能,这表明Zyph...……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...自动驾驶模型的可解释性,该团队首次引入人类驾驶员的注意力机制。通过预测当前上下文中的驾驶员注意区域,他们将其作为一个掩码来调整原始图像的权重,从而使自动驾驶车辆能够像经验丰富的人类驾驶员一样,具备有效...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...器是否会被「90% 的人更喜欢回答 A」这样的句子所左右?注意力:自动评估器是否被不相关的上下文信息干扰评估结果如表4所示,可以看到,相比其他基线模型,FLAMe系列在大部分维度都表现出明显较低的偏见,而且总体偏见值...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...型之间转移,并能降低CLIP模型的性能。可视化分析图5:注意力图可视化:比较四种模型在干净数据和不同方法的不可学习样本上的情况 图5展示了在干净数据和不同方法生成的不可学习样本上训练的模型的注意力热图。对于图...……更多
麻省理工学院联合metaai开发streamingllm框架
...注意到,过去有许多研究试图解决上述挑战,像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近token的键值状态,确保RAM使用率和解码速度保持稳定,...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
... token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。2)训练数据Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型、高质量的训练数据集。据介绍,Llama 3 在超过 15T 的 token 上进行了预...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...架构在处理较长文本时可能会遇到困难。 Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...时间序列的周期性特征。这个过程通过构建时间转移多头注意力机制实现——将未来的时空嵌入作为查询(Query),历史的时空嵌入作为键(Key),以及历史的时空数据表示作为值(Value)。 作者引入了RMSNorm来提高训练稳定性...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...的文本信息时可能会遇到困难。 本质上,Transformer 中的注意力机制通过将每个单词(或 token)与文本中的每个单词进行比较来理解上下文,它需要更多的计算能力和内存需求来处理不断增长的上下文窗口。但是如果不相应地扩...……更多
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现 114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...现在预训练模型都是Transfomer,而Transfomer结构是嵌入层、注意力层、前反馈网络层,中间注意力层跟前反馈层都会经过N次迭代,整个运算又基本上是矩阵乘法。如果一个模型能在单个CPU上运算,那最省事了,但CPU的计算能力有限...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
... 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...因为当前最佳的基于 Transformer 的 LLM 既深又宽,并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长。举个例子,Llama 2(7B 版本)堆叠了 32 层 Transformer,模型维度为 4096。在这种情况下,TTFT 需要的 walltime 是……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...Llama3-8B中,占端到端延迟80%的两个主要操作是矩阵乘法和注意力内核,而且它们依旧由CUDA内核操作。为了进一步提升性能,我们开始手写Triton内核来替换上述两个操作。手写Triton内核矩阵乘法对于线性层中的矩阵乘法,编写一...……更多
贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样
...寸变化,正在重走CNN的老路!看到大家都被LLaMA 3.1吸引了注意力,贾扬清发出如此感慨。拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象:在ImageNet时代,研究人员和技术从业者见证了参数规模的快速...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...窄3)重新使用编码共享(embedding sharing)方法4)使用组查询注意力机制(grouped query attention)在此基础上,作者还提出了一种块间层共享(block-wise layer-sharing)方法,能够在不引入额外内存开销的情况下进一步提高模型准确率,但..……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...述与生成图像之间的一致性2、在每个transformer层引入交叉注意力机制,从更精细的粒度控制图像生成,使得生成的图像更加精确地贴合文本。具体网络格式如下:归一化旋转位置编码(Normalized RoPE)对于next-scale prediction范式,如...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...任务时,这种缺陷会带来挑战。2)其次,由于现有 MLLM 注意力机制的计算复杂度较高,微调 MLLMs 并使用它们生成机器人操作动作会产生更高的计算成本。为了平衡推理能力和效率,NLP 领域出现了几项研究。尤其是,Mamba 引入了...……更多
清华大学金融科技研究院副院长魏晨阳:大模型以超级助理的形式,会给千行百业带来降本增效的巨大机遇
...持续专注在零到一的创新点,通过并购及时实现退出,把注意力放在下一个创新上。活跃稳定的并购机制,对形成和保持纯粹聚焦的创新氛围,十分重要。 ……更多
更多关于科技的资讯:
真我13上架开售:搭载天玑6300芯片 12+512GB定价2199元
快科技9月11日消息,真我13手机现已在realme官网上架,目前仅提供12+512GB版本,售价为2199元。真我13搭载了联发科天玑6300芯片
2024-09-11 17:15:00
华为三折叠19999元起售!短期只有华为能商用落地
快科技9月11日消息,日前华为正式推出了备受期待的三折叠手机Mate XT非凡大师,标志着华为在折叠屏技术领域的又一次重大突破
2024-09-11 17:15:00
预计定价70万!路特斯全新纯电跑车官宣:9月17日首发
快科技9月11日消息,路特斯汽车即将推出一款备受期待的全新电动跑车——THEORY 1,预计在2027年正式上市,市场定位可能在75000英镑左右
2024-09-11 17:15:00
视爵光旭15周年庆新品-MC全球发布会圆满举行
9月10日 视爵光旭15周年庆典暨新品发布会 在视爵惠州新展厅盛大召开 全球海内外合作伙伴200多位合作伙伴以及仲恺高新区管委会等领导莅临视爵集团光电产业园
2024-09-11 17:45:00
磁吸充电宝哪个牌子性价比高?深度测评西圣、绿联、安克充电宝
在智能手机普及的今天,充电宝几乎成为了我们日常出行的必备品。尤其是随着磁吸技术的兴起,磁吸充电宝以其便捷性和高效性赢得了越来越多用户的青睐
2024-09-11 17:45:00
博主曝车企对供应链的压价已到疯狂地步:领导不满意价格 立马重新招标
快科技9月11日消息,据报道,日前有博主透露,车企或代工厂商们对供应链的压价已经到了疯狂的地步。比如,一个刚刚谈好的价格
2024-09-11 17:45:00
美食外卖行业作为现代都市生活的重要组成部分,随着互联网技术的飞速发展,正经历着前所未有的变革与增长。这一行业不仅为消费者提供了便捷
2024-09-11 17:46:00
近日,中国太保再度成为2024年中国国际服务贸易交易会(以下简称“2024年服贸会”)全球合作伙伴和指定保险服务商。中国太保将继续秉承“客户至上”原则
2024-09-11 17:46:00
金秋开学季,掌阅科技x中国移动邀高晓攀与青年学子共话传统艺术
在青春的画卷上,优秀的中华传统文化如同一抹古典的墨香,让青年能够触摸到历史的脉络,感受到艺术的力量。近日,数字阅读平台掌阅科技联合中国移动动感地带开启“动感无限青春奔现”高校开学季阅读活动
2024-09-11 17:56:00
湖北市民京东买空调享8折优惠,美的酷省电到手价2160元
虽已过白露节气,但湖北多地仍旧持续发布高温橙色预警,市民购买空调的需求只增不减。9月9日,京东上线湖北以旧换新活动会场
2024-09-11 17:57:00
哪吒V撞击事故后起火自燃:吓得一旁白车飞快驶离
快科技9月11日消息,今日下午,一条监控视频流出,引起了网友的关注,不少人非常关心司机的安全。从纪录的时间看,这件事发生在今天上午9:10分
2024-09-11 18:15:00
山姆杨枝甘露被指开盖后炸了 客服:可能是运输过程挤压碰撞
快科技9月11日消息,据媒体报道,一位网友在山姆超市购买了8月28日生产的杨枝甘露,一直冷藏没有开封,保质期内开盖后,杨枝甘露发生喷射爆炸
2024-09-11 18:15:00
戴尔宣布今年将继续裁员!PC业务复苏不及预期
快科技9月11日消息,戴尔在监管文件中表示,公司计划在当前财年内继续裁员,以进一步控制成本。戴尔表示,通过限制外部招聘
2024-09-11 18:15:00
《黑神话:悟空》定制!技嘉RTX 4070 SUPER WUKONG OC显卡图赏
快科技9月11日消息,自8月20日上市以来,《黑神话:悟空》不仅在游戏界引起了轰动,更成为了现代科技与传统文化完美结合的标杆
2024-09-11 18:15:00
罗永浩犀利点评iPhone 16:又是零创新
快科技9月11日消息,在苹果发布会结束后,罗永浩发微博点评iPhone 16系列:又是零创新。此前罗永浩还暗讽过iPhone 13系列
2024-09-11 18:15:00