• 我的订阅
  • 头条热搜
RNN回归!Bengio新作大道至简与Transformer一较高下
...推出了全新的RNN架构,以大道至简的思想与Transformer一较高下。在Transformer统治的AI时代之下,散落在世界各地的「RNN神教」信徒,一直相信并期待着RNN回归的那天:毕竟,凭借强大的顺序和上下文感知能力,RNN曾在各种任务中表...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...更多详情,可以参见机器之心之前的报道:《Bengio 等人新作:注意力可被视为 RNN,新模型媲美 Transformer,但超级省内存》简化 LSTM 和 GRU在这一部分,研究者通过简化和移除各种门中的若干隐藏状态依赖关系,证明 GRU 和 LSTM 可...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...型性能和效率的技术架构。其主要由一组专家模型和一个门控模型组成,核心思想是在处理任务时只激活部分专家模型,并通过门控模型控制专家模型的选择和加权混合。简言之,MoE在训练过程通过门控模型实现“因材施教”,...……更多
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
...外,Moirai-MoE 提出了一种新型的利用预训练模型中知识的门控函数,并采用自回归的训练目标来提高训练效率。下面简要介绍 Moirai-MoE 的模块。1. 时序 Token 构造Moirai-MoE 采用切块(patching)技术将时间序列输入切成没有重叠的小...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...段具有更好的泛化能力。3. NVLM-X:X-attention模型NVLM-X使用门控交叉注意力来处理图像token,与Flamingo模型不同的是: 1)感知器重采样器对自然图像描述是有益的,但对密集OCR任务会产生负面影响,主要是因为感知器中的交叉注意...……更多
专家模型不要专家并行!微软开源MoE新路径
...arseMixer来精确估计专家路由的梯度,解决传统方案中利用门控梯度代替路由梯度的问题。 2. 专家并行不要了,训练中改用数据、pipeline和张量并行,避免了传统方法丢弃token的问题。论文地址:https://arxiv.org/abs/2409.12136当然了,...……更多
infini-attention:谷歌大内存机制
...ads):这些头在训练过程中学习到了特定的功能,它们的门控得分(gatingscore)接近0或1。这意味着它们要么通过局部注意力机制处理当前的上下文信息,要么从压缩记忆中检索信息。混合头(Mixerheads):这些头的门控得分接近0...……更多
循环神经网络(RNN):如何处理自然语言?
...处理长序列时的性能,而优化后的长短期记忆(LSTM)和门控循环单元(GRU)可以有效的解决这些问题。一、基本原理在处理序列数据时,我们通常希望能够考虑到序列中的元素之间的依赖关系。例如,在处理自然语言时,一个...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...Gemini 1.5 Pro官宣两小时发布Sora这枚重磅炸弹,颇有“一较高下”的劲头。只是由于当下大家的视线焦点集中在视频领域,Sora 又是 OpenAI 首次发布文生视频模型,所以无奈被抢了头条。图源:微博评论 Gemini 1.5 Pro建立在谷歌对Tran...……更多
...型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的L...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...入[IMAGE BREAK],在图像序列的末尾加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...器学习顶级国际会议 NeurIPS 2024 接收了一篇人脸表征学习新作, \"TopoFR: A Closer Look at Topology Alignment on Face Recognition\",让我们一睹为快。 论文链接:https://arxiv……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
【新智元导读】在NLP领域,研究者们已经充分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研究就拿出了非常有力的证据:Representation matters!扩散模型如何突破瓶颈? 成本高又难...……更多
感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战
...组可学习的阶段 token 来表示每个任务阶段,并通过一个门控网络(MLP)来预测当前所处的阶段,利用 Softmax 归一化后的阶段预测分数对阶段 token 进行加权融合,得到当前阶段 token。门控网络的训练以阶段标签作为监督信号,对...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
...一步研究Transformer的记忆巩固,是否可通过类似于NMDA受体门控过程的机制来控制。在动物大脑中,低镁水平会削弱记忆功能。研究人员发现,Transformer中的长期记忆可通过模仿NMDA受体来改善。就像在大脑中一样,镁含量的变化会...……更多
...在矩形片上。随后,科研人员利用DNA三链结构设计了一种门控开关,它将矩形片卷成纳米管,把药物保护起来。“门控开关是纳米机器的核心。”晁洁介绍,门控开关带有凝血酶适配体,能够自动跟踪凝血酶,由于血栓附近的凝...……更多
新人新作“唱”响人文湾区
...总决赛的12位歌手集结亮相,在总决赛舞台以歌声“一决高下”,一展大湾区青年歌手的风采。“湾区有新声”2023粤港澳大湾区青年流行歌手大赛是粤港澳三地共同举办的首个青年歌手官方大赛,是挖掘、培养青年流行演唱人才...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...说,我们设计的时空编码器由两个核心组件构成:一个是门控扩散卷积层,另一个是多层次关联注入层。上式 为初始化时空嵌入,从原始时空数据中获取。Er\'是Er的切片,用于进行残差操作以缓解梯度消失。我们使用一维扩散...……更多
sepphochreiter提出xlstm新架构
...论文中获悉,SeppHochreiter在新的xLSTM架构中采用了指数型门控循环网络,同时为神经网络结构引入了“sLSTM”和“mLSTM”两项记忆规则,从而允许相关神经网络结构能够有效地利用RAM,实现类Transformer“可同时对所有Token进行处理”...……更多
《腐蚀》激光门控制器制作方法
在rust中,制作激光门控制器需要将开关接到门上,另一端则需要连接电源,这里可以选取蓄电池或者太阳能板使门通电后,另一端再连接开关即可,不过需要定期更换电源。rust激光门控制器怎么制作答:通过开关装置,连通电...……更多
AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
一水 发自 凹非寺量子位 | 公众号 QbitAI尤洋团队新作,首个基于DiT的实时视频生成方法来了!先来直观感受一下效果(右侧为新方法):这是团队在Open-Sora上,使用5个4s(192帧)480p分辨率视频进行的测试。新方法名为Pyramid Atten...……更多
阿里前副总裁贾扬清吐槽国产大模型“套壳”,李开复公司回应称有借鉴公开成果
...模型本身的问题,同时这些仅在成本和速度上与OpenAI一较高下的公司,竞争优势并不会长久且持续,企业必须提供真正独特的价值。返回搜狐,查看更多责任编辑: ……更多
为生物和非生物通讯建“桥” 中国科学家成功实现可控离子传输
...著名学术期刊《科学》(Science)发表。本次研究的级联异质门控双相凝胶材料。中国科学院理化所 供图论文共同通讯作者闻利平研究员介绍说,人工电子电路主要基于电子和空穴进行信号传输和运算,而自然界中生命体内的信息...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...阵乘法:投影为为输出矩阵- RMS归一化- 矩阵乘法:融合门控+向上投影- 激活函数SiLU- 逐元素(element-wise)矩阵乘法- 矩阵乘法:向下投影这些操作中都需要一个或多个GPU内核进行计算,虽然不同的Transformer模型的执行细节可能有...……更多
李彦宏称开源赶不上闭源?Meta发布最强开源模型,马斯克评价“还不错”
...Meta目前还在研发Llama 3超400B的参数模型,有望与GPT-4一较高下。Llama 3很快将在亚马逊、谷歌、微软、英伟达等云厂商和大模型API提供商等平台推出。未来数月,Meta计划推出一系列具备全新功能的模型,包括多模态、支持多语言...……更多
Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子
Meta版慢思考也来了。田渊栋团队带来新作Dualformer,把快慢思考无缝结合,性能提升还成本更低。能解决迷宫、推箱子等复杂问题。通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,Dualformer模型可...……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
【新智元导读】多个LLM联合,可以迈向更强大系统!最新研究发现,GPT-4能够提升同伴的性能,能够让数学能力暴涨11.6%。AI如何成为「更强的AI」?最关键还是,得学会「借力」。来自蒙特利尔大学、剑桥、普林斯顿、谷歌DeepMi...……更多
最前线 | 上海电影入局AI影视,宣布启动中国动画学派大模型训练
...年来,上影推出了《繁花》《中国奇谭》《爱情神话》等新作,上映了主投、主控和投资出品的38部影视作品。上影宣布,自2024年起,将加速AI对内容创作、影视制作等各项业务的赋能,实现内容焕新3年大提速。包括保持每年2...……更多
更多关于科技的资讯:
如不能正常浏览请选用IE浏览器天津北方网讯:潮购津门,乐呵过年。第二届天津电商节年货节,“一站式”购齐年货,欢欢喜喜过大年。#你好天津 #点赞天津……(津云新闻编辑张麒麟)
2025-01-27 15:37:00
AI入口 “爱”的入口
江南时报讯 春节是团圆的盛宴,凝聚着家的灵魂、力量与温暖。南来北往的游子,对于“家”有着更深的情结与眷恋。春运期间,中国电信联合江苏交通文化传媒有限公司在江苏高速阳澄湖
2025-01-27 15:51:00
完美世界再发反腐通报:开除4人,永不录用
根据一份流传到网上的内部公告,1月24日,完美世界开除了百万工作室四人,其违规行为包括在素材制作外包管理方面玩忽职守,构成严重失职
2025-01-27 16:03:00
过年回家,你锁门了吗?Zigbang直帮(原三星指纹锁)
过年回家,你锁门了吗?Zigbang直帮(原三星指纹锁),自动上锁不操心随着春节的脚步日益临近,人们纷纷踏上了归家的旅程
2025-01-27 16:11:00
这种小番茄有剧毒!很多人还把它当观赏植物 快看你家有没有
去年,美国女演员艾丽西亚·西尔维斯通(Alicia Silverstone)发了一个短视频,说自己在路边摘了一个橙色小番茄
2025-01-27 16:36:00
潍坊美的火三月震撼来袭,超绝福利“高能”释出!
3月7日-3月16日,一年一度的美的火三月将火爆开展,作为美的家电每年的核心活动节点,已经传承了17载。它不仅是美的与消费者之间的约定
2025-01-27 16:46:00
厂商官方承认:RTX 50确实货不多!一家都不到100块
快科技1月27日消息,RTX 5090/5090D、RTX 5080都将在1月30日大年初二晚上正式开售,但这次供货之紧张前所未有
2025-01-27 17:06:00
DeepSeek实习生日薪最高达上千元 招人不看经验只看能力
快科技1月27日消息,近日,国产大模型DeepSeek震动美国硅谷,其移动App一举登顶苹果中国和美国应用商店免费APP下载排行榜
2025-01-27 17:06:00
女子帮忙按600斤年猪脸被踢肿 网友:古有四大按不住
1月27日消息,近日,贵州贵阳一女子帮叔叔们一起按住600斤的年猪,年猪不停挣扎,一脚踢到女子脸上。她表示:“脸被踢肿了
2025-01-27 17:06:00
一谈起自动化汽车工厂,人们脑海中常常浮现出这样的场景:机器人手臂在精确装配线上舞动,高效焊接、喷涂车身;智能AGV小车穿梭其间
2025-01-27 17:06:00
Windows 11 24H2新年第一个补丁惹大祸:各种不正常、崩溃
快科技1月27日消息,Windows补丁惹事儿不是新闻,但是作为Windows 11 24H2 2025年的第一个补丁
2025-01-27 17:36:00
最高补贴2000元!青岛以旧换新“加力扩围”至12类
齐鲁晚报·齐鲁壹点 尚青龙青岛市2025年消费品以旧换新活动已于日前正式启动,记者从青岛市商务局、青岛市财政局获悉,为进一步惠及广大消费者
2025-01-27 17:42:00
提到线上“带货”,大家可能都不陌生。不论是食品、服装、电子产品,还是诸如电影票、餐饮券、旅游套餐等生活服务产品,都是我们常见的线上“带货”商品
2025-01-27 18:35:00
苏州移动启动首个5G-A通感一体“协作感知”方案的城区规模组网测试
近日,苏州移动正式启动了首个5G-A通感一体“协作感知”方案的城区规模组网测试,标志着5G-A技术在通信与感知融合上的重大突破
2025-01-27 18:38:00
三星Galaxy Z Flip 7相机规格泄露:与前代无差异 聚焦AI增强
快科技1月27日消息,据荷兰科技媒体Galaxy Club消息,三星即将发布的Galaxy Z Flip 7小折叠手机在相机硬件上并没有带来令人惊喜
2025-01-27 19:06:00