• 我的订阅
  • 头条热搜
RNN回归!Bengio新作大道至简与Transformer一较高下
...推出了全新的RNN架构,以大道至简的思想与Transformer一较高下。在Transformer统治的AI时代之下,散落在世界各地的「RNN神教」信徒,一直相信并期待着RNN回归的那天:毕竟,凭借强大的顺序和上下文感知能力,RNN曾在各种任务中表...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...更多详情,可以参见机器之心之前的报道:《Bengio 等人新作:注意力可被视为 RNN,新模型媲美 Transformer,但超级省内存》简化 LSTM 和 GRU在这一部分,研究者通过简化和移除各种门中的若干隐藏状态依赖关系,证明 GRU 和 LSTM 可...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...型性能和效率的技术架构。其主要由一组专家模型和一个门控模型组成,核心思想是在处理任务时只激活部分专家模型,并通过门控模型控制专家模型的选择和加权混合。简言之,MoE在训练过程通过门控模型实现“因材施教”,...……更多
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
...外,Moirai-MoE 提出了一种新型的利用预训练模型中知识的门控函数,并采用自回归的训练目标来提高训练效率。下面简要介绍 Moirai-MoE 的模块。1. 时序 Token 构造Moirai-MoE 采用切块(patching)技术将时间序列输入切成没有重叠的小...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...段具有更好的泛化能力。3. NVLM-X:X-attention模型NVLM-X使用门控交叉注意力来处理图像token,与Flamingo模型不同的是: 1)感知器重采样器对自然图像描述是有益的,但对密集OCR任务会产生负面影响,主要是因为感知器中的交叉注意...……更多
专家模型不要专家并行!微软开源MoE新路径
...arseMixer来精确估计专家路由的梯度,解决传统方案中利用门控梯度代替路由梯度的问题。 2. 专家并行不要了,训练中改用数据、pipeline和张量并行,避免了传统方法丢弃token的问题。论文地址:https://arxiv.org/abs/2409.12136当然了,...……更多
infini-attention:谷歌大内存机制
...ads):这些头在训练过程中学习到了特定的功能,它们的门控得分(gatingscore)接近0或1。这意味着它们要么通过局部注意力机制处理当前的上下文信息,要么从压缩记忆中检索信息。混合头(Mixerheads):这些头的门控得分接近0...……更多
循环神经网络(RNN):如何处理自然语言?
...处理长序列时的性能,而优化后的长短期记忆(LSTM)和门控循环单元(GRU)可以有效的解决这些问题。一、基本原理在处理序列数据时,我们通常希望能够考虑到序列中的元素之间的依赖关系。例如,在处理自然语言时,一个...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...Gemini 1.5 Pro官宣两小时发布Sora这枚重磅炸弹,颇有“一较高下”的劲头。只是由于当下大家的视线焦点集中在视频领域,Sora 又是 OpenAI 首次发布文生视频模型,所以无奈被抢了头条。图源:微博评论 Gemini 1.5 Pro建立在谷歌对Tran...……更多
...型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的L...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...入[IMAGE BREAK],在图像序列的末尾加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...器学习顶级国际会议 NeurIPS 2024 接收了一篇人脸表征学习新作, \"TopoFR: A Closer Look at Topology Alignment on Face Recognition\",让我们一睹为快。 论文链接:https://arxiv……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
【新智元导读】在NLP领域,研究者们已经充分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研究就拿出了非常有力的证据:Representation matters!扩散模型如何突破瓶颈? 成本高又难...……更多
感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战
...组可学习的阶段 token 来表示每个任务阶段,并通过一个门控网络(MLP)来预测当前所处的阶段,利用 Softmax 归一化后的阶段预测分数对阶段 token 进行加权融合,得到当前阶段 token。门控网络的训练以阶段标签作为监督信号,对...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
...一步研究Transformer的记忆巩固,是否可通过类似于NMDA受体门控过程的机制来控制。在动物大脑中,低镁水平会削弱记忆功能。研究人员发现,Transformer中的长期记忆可通过模仿NMDA受体来改善。就像在大脑中一样,镁含量的变化会...……更多
...在矩形片上。随后,科研人员利用DNA三链结构设计了一种门控开关,它将矩形片卷成纳米管,把药物保护起来。“门控开关是纳米机器的核心。”晁洁介绍,门控开关带有凝血酶适配体,能够自动跟踪凝血酶,由于血栓附近的凝...……更多
新人新作“唱”响人文湾区
...总决赛的12位歌手集结亮相,在总决赛舞台以歌声“一决高下”,一展大湾区青年歌手的风采。“湾区有新声”2023粤港澳大湾区青年流行歌手大赛是粤港澳三地共同举办的首个青年歌手官方大赛,是挖掘、培养青年流行演唱人才...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...说,我们设计的时空编码器由两个核心组件构成:一个是门控扩散卷积层,另一个是多层次关联注入层。上式 为初始化时空嵌入,从原始时空数据中获取。Er\'是Er的切片,用于进行残差操作以缓解梯度消失。我们使用一维扩散...……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...活值量化函数可以表述为:对于FFN,这里采用squared ReLU和门控线性单元(GLU)来进一步提高激活的稀疏性:根据初步实验的结果,使用squared ReLU时,下采样输入的稀疏性超过了80%,且对性能的影响最小。 此外,作者还观察到gate...……更多
sepphochreiter提出xlstm新架构
...论文中获悉,SeppHochreiter在新的xLSTM架构中采用了指数型门控循环网络,同时为神经网络结构引入了“sLSTM”和“mLSTM”两项记忆规则,从而允许相关神经网络结构能够有效地利用RAM,实现类Transformer“可同时对所有Token进行处理”...……更多
全球几十种大模型评测,如何甄别可信度?
...针对特定数据集进行优化。 让大模型互相打辩论来一较高下一个更新颖的方式让大模型互相打辩论,一争高下,来让人直观的感受到模型能力的差距。和传统的评测方法相比,辩论赛要求模型理解辩题、构建论点、反驳对方观...……更多
《腐蚀》激光门控制器制作方法
在rust中,制作激光门控制器需要将开关接到门上,另一端则需要连接电源,这里可以选取蓄电池或者太阳能板使门通电后,另一端再连接开关即可,不过需要定期更换电源。rust激光门控制器怎么制作答:通过开关装置,连通电...……更多
AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
一水 发自 凹非寺量子位 | 公众号 QbitAI尤洋团队新作,首个基于DiT的实时视频生成方法来了!先来直观感受一下效果(右侧为新方法):这是团队在Open-Sora上,使用5个4s(192帧)480p分辨率视频进行的测试。新方法名为Pyramid Atten...……更多
阿里前副总裁贾扬清吐槽国产大模型“套壳”,李开复公司回应称有借鉴公开成果
...模型本身的问题,同时这些仅在成本和速度上与OpenAI一较高下的公司,竞争优势并不会长久且持续,企业必须提供真正独特的价值。返回搜狐,查看更多责任编辑: ……更多
被认为国产AI之光的DeepSeek V3出糗:居然自称是ChatGPT
...的实用玩法。例如有网友拿DeepSeek V3和Claude Sonnet 3.5一决高下,在Scroll Hub中分别用它俩创建网站。博主在测试之后,认为DeepSeek V3完全胜出!还有网友分享了用DeepSeek V3在AI视频编辑器中的体验。他表示以后不用再在FFMPEG命令上浪..……更多
在微观世界里建造“液体之门”(科技自立自强·青年科学家)
...验室、自主开发科研仪器,侯旭带领团队潜心研究“液体门控”的新机制与技术应用,踏上“从0到1”的科研路。在微观世界打造了一个“液体之门”,实现物质的高效可控运输与分离——这是厦门大学化学化工学院、物理科学...……更多
为生物和非生物通讯建“桥” 中国科学家成功实现可控离子传输
...著名学术期刊《科学》(Science)发表。本次研究的级联异质门控双相凝胶材料。中国科学院理化所 供图论文共同通讯作者闻利平研究员介绍说,人工电子电路主要基于电子和空穴进行信号传输和运算,而自然界中生命体内的信息...……更多
EA宣布麦登橄榄球系列新作《麦登橄榄球24》Steam上线
...打造您的虚拟形象,在3v3 对抗中与好友联手竞技或一较高下。像主导比赛的超级明星一般,随机应变,彰显您的战术素养和比赛风格;获得实时球员评分;穿上游戏中最热门的装备,让您在比赛中表现得有型有款。球队-剑指超...……更多
更多关于科技的资讯:
康佳易柚系统全面接入DeepSeek,开启AI智能新纪元
近日,康佳电视宣布全面接入DeepSeek,标志着电视行业正式迈入AI深度思考的新纪元。康佳电视易柚系统全面升级AI智能体
2025-02-17 16:46:00
加力承接家电3C国补,2025苏宁易购“火力全开”
国补助燃消费品换新需求,家电3C市场再添新动能。为积极响应国家扩大内需、大力提振消费的战略部署,2025年开年,苏宁易购明确将通过优化家电履约流程
2025-02-17 16:52:00
男童3年前生吃蟹腿致寄生虫钻进心脏:感染肺吸虫病
2月17日消息,为了追求舌尖上的美味,很多人喜欢吃生腌,然而这种行为很有可能导致严重疾病。媒体报道,男童俊俊今年10岁
2025-02-17 16:54:00
董明珠才是王道!格力抖音直播间已改名为格力董明珠店:跟线下同名
快科技2月17日消息,你没看错,格力电器的线上和线下专卖店都在改名。据国内媒体报道称,2月13日召开的格力电器2025品牌战略发布会上
2025-02-17 16:54:00
每晚仅约0.16元:润本蚊香液19元4 瓶+1器速囤
天猫润本旗舰店,润本蚊香液4瓶+1器日常售价为29.9元,下单领取10元优惠券,到手价为19.9元。每瓶约可使用30晚
2025-02-17 16:54:00
含95%棉:真维斯春季休闲裤29.9元大促(平脚/束脚可选)
淘宝自营店【淘宝内购会】,真维斯春季休闲裤日常售价为99.9元,下单领取70元优惠券,到手29.9元。颜色有黑色/灰色2种可选
2025-02-17 16:54:00
1080P分辨率笔记本已经沦为others 2.5K占比达4成
快科技2月17日消息,根据洛图科技(RUNTO)最新报告显示,2024年,中国大陆笔记本电脑在线上公开零售市场的销量为1105万台
2025-02-17 16:54:00
曝乐道逼迫员工买车并恶意辞退 乐道回应:员工违规转卖车辆
快科技2月17日消息,日前,一则“乐道逼迫员工买车 遭恶意辞退”的帖子引起网友热议。帖子中,有一位自称是乐道员工的车主
2025-02-17 16:54:00
1A1C双口、65W快充:QCY迷你氮化镓充电器到手44.9元
QCY GN203GB氮化镓充电器(65W)日常售价为99.9元,下单领取55元优惠券,到手价为44.9元。购买链接:天猫(券后44
2025-02-17 16:54:00
【宅男财经|专家面对面】继微信之后,16日晚间,百度搜索也全面接入DeepSeek大模型。此前,中国电信、中国移动、中国联通三大运营商相继宣布全面接入DeepSeek中关村信息消费联盟理事长
2025-02-17 17:01:00
近日,教育部公布了61个国家特殊教育改革实验区,太原市杏花岭区入选。(《太原日报》2月12日)科技为特殊教育赋能,正逢其时
2025-02-17 17:07:00
中国经济网北京2月17日讯(记者 徐自立) 国内知名咖啡连锁品牌库迪咖啡2月13日宣布了一项重大战略升级,其“触手可及”计划迎来全面革新
2025-02-17 17:08:00
西安“科创达人”炼成记
本文转自:人民网-陕西频道王丽如果你有一个好技术,到西安落地一家企业要多久?有人仅用42天;如果你有一个新科创企业,成长为一个产业链“链主”要多久
2025-02-17 17:16:00
众业达|雕刻机铣刀的直径是多少?
雕刻机铣刀作为专门用于雕刻各种材料的刀具,它的直径范围较为广泛,具体取决于加工需求、材料类型以及雕刻机的规格和功率。下面众业达小编就来为大家详细介绍下雕刻机铣刀的直径
2025-02-17 17:18:00
众业达|石墨铣刀有哪些特点?
石墨铣刀是利用石墨材料的高导电性能和良好的导热性能,在加工过程中将热量迅速散发的铣刀。它广泛应用于加工电子行业、高精度机械加工和高强度合金等领域
2025-02-17 17:23:00