• 我的订阅
  • 头条热搜
RNN回归!Bengio新作大道至简与Transformer一较高下
...推出了全新的RNN架构,以大道至简的思想与Transformer一较高下。在Transformer统治的AI时代之下,散落在世界各地的「RNN神教」信徒,一直相信并期待着RNN回归的那天:毕竟,凭借强大的顺序和上下文感知能力,RNN曾在各种任务中表...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...更多详情,可以参见机器之心之前的报道:《Bengio 等人新作:注意力可被视为 RNN,新模型媲美 Transformer,但超级省内存》简化 LSTM 和 GRU在这一部分,研究者通过简化和移除各种门中的若干隐藏状态依赖关系,证明 GRU 和 LSTM 可...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...型性能和效率的技术架构。其主要由一组专家模型和一个门控模型组成,核心思想是在处理任务时只激活部分专家模型,并通过门控模型控制专家模型的选择和加权混合。简言之,MoE在训练过程通过门控模型实现“因材施教”,...……更多
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
...外,Moirai-MoE 提出了一种新型的利用预训练模型中知识的门控函数,并采用自回归的训练目标来提高训练效率。下面简要介绍 Moirai-MoE 的模块。1. 时序 Token 构造Moirai-MoE 采用切块(patching)技术将时间序列输入切成没有重叠的小...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...段具有更好的泛化能力。3. NVLM-X:X-attention模型NVLM-X使用门控交叉注意力来处理图像token,与Flamingo模型不同的是: 1)感知器重采样器对自然图像描述是有益的,但对密集OCR任务会产生负面影响,主要是因为感知器中的交叉注意...……更多
专家模型不要专家并行!微软开源MoE新路径
...arseMixer来精确估计专家路由的梯度,解决传统方案中利用门控梯度代替路由梯度的问题。 2. 专家并行不要了,训练中改用数据、pipeline和张量并行,避免了传统方法丢弃token的问题。论文地址:https://arxiv.org/abs/2409.12136当然了,...……更多
infini-attention:谷歌大内存机制
...ads):这些头在训练过程中学习到了特定的功能,它们的门控得分(gatingscore)接近0或1。这意味着它们要么通过局部注意力机制处理当前的上下文信息,要么从压缩记忆中检索信息。混合头(Mixerheads):这些头的门控得分接近0...……更多
循环神经网络(RNN):如何处理自然语言?
...处理长序列时的性能,而优化后的长短期记忆(LSTM)和门控循环单元(GRU)可以有效的解决这些问题。一、基本原理在处理序列数据时,我们通常希望能够考虑到序列中的元素之间的依赖关系。例如,在处理自然语言时,一个...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...Gemini 1.5 Pro官宣两小时发布Sora这枚重磅炸弹,颇有“一较高下”的劲头。只是由于当下大家的视线焦点集中在视频领域,Sora 又是 OpenAI 首次发布文生视频模型,所以无奈被抢了头条。图源:微博评论 Gemini 1.5 Pro建立在谷歌对Tran...……更多
...型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的L...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...入[IMAGE BREAK],在图像序列的末尾加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...器学习顶级国际会议 NeurIPS 2024 接收了一篇人脸表征学习新作, \"TopoFR: A Closer Look at Topology Alignment on Face Recognition\",让我们一睹为快。 论文链接:https://arxiv……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
【新智元导读】在NLP领域,研究者们已经充分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研究就拿出了非常有力的证据:Representation matters!扩散模型如何突破瓶颈? 成本高又难...……更多
感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战
...组可学习的阶段 token 来表示每个任务阶段,并通过一个门控网络(MLP)来预测当前所处的阶段,利用 Softmax 归一化后的阶段预测分数对阶段 token 进行加权融合,得到当前阶段 token。门控网络的训练以阶段标签作为监督信号,对...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
...一步研究Transformer的记忆巩固,是否可通过类似于NMDA受体门控过程的机制来控制。在动物大脑中,低镁水平会削弱记忆功能。研究人员发现,Transformer中的长期记忆可通过模仿NMDA受体来改善。就像在大脑中一样,镁含量的变化会...……更多
...在矩形片上。随后,科研人员利用DNA三链结构设计了一种门控开关,它将矩形片卷成纳米管,把药物保护起来。“门控开关是纳米机器的核心。”晁洁介绍,门控开关带有凝血酶适配体,能够自动跟踪凝血酶,由于血栓附近的凝...……更多
新人新作“唱”响人文湾区
...总决赛的12位歌手集结亮相,在总决赛舞台以歌声“一决高下”,一展大湾区青年歌手的风采。“湾区有新声”2023粤港澳大湾区青年流行歌手大赛是粤港澳三地共同举办的首个青年歌手官方大赛,是挖掘、培养青年流行演唱人才...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...说,我们设计的时空编码器由两个核心组件构成:一个是门控扩散卷积层,另一个是多层次关联注入层。上式 为初始化时空嵌入,从原始时空数据中获取。Er\'是Er的切片,用于进行残差操作以缓解梯度消失。我们使用一维扩散...……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...活值量化函数可以表述为:对于FFN,这里采用squared ReLU和门控线性单元(GLU)来进一步提高激活的稀疏性:根据初步实验的结果,使用squared ReLU时,下采样输入的稀疏性超过了80%,且对性能的影响最小。 此外,作者还观察到gate...……更多
sepphochreiter提出xlstm新架构
...论文中获悉,SeppHochreiter在新的xLSTM架构中采用了指数型门控循环网络,同时为神经网络结构引入了“sLSTM”和“mLSTM”两项记忆规则,从而允许相关神经网络结构能够有效地利用RAM,实现类Transformer“可同时对所有Token进行处理”...……更多
AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
一水 发自 凹非寺量子位 | 公众号 QbitAI尤洋团队新作,首个基于DiT的实时视频生成方法来了!先来直观感受一下效果(右侧为新方法):这是团队在Open-Sora上,使用5个4s(192帧)480p分辨率视频进行的测试。新方法名为Pyramid Atten...……更多
《腐蚀》激光门控制器制作方法
在rust中,制作激光门控制器需要将开关接到门上,另一端则需要连接电源,这里可以选取蓄电池或者太阳能板使门通电后,另一端再连接开关即可,不过需要定期更换电源。rust激光门控制器怎么制作答:通过开关装置,连通电...……更多
阿里前副总裁贾扬清吐槽国产大模型“套壳”,李开复公司回应称有借鉴公开成果
...模型本身的问题,同时这些仅在成本和速度上与OpenAI一较高下的公司,竞争优势并不会长久且持续,企业必须提供真正独特的价值。返回搜狐,查看更多责任编辑: ……更多
为生物和非生物通讯建“桥” 中国科学家成功实现可控离子传输
...著名学术期刊《科学》(Science)发表。本次研究的级联异质门控双相凝胶材料。中国科学院理化所 供图论文共同通讯作者闻利平研究员介绍说,人工电子电路主要基于电子和空穴进行信号传输和运算,而自然界中生命体内的信息...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...阵乘法:投影为为输出矩阵- RMS归一化- 矩阵乘法:融合门控+向上投影- 激活函数SiLU- 逐元素(element-wise)矩阵乘法- 矩阵乘法:向下投影这些操作中都需要一个或多个GPU内核进行计算,虽然不同的Transformer模型的执行细节可能有...……更多
李彦宏称开源赶不上闭源?Meta发布最强开源模型,马斯克评价“还不错”
...Meta目前还在研发Llama 3超400B的参数模型,有望与GPT-4一较高下。Llama 3很快将在亚马逊、谷歌、微软、英伟达等云厂商和大模型API提供商等平台推出。未来数月,Meta计划推出一系列具备全新功能的模型,包括多模态、支持多语言...……更多
Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子
Meta版慢思考也来了。田渊栋团队带来新作Dualformer,把快慢思考无缝结合,性能提升还成本更低。能解决迷宫、推箱子等复杂问题。通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,Dualformer模型可...……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
【新智元导读】多个LLM联合,可以迈向更强大系统!最新研究发现,GPT-4能够提升同伴的性能,能够让数学能力暴涨11.6%。AI如何成为「更强的AI」?最关键还是,得学会「借力」。来自蒙特利尔大学、剑桥、普林斯顿、谷歌DeepMi...……更多
更多关于科技的资讯:
农业银行全疆首家贵金属旗舰店亮相 市民可一站式“淘金”
新疆网讯 12月27日, 由中国农业银行乌鲁木齐分行打造的全疆首家贵金属旗舰店,在农业银行乌鲁木齐天山区支行正式营业,消费者可一站式获得贵金属鉴赏
2024-12-28 22:27:00
57岁阿姨演短剧:享受与年轻人竞争的乐趣
12月28日消息,据媒体报道,最近一段时间,微短剧走红网络,这些剧涉及的题材五花八门,以快节奏、高密度、强冲突、多反转著称
2024-12-28 22:39:00
国际知名动漫平台中国首店落户南京,打造二次元新地标
江南时报讯(记者 邓雯婷)12月28日上午,国际知名动漫平台“布雷福思朵”中国大陆首店在南京夫子庙水游城落户,吸引了众多动漫迷与消费者的关注
2024-12-28 22:46:00
“地下51米的南京”刷屏 网友直呼犹如飞龙在天
快科技12月28日消息,今天,南京地铁7号线中段正式开通运营,标志着全线实现贯通。其中,清凉山站作为南京最深的地铁站,一经亮相便在南京人的朋友圈里刷屏
2024-12-28 20:09:00
16岁男孩每天只睡5小时头秃了 医生:睡眠不足 精神压力大导致
12月28日消息,微博话题“16岁男孩每天只睡5小时头先秃了”引发热议。据媒体报道,16岁的小周由妈妈带至医院脱发门诊就诊
2024-12-28 20:09:00
华为之后全球第二家!三星三折叠屏曝光
快科技12月28日消息,博主定焦数码爆料,除华为外,目前只有三星在布局三折叠屏,其他家都没有三折或者折叠PC的计划,不过三星三折叠屏难以做到大规模的铺货
2024-12-28 20:39:00
00后女孩独自一人野外露营 帐篷内烧炭取暖差点殒命
据湖南消防12月28日消息,近日,湖南省郴州市桂东县发生了一起紧急救援事件。一名女子在深夜拨打报警电话,声音急促且含糊不清
2024-12-28 21:09:00
2024贺岁档票房破25亿:《小小的我》成黑马
快科技12月28日消息,据灯塔专业版,截至今晚19时09分,2024年贺岁档(11月22日—12月31日)档期票房(含预售)突破25亿
2024-12-28 21:09:00
量增价低持续 快递业争降本:预计明年无人车无人机应用加速
2024年,快递件量已突破1500亿件,增速仍高。国家邮政局本月公布的数据显示,今年1-11月,快递业务量累计完成1572
2024-12-28 22:09:00
男子开小米SU7一年游历38个国家:倍感自豪 此生无憾
快科技12月28日消息,今天,小米汽车正式步入一周年。与此同时,“小米车主故事”专栏正式开启,记录真实美好的个人故事,他们也许职业不同
2024-12-28 17:09:00
警惕超大显存的魔改显卡:买了就后悔
如果比较关注低价显卡,你或许会发现最近的魔改显卡多了好多,尤其是某鱼有很多超大显存的显卡,比如860元的魔改RX5600拥有12GB显存
2024-12-28 17:09:00
国产芯新成就!飞腾系列国产CPU总销量突破1000万片
快科技12月28日消息,据官方公布消息显示,中国电子飞腾系列国产CPU总销量突破1000万片。中国电子飞腾系列国产CPU总销量近日突破1000万片
2024-12-28 17:09:00
在如今蓬勃发展的手游市场中,手游联运平台成为了众多游戏从业者关注的焦点。那么,手游联运平台究竟有哪些独特的玩法呢?首先
2024-12-28 17:10:00
本文转自:人民网嫦娥六号月球背面“挖宝”归来、中国空间站上演两次在轨“换班”、长三乙火箭跨入“百次发射俱乐部”....
2024-12-28 17:17:00
华为Mate 70系列一机难求!博主:从元旦开始货源会增加
快科技12月28日消息,博主厂长是关同学透露,华为Mate 70系列从元旦开始会陆续增加货源,这批次供货Pro版会多一些
2024-12-28 17:39:00