• 我的订阅
  • 头条热搜
RNN回归!Bengio新作大道至简与Transformer一较高下
...推出了全新的RNN架构,以大道至简的思想与Transformer一较高下。在Transformer统治的AI时代之下,散落在世界各地的「RNN神教」信徒,一直相信并期待着RNN回归的那天:毕竟,凭借强大的顺序和上下文感知能力,RNN曾在各种任务中表...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...更多详情,可以参见机器之心之前的报道:《Bengio 等人新作:注意力可被视为 RNN,新模型媲美 Transformer,但超级省内存》简化 LSTM 和 GRU在这一部分,研究者通过简化和移除各种门中的若干隐藏状态依赖关系,证明 GRU 和 LSTM 可...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...型性能和效率的技术架构。其主要由一组专家模型和一个门控模型组成,核心思想是在处理任务时只激活部分专家模型,并通过门控模型控制专家模型的选择和加权混合。简言之,MoE在训练过程通过门控模型实现“因材施教”,...……更多
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
...外,Moirai-MoE 提出了一种新型的利用预训练模型中知识的门控函数,并采用自回归的训练目标来提高训练效率。下面简要介绍 Moirai-MoE 的模块。1. 时序 Token 构造Moirai-MoE 采用切块(patching)技术将时间序列输入切成没有重叠的小...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...段具有更好的泛化能力。3. NVLM-X:X-attention模型NVLM-X使用门控交叉注意力来处理图像token,与Flamingo模型不同的是: 1)感知器重采样器对自然图像描述是有益的,但对密集OCR任务会产生负面影响,主要是因为感知器中的交叉注意...……更多
专家模型不要专家并行!微软开源MoE新路径
...arseMixer来精确估计专家路由的梯度,解决传统方案中利用门控梯度代替路由梯度的问题。 2. 专家并行不要了,训练中改用数据、pipeline和张量并行,避免了传统方法丢弃token的问题。论文地址:https://arxiv.org/abs/2409.12136当然了,...……更多
infini-attention:谷歌大内存机制
...ads):这些头在训练过程中学习到了特定的功能,它们的门控得分(gatingscore)接近0或1。这意味着它们要么通过局部注意力机制处理当前的上下文信息,要么从压缩记忆中检索信息。混合头(Mixerheads):这些头的门控得分接近0...……更多
循环神经网络(RNN):如何处理自然语言?
...处理长序列时的性能,而优化后的长短期记忆(LSTM)和门控循环单元(GRU)可以有效的解决这些问题。一、基本原理在处理序列数据时,我们通常希望能够考虑到序列中的元素之间的依赖关系。例如,在处理自然语言时,一个...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...Gemini 1.5 Pro官宣两小时发布Sora这枚重磅炸弹,颇有“一较高下”的劲头。只是由于当下大家的视线焦点集中在视频领域,Sora 又是 OpenAI 首次发布文生视频模型,所以无奈被抢了头条。图源:微博评论 Gemini 1.5 Pro建立在谷歌对Tran...……更多
...型已有工作基础,创新提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的L...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...入[IMAGE BREAK],在图像序列的末尾加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...器学习顶级国际会议 NeurIPS 2024 接收了一篇人脸表征学习新作, \"TopoFR: A Closer Look at Topology Alignment on Face Recognition\",让我们一睹为快。 论文链接:https://arxiv……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
【新智元导读】在NLP领域,研究者们已经充分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研究就拿出了非常有力的证据:Representation matters!扩散模型如何突破瓶颈? 成本高又难...……更多
感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战
...组可学习的阶段 token 来表示每个任务阶段,并通过一个门控网络(MLP)来预测当前所处的阶段,利用 Softmax 归一化后的阶段预测分数对阶段 token 进行加权融合,得到当前阶段 token。门控网络的训练以阶段标签作为监督信号,对...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transfo...……更多
...一步研究Transformer的记忆巩固,是否可通过类似于NMDA受体门控过程的机制来控制。在动物大脑中,低镁水平会削弱记忆功能。研究人员发现,Transformer中的长期记忆可通过模仿NMDA受体来改善。就像在大脑中一样,镁含量的变化会...……更多
...在矩形片上。随后,科研人员利用DNA三链结构设计了一种门控开关,它将矩形片卷成纳米管,把药物保护起来。“门控开关是纳米机器的核心。”晁洁介绍,门控开关带有凝血酶适配体,能够自动跟踪凝血酶,由于血栓附近的凝...……更多
新人新作“唱”响人文湾区
...总决赛的12位歌手集结亮相,在总决赛舞台以歌声“一决高下”,一展大湾区青年歌手的风采。“湾区有新声”2023粤港澳大湾区青年流行歌手大赛是粤港澳三地共同举办的首个青年歌手官方大赛,是挖掘、培养青年流行演唱人才...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...说,我们设计的时空编码器由两个核心组件构成:一个是门控扩散卷积层,另一个是多层次关联注入层。上式 为初始化时空嵌入,从原始时空数据中获取。Er\'是Er的切片,用于进行残差操作以缓解梯度消失。我们使用一维扩散...……更多
sepphochreiter提出xlstm新架构
...论文中获悉,SeppHochreiter在新的xLSTM架构中采用了指数型门控循环网络,同时为神经网络结构引入了“sLSTM”和“mLSTM”两项记忆规则,从而允许相关神经网络结构能够有效地利用RAM,实现类Transformer“可同时对所有Token进行处理”...……更多
《腐蚀》激光门控制器制作方法
在rust中,制作激光门控制器需要将开关接到门上,另一端则需要连接电源,这里可以选取蓄电池或者太阳能板使门通电后,另一端再连接开关即可,不过需要定期更换电源。rust激光门控制器怎么制作答:通过开关装置,连通电...……更多
AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
一水 发自 凹非寺量子位 | 公众号 QbitAI尤洋团队新作,首个基于DiT的实时视频生成方法来了!先来直观感受一下效果(右侧为新方法):这是团队在Open-Sora上,使用5个4s(192帧)480p分辨率视频进行的测试。新方法名为Pyramid Atten...……更多
阿里前副总裁贾扬清吐槽国产大模型“套壳”,李开复公司回应称有借鉴公开成果
...模型本身的问题,同时这些仅在成本和速度上与OpenAI一较高下的公司,竞争优势并不会长久且持续,企业必须提供真正独特的价值。返回搜狐,查看更多责任编辑: ……更多
为生物和非生物通讯建“桥” 中国科学家成功实现可控离子传输
...著名学术期刊《科学》(Science)发表。本次研究的级联异质门控双相凝胶材料。中国科学院理化所 供图论文共同通讯作者闻利平研究员介绍说,人工电子电路主要基于电子和空穴进行信号传输和运算,而自然界中生命体内的信息...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...阵乘法:投影为为输出矩阵- RMS归一化- 矩阵乘法:融合门控+向上投影- 激活函数SiLU- 逐元素(element-wise)矩阵乘法- 矩阵乘法:向下投影这些操作中都需要一个或多个GPU内核进行计算,虽然不同的Transformer模型的执行细节可能有...……更多
李彦宏称开源赶不上闭源?Meta发布最强开源模型,马斯克评价“还不错”
...Meta目前还在研发Llama 3超400B的参数模型,有望与GPT-4一较高下。Llama 3很快将在亚马逊、谷歌、微软、英伟达等云厂商和大模型API提供商等平台推出。未来数月,Meta计划推出一系列具备全新功能的模型,包括多模态、支持多语言...……更多
Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子
Meta版慢思考也来了。田渊栋团队带来新作Dualformer,把快慢思考无缝结合,性能提升还成本更低。能解决迷宫、推箱子等复杂问题。通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,Dualformer模型可...……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
【新智元导读】多个LLM联合,可以迈向更强大系统!最新研究发现,GPT-4能够提升同伴的性能,能够让数学能力暴涨11.6%。AI如何成为「更强的AI」?最关键还是,得学会「借力」。来自蒙特利尔大学、剑桥、普林斯顿、谷歌DeepMi...……更多
最前线 | 上海电影入局AI影视,宣布启动中国动画学派大模型训练
...年来,上影推出了《繁花》《中国奇谭》《爱情神话》等新作,上映了主投、主控和投资出品的38部影视作品。上影宣布,自2024年起,将加速AI对内容创作、影视制作等各项业务的赋能,实现内容焕新3年大提速。包括保持每年2...……更多
更多关于科技的资讯:
《封神2》口碑争议大:有人打满分有人打零分 观众批评剧情狗血
快科技1月30日消息,春节假期休息的你去电影院看片了吗,如果去看会首选《封神第二部:战火西岐》吗?1月29日,《封神第二部:战火西岐》在春节档上映
2025-01-30 23:38:00
撒贝宁浓重眉毛冲上热搜 为啥人的眉毛这么重要
2025 年央视春晚上,撒贝宁因眉毛过粗登上热搜,被网友戏称为“浓眉大眼”以及“蜡笔小新同款眉”。就连撒贝宁自己也在节目里吐槽了这个梗
2025-01-30 23:38:00
7片三折扇叶!影驰RTX 5080圣刃OC显卡图赏
快科技1月30日消息,影驰最新发布了RTX 5080圣刃OC显卡。现在这款新品已经来到我们评测室,下面为大家带来图赏。影驰RTX 5080圣刃OC显卡搭配刃式装甲进行外观设计
2025-01-30 23:38:00
几何秩序美!索泰RTX 5080 16GB SOLID OC显卡图赏
快科技1月31日消息,索泰RTX 5080 16GB SOLID OC显卡现已发布。现在这款新品已经来到我们评测室, 下面为大家带来图赏
2025-01-31 07:38:00
经典的红黑配色!耕升RTX 5080追风OC显卡图赏
快科技1月31日消息,耕升RTX 5080追风显卡正式发布,为游戏玩家带来了新一代利器。现在这款新品已经来到我们评测室
2025-01-31 07:38:00
春节档最新预测票房:《哪吒》破50亿超第一部《射雕》仅8亿
快科技1月31日消息,据灯塔AI显示,影片《哪吒之魔童闹海》预测票房上调至50.5亿。2019年上映的《哪吒之魔童降世》最终票房为50
2025-01-31 07:38:00
给一整个国家加上杠杆:家电补贴都改变了什么
家电补贴,是最近几个月横贯在所有国内消费者心中的一个词,似乎每次遇到国内经济状况面临较大压力时,家电补贴都会强势上线。它就像一个终极版本答案一样
2025-01-31 08:08:00
人类计时器“天花板” 这种钟的误差可以达到3000亿年只差1秒
发现并归纳元素周期律的门捷列夫曾经说过,“科学是从测量开始的”,这句话的意思是说,没有精密测量就没有现代自然科学,而测量精度的提高往往会带来新的科学规律发现
2025-01-31 08:08:00
“大家值班辛苦了,今天的情况怎么样?”1月29日8时30分,雄安城市计算中心内的雄安云网科技有限公司(以下简称“雄安云网公司”)总经理助理曹英走进雄安城市计算中心地下一层的智能城市运维中心
2025-01-31 08:37:00
雷峰塔下真的有压了千年的白色虫子:发现时还活着
1月31日消息,看完蛇年春晚《借伞》,唤醒了人们对《白蛇传》这一经典传说的美好记忆,也让杭州这座充满浪漫与传奇色彩的城市再次成为众人瞩目的焦点
2025-01-31 08:38:00
本田调整组织架构:整合软件定义汽车业务 新增汽车开发部门
快科技1月31日消息,快科技1月31日消息,据媒体报道,本田技研宣布将于2025年4月1日起进行一系列组织和运营改革。据悉
2025-01-31 08:38:00
DeepSeek向中国科技公司发倡议:携手抵抗美国打压!官方回应
快科技1月31日消息,近日网上流传了一份DeepSeek母公司深度求索发出的倡议书,其中号召中国科技公司团结起来。从倡议书中可以看到
2025-01-31 09:08:00
优派新款23.8寸显示器仅399元:1080P 144Hz高刷屏
快科技1月31日消息,优派推出了新款23.8寸显示器VA24G25,首发仅399元。这款显示器配备23.8寸IPS面板
2025-01-31 09:38:00
40多万才买1年的奔驰车被烧毁 女车主淡定比耶拍照:发言更是绝
1月31日消息,据国内媒体报道称,近日在江西九江都昌县,一辆尼桑车停在鞭炮灰烬上起火,殃及旁边的奔驰车,导致两车烧毁。上述事件也是引发了网友的热议
2025-01-31 09:08:00
影驰GeForce RTX 5080圣刃OC显卡评测:小尺寸高性能 高端玩家完美之选
一、前言:更贴近游戏玩家需求的准旗舰显卡NVIDIA在2025年开年推出了全新的GeForce RTX 50系显卡,旗舰级别的GeForce RTX 5090 D价格直接来到了16000元之上
2025-01-30 22:38:00