• 我的订阅
  • 头条热搜
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...的出现打破了这一局面,它可以随上下文长度的增加实现线性扩展。随着 Mamba 的发布,这些状态空间模型 (SSM) 在中小型规模上已经可以与 Transformer 匹敌,甚至超越 Transformer,同时还能维持随序列长度的线性可扩展性,这让 Mamba...……更多
科学家制备纳米片超晶格,让LED可直接发射强线性偏振光
...中单一非对称形状的各向异性量子点已被证明可以发出强线性偏振光,例如纳米线、纳米棒等。这些非对称的单一量子点的线性偏振能大于 70%。但是因为尺寸的不均一性等原因,如何将其在薄膜和器件中有序排列仍是一个待解...……更多
信号表征指数级强、内存节省35%,量子隐式表征网络
...架构QIREN 的总体架构如图 3 所示,由 N 个混合层和末端的线性层组成。该模型以坐标作为输入并输出信号值。数据最初进入混合层,从 Linear 层和 BatchNorm 层开始,得到:然后被输入到数据重新上传量子电路 QC 中。在图 2 (b) 和 (c...……更多
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
...中,作者探索了不同的门控函数。首先使用的是最流行的线性投影门控函数,它通过一个线性层来生成专家子集的分配结果。此外,作者提出了一种新的门控机制,利用从预训练模型的 token 表示中得出的聚类中心来指导专家分...……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...即velocity)上进行了实验,包括DiT中改进后的DDPM和SiT中的线性随机插值,但实际中也同样可以考虑其他的训练目标。所用模型默认严格遵循SiT和DiT的原始结构(除非有特别说明),包括B/2、L/2、XL/2三种参数设置,如表1所示。 ...……更多
RNN回归!Bengio新作大道至简与Transformer一较高下
...(input gate、output gate、forget gate)和输入的分量,都通过线性投影和非线性激活函数来得出,并且依赖于上一个时刻的隐藏状态ht-1。 这些值再经过线性和非线性计算,得到本时刻的输出ct和隐藏状态ht。GRU在LSTM的基础上做了一...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...推测解码。最终,研究人员将Zephyr-7B、Llama-3 8B提炼为了线性RNN模型(混合Mamba和Mamba2),且性能与蒸馏之前的标准模型相当。整个训练过程只使用了20B的token,效果却能够与使用1.2T个token从头开始训练的Mamba 7B模型,以及使用3.5T...……更多
infini-attention:谷歌大内存机制
...Infini-attention。它通过将压缩记忆(compressivememory)整合到线性注意力机制中,用来处理无限长上下文。压缩记忆允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息,而不是随着输入...……更多
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...推理更为高效。相反,传统 RNN 的瓶颈在于其训练,需要线性训练时间(通过时间反向传播),这导致其最终被淘汰。人们对循环序列模型重新产生兴趣,是因为许多新的架构可以高效地进行并行训练。研究者对比了训练传统 RNN...……更多
赵旭东:重要的五个思维模型——旭东投资感悟
...。要超越普通人的认知就得掌握更多的思维模型。01、非线性思维由于人类长期的进化结果,我们更倾向于用“线性”思维方式理解世界。然而,世界的本质是非线性的。这个世界之所以有些人能取得巨大成功,而大部分人平平...……更多
AI探索宇宙结构新突破!超精准场级模拟,半秒完成冷暗物质仿真
...获宇宙学依赖性和宇宙结构形成的时间演化。 模拟器将线性位移场映射到特定红移处对应的非线性位移。模拟器是一个神经网络,包含对Ω和红移z处的线性增长因子D(z)的依赖性进行编码的样式参数。研究人员在六维N-body相空间...……更多
清华大学丘成桐团队合作推出高维数据非传统去噪新方法
...维数据时,传统的数据分析方法往往过分依赖于特征间的线性相关性。尽管这些线性方法能够简化数据的表示形式,但它们在捕捉数据中的复杂模式方面却显得力不从心。一个典型的例子是,高维数据往往聚集在低维流形附近,...……更多
通过图论直观解释线性代数原理,理解机器学习的数学原理
...的学科,它非常广泛,在许多领域都有各种各样的应用。线性代数是数学的一部分,理解和应用起来尤其困难。在我看来,关于线性代数的许多课程和开源工具都需要大量的计算。对于刚接触线代的新人来说,这可能是个问题。...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...存在性能不如 Softmax 注意力且可能增加额外开销的情况。线性 RNN 模型线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。然而,它们可能缺乏复杂序列建模任务...……更多
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
...比如Mamba,内部状态大小始终保持不变,计算随序列长度线性增长,吃得多,消化快。理论虽如此,但实际情况却是,目前的这些RNN模型在长上下文中的有效性并不能令人满意。为啥会这样?空有效率但实际上能力不行?近日,...……更多
长城基金雷俊:量化投资再开新局
...不错的短期机会。第三点是AI的赋能。传统量化投资中,线性思维容易导致模型错失有效的因子收益信息,在因子的挖掘端和合成端都欠缺非线性思维。而机器学习则能很好地构建非线性模型,扩展到文本、图像等非线性数据的...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...扩展的长期交通预测成为可能。在patch操作后,作者使用线性转换和正余弦位置编码PE以得到最终时空嵌入表征Er ∈ ℝ^(P×d),它被用于后续组件的输入,如下:时空上下文编码为了捕捉交通数据中固有的复杂时空模式,模型整合...……更多
AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
...现了高达10.6倍的速度提升,且这一提升几乎与GPU数量成线性关系。背后团队简单介绍一下提出PAB的团队成员,总共有4位。尤洋教授想必大家都比较熟悉了,清华计算机系硕士,UC伯克利博士,毕业后加入新加坡国立大学计算机...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...我纠错进行了理论分析。值得一提的是,他们并没有使用线性注意力机制下的线性回归任务进行理论分析,而是使用真实世界LLM在用的softmax多头注意力机制的transformer结构,并利用Bradley-Terry 模型和 Plackett-Luce 模型(LLM对齐的实...……更多
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
...。值得注意的是,T-MAC的计算性能会随着比特数的降低而线性提高,这一现象在基于反量化去实现的GPU和NPU中是难以观察到的。这进一步使得T-MAC能够在2比特下实现单核每秒10个token,四核每秒28个token,大大超越了NPU的性能。采...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...题组还发现了大模型推理能力和推理步骤数量有着绝对的线性关系,在示范里推理步骤越多,最后模型做推理题或者逻辑题的正确率越高。这一能力可以解决一些问题,比如大家设计 prompt 的时候不会注意到步骤的问题,而本次...……更多
...控制。许多日常设备,如恒温器和巡航控制系统,都使用线性控制器。由于这些设备算法简单,所以很难控制复杂行为(例如混沌)系统。因此,自动驾驶汽车等先进设备通常依赖基于机器学习的控制器。研究的主要作者、俄亥...……更多
烟熏食品危害健康?通过控制温度改变其物质生成!
...度的升高而显著增加,羰基物质类别与温度升高呈中等正线性Pearson相关性。仅对于呋喃类物质,未发现与温度的线性关系。图3. 通过Pearson线性相关分析得到的热解温度与物质类别之间的相关矩阵。 本研究所采用的热解温度对...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...整个数据集,然后按照此前 OLMo 论文中的方法,将学习率线性衰减到 0。 自适应论文作者从指令调优和偏好调优两方面,基于之前的开放模型,构造了 OLMoE-1B-7B-INSTRUCT。在指令调优集中,他们增加了更多的代码和数学数据,以...……更多
扩散模型训练方法一直错了!谢赛宁:Representation matters
...(可扩展插值 Transformer)模型的逐层行为,该模型使用了线性插值和速度预测(velocity prediction)进行训练。他们研究的重点是扩散 Transformer 和当前领先的监督式 DINOv2 模型之间的表征差距。他们从三个角度进行了研究:语义差...……更多
震荡市量化基金“能扛能打” 富国致航量化即将结束募集
...资的决胜因素。同时,AI的引入改变了传统量化只能通过线性的方式看待规律的角度,采用非线性的方式,极大提升了模型自适应的能力。可以说人工智能模型为主动量化基金注入了“灵魂”,而正在发行的富国致航量化就采用...……更多
《苏堤春晓》:“杭人”苏轼的非线性人生
...代价值?如何以现代的舞台语汇表现宋代的文化气韵?非线性叙事《苏堤春晓》一改传统历史剧的叙事方式,以非线性叙事方式结构全剧,以艺术主题的逻辑取代了线性的叙事时间发展逻辑。比如,戏的开端是苏轼反对王安石变...……更多
鼎智科技:国内微特电机龙头,有望受益人形机器人产业链风起
...微特电机龙头,成长性优异公司主营微特电机,产品包括线性执行器、混合式步进电机、直流电机、音圈电机四大类,主要应用于医疗器械及工业自动化板块。公司产品定位中高端,线性执行器为行业领先产品,呼吸机配套音圈...……更多
值得收藏!2023 年,你应该知道的所有机器学习算法~
...更好地理解某个模型的自变量和因变量之间的关系。算法线性/逻辑回归:对因变量和一个或多个自变量之间的线性关系进行建模的一种统计方法——可用于了解基于t-检验和系数的变量之间的关系。决策树:一种机器学习算法,...……更多
...国立大学仇成伟教授、郭强兵博士等合作,在二维材料非线性量子光源研究中取得重大突破——首次实现超薄的量子光源,厚度可低至46纳米。据介绍,这是目前国际报道的最薄非线性量子光源。研究成果近日发表于国际著名学...……更多
更多关于科技的资讯:
DXOMARK研讨会:以本地化测试与洞察,与中国用户打造手机影像未来
以本地化测试与洞察,与中国用户共同打造手机影像未来——DXOMARK 成功举办2024中国区线下研讨会2024年12月2日自2024年11月底至12月初
2024-12-04 09:47:00
11月安卓手机性能排行榜:ROG 9 Pro登顶
近日,知名手机性能评测软件安兔兔发布了11月安卓手机性能排行榜。随着联发科和高通相继推出其最新旗舰处理器,国内各大Android厂商也迅速响应
2024-12-04 09:47:00
华擎B580显卡评测样品曝光:2.5 槽厚、2.8GHz、375W 功耗
IT之家 12 月 3 日消息,消息源 FunkyIT 于 11 月 30 日发布视频,分享了华擎(ASRock)锐炫(Arc)B580 Steel Legend 12 GB “Battlemage”显卡
2024-12-04 09:47:00
火狐 Firefox 测试新特性:希望用户将其设置为默认浏览器
IT之家 12 月 3 日消息,科技媒体 bleepingcomputer 昨日(12 月 2 日)发布博文,报道称 Mozilla 公司正尝试新的方法
2024-12-04 09:47:00
对着3个中国AI大模型,两个美国科技界大佬深聊了半小时
智东西12月3日消息,当前AI行业快速发展,竞争也越来越激烈,特别是各种高级推理模型之间的竞争。过去一段时间,中国科技公司陆续发布了3款自研的AI模型
2024-12-04 09:48:00
新型催化剂将水解制氢效率提高200倍
德国马克斯·普朗克研究所科学家研制出一种独特的拓扑手性晶体,并将其用作水解制氢过程中的催化剂。通过操控该晶体内电子自旋
2024-12-04 09:48:00
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
想要体验文生视频的小伙伴又多了一个选择!今日,腾讯宣布旗下的混元视频生成大模型(HunYuan-Video )对外开源
2024-12-04 09:48:00
破茧成蝶,理想晶延高端装备护航中国光伏从“跟跑”到“领跑”
经过几十年发展,我国光伏产业从无到有,已形成技术研发活跃、产业链完整齐备、端到端自主可控且具有国际竞争优势的战略性新兴产业
2024-12-04 09:48:00
李飞飞空间智能上新!一张图就可以生成3D世界,能像玩游戏一样互动
智东西12月3日消息,今日凌晨,由“AI教母”李飞飞联合创立并担任CEO的AI初创公司World Labs对外公布了他们的首个成果
2024-12-04 09:49:00
MIT首次证明运动能促进神经元生长,网友:催我运动的理由+1
催我运动的理由又多了一个!MIT研究团队首次证明:运动可以促进神经元生长,从而让大脑更灵活更聪明。而且促进的方式不止一种
2024-12-04 09:49:00
关于LLM-as-a-judge范式,终于有综述讲明白了
摘要:评估和评价长期以来一直是人工智能 (AI) 和自然语言处理 (NLP) 中的关键挑战。然而,传统方法,无论是基于匹配还是基于词嵌入
2024-12-04 09:49:00
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
智东西12月3日报道,今天,腾讯混元大模型正式上线视频生成能力,这是在腾讯文生文、文生图、3D生成之后的最新技术进展。据腾讯混元多模态生成技术负责人凯撒现场介绍
2024-12-04 09:49:00
ChatGPT 迎来“可怕的两岁”:从革命到日常,AI如何塑造未来?
“ChatGPT 成长之路,AI 未来之启。”ChatGPT 诞生的两年间,犹如一颗璀璨的新星,在科技的天空中迅速崛起
2024-12-04 09:49:00
下一个OpenAI+微软?Anthropic将使用数十万枚亚马逊自研芯片
Anthropic发展迅速,需要算力;亚马逊重兵布局自研算力芯片,需要紧密绑定的使用者美国西部时间12月2日晚,AI(人工智能)创业公司Anthropic的联合创始人兼首席计算官
2024-12-04 09:49:00
百度如何领跑中国AI赛道,跻身全球AI原生巨头行列?
近期,沙利文机构发布的《2024年全球AI生态全景概览》揭晓了答案,百度与OpenAI、谷歌一同被冠以“AI原生巨头”的殊荣
2024-12-04 09:49:00