• 我的订阅
  • 头条热搜
NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能
...斯汀分校以及剑桥大学的研究者联合提出了一种全新的非对称 LoRA 架构 —— HydraLoRA。与传统 LoRA 需要对所有任务使用相同的参数结构不同,HydraLoRA 引入了共享的 A 矩阵和多个独立的 B 矩阵,分别处理不同的任务,从而避免任务...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...知训练(QAT)两种方法,建议有AI基础的读者直接跳转至对称量化部分:第一部分:LLM的「问题」「大语言模型」就是大在模型参数量上,规模通常达到数十亿的级别(其中主要是权重)。 这些参数不仅存储成本相当高,推理...……更多
Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
...爱尔兰利莫瑞克大学的一篇论文,其中提出了一种「线性对称的自选择式 14 bit 的动力学分子忆阻器」。 论文标题:Linear symmetric self-selecting 14-bit kinetic molecular memristors论文地址……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...题,研究团队新的基础模型OpenCity。OpenCity结合了Transformer架构和图神经网络,用以模拟交通数据中复杂的时空依赖关系。通过在大规模、异质性交通数据集上进行预训练,OpenCity能够学习丰富、具有泛化性的表征,这些表征可有...……更多
AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思
...大芯片,而是改为多个小芯片整合封装。四代至强分成了对称的四个部分,做到最多60核心,五代至强则变成了镜像对称的两部分,核心数反而提升到最多64个。之所以如此改变,是因为切割的小芯片越多,彼此互相通信所需要...……更多
自研芯片三国杀,头部智驾新战场,蔚小理谁强?
...模型,理想为了解决端到端大模型可解释性差的问题,将架构升级为「端到端+VLM」,而小鹏则和特斯拉一样坚信纯视觉才是智能驾驶的终局,发布了下一代AI鹰眼纯视觉方案。但是要最大限度的发挥算法的能力,必须要有和软件...……更多
超星未来梁爽:软硬件协同优化,赋能AI 2.0新时代
...部署到现有的边缘侧芯片上,主要原因包括:(1)传统架构矩阵算力缺口明显,大模型中50-80%算力需求在Attention层中的各类矩阵计算,并且KV矩阵有明显稀疏性,需要专项支持;(2)大模型的参数量和带宽需求巨大,单7B级别的...……更多
“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
...尔®至强®CPUMax系列处理器。这是英特尔唯一一款基于x86架构并采用高带宽内存(HBM)的CPU系列,采用了片上HBM设计,内存带宽高达4TB/s。和传统DDR5内存相比,HBM具有更多的访存通道和更长的读取位宽,理论带宽可达DDR5的4倍之多...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...务中保持模型整体性能。之前各种知识编辑的模型方法和架构包括类似于:修改模型内部参数、增加额外参数和基于检索方法都会有冗长的编辑前缀影响推理效率。对模型本身进行微调可能会导致过拟合,从而影响其原始性能。...……更多
手机市场深陷泥沼,厂商如何破冰?
...颈不断,手机厂商该如何破冰,进入下一个增长期?潮汐架构,一份关键答案性能不再是手机的瓶颈,前几年手机厂商都选择了新的影像赛道,通过与传统相机企业的携手同行,让高端手机市场迎来了新的增长机会。如今市面上...……更多
ROG 游戏手机 9 Pro 体验评测:设计脑洞大开,游戏属性拉满
...。除此之外,机身左侧的中置的 USB-C 接口,机身底部不对称的 USB-C 接口和 3.5mm 耳机孔,可以帮助用户提升横向握持手机进行游戏时的体验。比如左侧中置 C 口可以外接散热背夹配件,底部 C 口边充边玩时不会影响用户正常握持...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、阿里、腾讯等企业控制成...……更多
清华光学AI登Nature!物理神经网络,反向传播不需要了
...法更像手中已有部分完成的拼图,只需按照一些光原理(对称互易性)继续填充,而无需回头检查之前的拼图。这样下来,使用FFM优势也很明显:一是减少了对数学模型的依赖,可以避免模型不准确带来的问题;二是节省了时间...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...U测试中击败了GPT-4o mini。这是微软首次使用混合专家模型架构。这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct,而其参数规模还不到Llama-3.1-8……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...威与周天贶(来源:该团队)研究团队通过建立光子传播对称性模型,未采用传统的电训练反向传播范式,化“反”为“前”。这种新范式挣脱了前向-反向光场传播严格对齐的束缚,基于通用的光计算原位训练系统,突破了电...……更多
英特尔Lunar Lake架构解析:和超线程说再见
...lot+PC也丝毫不怵。现在我们就为大家带来LunarLake处理器的架构讲解。CPU:E核脱胎换骨,告别超线程作为LunarLake架构的核心,处理器的CPU部分可以说有着天翻地覆的变化,首先就是取消了超线程技术,让CPU最高变成了8核8线程,其...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...作者将 MMCL 方法分为四类主要方法,即基于正则化、基于架构、基于重放和基于提示的方法。基于正则化的方法:由于训练中参数的自由移动导致灾难性遗忘,基于正则化的方法旨在对参数施加约束来减少遗忘。 基于架构的方...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI)……更多
3天把Llama训成Mamba,性能不降,推理更快!
...a这样的大型Transformer提炼成了Mamba模型, 并且成功在Mamba架构上应用了带有硬件感知的推测解码算法,提高了整个模型的推理速度。为什么要把Llama变成Mamba?因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了,相关...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...用,当前主流大模型中,诞生了以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构、以GPT为代表的Decoder-only架构的大规模预训练语言模型。1.3 GPT系列模型技术发展历程回顾从技术角度来看,结合中国人民大学《大语言...……更多
Sigmoid注意力一样强,苹果开始重新审视注意力机制
机器之心报道机器之心编辑部注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键对应的注意力权重。尽管 SoftmaxAttn 中的 softmax 具...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
...最大的劣势之一在于,显存容量受限。当前业界LLM的网络架构,已从GPT逐渐走向MoE。通向AGI的大模型参数规模,只会呈指数级增长。这意味着,闭源/开源主流模型的尺寸只会越来越大,千亿参数,甚至万亿参数模型将会成为主...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...。但是别被Scaling Law局限,参数小不意味着能力弱,模型架构的重要性应该重新进入我们的视线。MobileLLM不仅在同等大小的模型中达到了SOTA性能,而且提出,架构的深度比宽度更重要。一个「深而窄」的「瘦长」小模型同样可以...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...了全面的性能升级,其采用4000亿级参数MoE混合专家模型架构,是目前全球模型参数最大、性能最强的MoE模型之一。“天工3.0”的模型能力提升体现在以下四大方面:1、逻辑推理能力更强:更聪明逻辑推理能力的提升对于大模型...……更多
​全大核天玑9300登场!实测性能、能效兼优站稳旗舰!
...天玑9300正式登场,这款芯片前所未有地采用了全大核CPU架构,相较于其他芯片厂商,联发科这次走出了一条大胆的产品路线。这样一来,大家对天玑9300的性能表现更是充满了期待。当然,也可能有人会好奇,如此强悍的堆料,...……更多
天玑9300抢先实测:全大核架构将如何改变手机体验?
...为领先的旗舰平台——天玑9300。这枚芯片跳出了传统的架构设计思维,采用了4个超大核+4个大核的“全大核”CPU架构,并以此全面提升芯片性能,为用户带来了流畅的使用体验。天玑9300工程机在搭载天玑9300的终端亮相以前,CNM...……更多
...成更困难、更复杂的任务。“空天·灵眸”3.0版内核工作架构是基于热传导,这是联合团队自主研发的一套小而精的原创性架构。受传热学物理思想启发,联合团队将场景目标间视觉语义传播建模为热能扩散过程,从而使该架构...……更多
人均年薪100万,手机厂商数百亿开卷大模型
...模型,典型厂商如小米和荣耀;第二,采用云、端协同的架构设计,推出一个大模型矩阵,在云端部署百亿、千亿级别的大模型训练模型,在手机端侧部署十亿级别的大模型,典型厂商如华为、vivo和OPPO。2023年4月,王斌牵头负...……更多
搞医学影像,为什么都青睐于CPU?
...持光线合成的实现。SSE4指令集不仅扩展了Intel® 64指令集架构,还加入了图形、视频编码及处理、三维成像等方面的指令,使涉及音频、图像和数据压缩算法的应用程序性能大幅提升。为了找出执行三维可视化任务时,其产品在...……更多
揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷
...质。为此,北京大学李戈教授的团队提出了一种新型网络架构FAN(Fourier Analysis Networks)。通过引入傅里叶级数的思想,FAN能够将周期性信息直接嵌入网络的结构中,使模型更自然地捕捉和理解数据中的周期性模式。 实验表明,...……更多
更多关于科技的资讯:
别被厂商忽悠了!家用路由器选购大揭秘
打开购物网站搜路由器,满屏“穿墙王”“千兆路由”等夸张广告词令人眼花,一时间竟不知该如何挑选合适的路由器品牌和型号。其实家用路由器大多能满足日常需求
2025-04-27 22:34:00
作为潍坊地区汽车流通领域的领军企业,山东某汽车集团有限公司以50余家4S店的规模稳居区域市场龙头地位。随着企业规模扩张
2025-04-27 22:46:00
安丘农商银行:服务有深度 金融有温度
今年以来,安丘农商银行始终将满足客户需求作为金融服务的出发点和落脚点,通过积极开展外拓走访、优化厅堂服务以及创新多种宣传方式
2025-04-27 22:47:00
数字赋能文旅 仓山区将推出多项数字场景体验项目
福州新闻网4月27日讯(记者 谢敏 通讯员 仓萱 文/图)27日,记者从仓山区获悉,数字峰会期间,仓山区将推出多项数字场景体验项目
2025-04-27 22:49:00
朱雀玄武敕令再申请改48字新名字:户口本都放不下了
4月27日消息,据媒体报道,朱雀玄武敕令此前想把名字更改为“周天紫薇大帝”,这一申请未获通过。随后这位小伙在此提交改名申请
2025-04-27 23:04:00
“珍珠女王”白如芳逝世:年仅55岁
4月27日消息,据媒体报道,被誉为“珍珠女王”的知名珍珠艺术设计师、北京红桥商场芳华珠宝品牌创始人白如芳女士,因病于2025年4月23日逝世
2025-04-27 23:34:00
年轻人上桌,白酒慌了?
某种程度上,年轻人与白酒之间的关系,如今更像是一种双向试探:白酒不断靠近年轻人的消费场景,却始终在外围打转;年轻人愿意为创意买单
2025-04-27 23:36:00
博主曝华为首款鸿蒙PC:办公软件已基本解决
快科技4月27日消息,在3月举行的华为Pura先锋盛典及鸿蒙智行新品发布会上,华为常务董事、终端BG董事长余承东正式宣布
2025-04-27 20:04:00
再添天文利器!中国首个大型通用光谱望远镜JUST启动建设
快科技4月27日消息,据报道,上海交通大学JUST光谱望远镜基建项目在青海冷湖正式启动建设,标志着我国即将实现大型光谱望远镜从无到有的历史性突破
2025-04-27 20:04:00
全球首个在轨验证星载基站亮相科交会
大皖新闻讯 作为“平天星座”的首发卫星,“池州一号”卫星将于今年年底搭载“池州造”火箭发射升空。“池州一号”卫星由池州星移联信航天科技公司自主研发
2025-04-27 20:23:00
从显示技术到航天动力 蚌埠近200件创新成果闪耀“科交会”
大皖新闻讯 世界首片8.6代OLED玻璃基板彰显国内显示技术的领先实力,“蚌埠造”龙云发动机助力航空航天产业发展……第三届中国(安徽)科技创新成果转化交易会上
2025-04-27 20:23:00
OPPO担任人工智能终端工作组副组长单位
4月25日,人工智能终端产业发展研讨会暨人工智能终端工作组第一次全体大会召开,工业和信息化部副部长熊继军出席会议并致辞
2025-04-27 20:28:00
母亲节送礼攻略 | 野兽派萱草花系列新品
近日,高端艺术生活方式品牌野兽派发布2025母亲节主题大片《每个妈妈都喜欢花》。片中,国民演员赵雅芝与其儿子黄恺杰温情亮相
2025-04-27 20:45:00
何同学风波后复更:为一位女生制作单手键盘
快科技4月27日消息,此前,博主何同学因发布网约车司机求好评相关言论引发争议,不久何同学删博。今日晚间,沉寂两周后何同学复更
2025-04-27 21:04:00
中国青年报客户端讯(中青报·中青网记者 胡春艳 实习生 粟悦)在中国电影诞生120周年、世界电影诞生130周年之际,作为第15届北京国际电影节的重要组成部分
2025-04-27 21:14:00