• 我的订阅
  • 头条热搜
NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能
...斯汀分校以及剑桥大学的研究者联合提出了一种全新的非对称 LoRA 架构 —— HydraLoRA。与传统 LoRA 需要对所有任务使用相同的参数结构不同,HydraLoRA 引入了共享的 A 矩阵和多个独立的 B 矩阵,分别处理不同的任务,从而避免任务...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...知训练(QAT)两种方法,建议有AI基础的读者直接跳转至对称量化部分:第一部分:LLM的「问题」「大语言模型」就是大在模型参数量上,规模通常达到数十亿的级别(其中主要是权重)。 这些参数不仅存储成本相当高,推理...……更多
Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
...爱尔兰利莫瑞克大学的一篇论文,其中提出了一种「线性对称的自选择式 14 bit 的动力学分子忆阻器」。 论文标题:Linear symmetric self-selecting 14-bit kinetic molecular memristors论文地址……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...题,研究团队新的基础模型OpenCity。OpenCity结合了Transformer架构和图神经网络,用以模拟交通数据中复杂的时空依赖关系。通过在大规模、异质性交通数据集上进行预训练,OpenCity能够学习丰富、具有泛化性的表征,这些表征可有...……更多
AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思
...大芯片,而是改为多个小芯片整合封装。四代至强分成了对称的四个部分,做到最多60核心,五代至强则变成了镜像对称的两部分,核心数反而提升到最多64个。之所以如此改变,是因为切割的小芯片越多,彼此互相通信所需要...……更多
自研芯片三国杀,头部智驾新战场,蔚小理谁强?
...模型,理想为了解决端到端大模型可解释性差的问题,将架构升级为「端到端+VLM」,而小鹏则和特斯拉一样坚信纯视觉才是智能驾驶的终局,发布了下一代AI鹰眼纯视觉方案。但是要最大限度的发挥算法的能力,必须要有和软件...……更多
超星未来梁爽:软硬件协同优化,赋能AI 2.0新时代
...部署到现有的边缘侧芯片上,主要原因包括:(1)传统架构矩阵算力缺口明显,大模型中50-80%算力需求在Attention层中的各类矩阵计算,并且KV矩阵有明显稀疏性,需要专项支持;(2)大模型的参数量和带宽需求巨大,单7B级别的...……更多
“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
...尔®至强®CPUMax系列处理器。这是英特尔唯一一款基于x86架构并采用高带宽内存(HBM)的CPU系列,采用了片上HBM设计,内存带宽高达4TB/s。和传统DDR5内存相比,HBM具有更多的访存通道和更长的读取位宽,理论带宽可达DDR5的4倍之多...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\\\'24
...务中保持模型整体性能。之前各种知识编辑的模型方法和架构包括类似于:修改模型内部参数、增加额外参数和基于检索方法都会有冗长的编辑前缀影响推理效率。对模型本身进行微调可能会导致过拟合,从而影响其原始性能。...……更多
手机市场深陷泥沼,厂商如何破冰?
...颈不断,手机厂商该如何破冰,进入下一个增长期?潮汐架构,一份关键答案性能不再是手机的瓶颈,前几年手机厂商都选择了新的影像赛道,通过与传统相机企业的携手同行,让高端手机市场迎来了新的增长机会。如今市面上...……更多
ROG 游戏手机 9 Pro 体验评测:设计脑洞大开,游戏属性拉满
...。除此之外,机身左侧的中置的 USB-C 接口,机身底部不对称的 USB-C 接口和 3.5mm 耳机孔,可以帮助用户提升横向握持手机进行游戏时的体验。比如左侧中置 C 口可以外接散热背夹配件,底部 C 口边充边玩时不会影响用户正常握持...……更多
清华光学AI登Nature!物理神经网络,反向传播不需要了
...法更像手中已有部分完成的拼图,只需按照一些光原理(对称互易性)继续填充,而无需回头检查之前的拼图。这样下来,使用FFM优势也很明显:一是减少了对数学模型的依赖,可以避免模型不准确带来的问题;二是节省了时间...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、阿里、腾讯等企业控制成...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...U测试中击败了GPT-4o mini。这是微软首次使用混合专家模型架构。这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct,而其参数规模还不到Llama-3.1-8……更多
英特尔Lunar Lake架构解析:和超线程说再见
...lot+PC也丝毫不怵。现在我们就为大家带来LunarLake处理器的架构讲解。CPU:E核脱胎换骨,告别超线程作为LunarLake架构的核心,处理器的CPU部分可以说有着天翻地覆的变化,首先就是取消了超线程技术,让CPU最高变成了8核8线程,其...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...威与周天贶(来源:该团队)研究团队通过建立光子传播对称性模型,未采用传统的电训练反向传播范式,化“反”为“前”。这种新范式挣脱了前向-反向光场传播严格对齐的束缚,基于通用的光计算原位训练系统,突破了电...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...作者将 MMCL 方法分为四类主要方法,即基于正则化、基于架构、基于重放和基于提示的方法。基于正则化的方法:由于训练中参数的自由移动导致灾难性遗忘,基于正则化的方法旨在对参数施加约束来减少遗忘。 基于架构的方...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...a这样的大型Transformer提炼成了Mamba模型, 并且成功在Mamba架构上应用了带有硬件感知的推测解码算法,提高了整个模型的推理速度。为什么要把Llama变成Mamba?因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了,相关...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI)……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...用,当前主流大模型中,诞生了以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构、以GPT为代表的Decoder-only架构的大规模预训练语言模型。1.3 GPT系列模型技术发展历程回顾从技术角度来看,结合中国人民大学《大语言...……更多
Sigmoid注意力一样强,苹果开始重新审视注意力机制
机器之心报道机器之心编辑部注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键对应的注意力权重。尽管 SoftmaxAttn 中的 softmax 具...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
...最大的劣势之一在于,显存容量受限。当前业界LLM的网络架构,已从GPT逐渐走向MoE。通向AGI的大模型参数规模,只会呈指数级增长。这意味着,闭源/开源主流模型的尺寸只会越来越大,千亿参数,甚至万亿参数模型将会成为主...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...。但是别被Scaling Law局限,参数小不意味着能力弱,模型架构的重要性应该重新进入我们的视线。MobileLLM不仅在同等大小的模型中达到了SOTA性能,而且提出,架构的深度比宽度更重要。一个「深而窄」的「瘦长」小模型同样可以...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...了全面的性能升级,其采用4000亿级参数MoE混合专家模型架构,是目前全球模型参数最大、性能最强的MoE模型之一。“天工3.0”的模型能力提升体现在以下四大方面:1、逻辑推理能力更强:更聪明逻辑推理能力的提升对于大模型...……更多
​全大核天玑9300登场!实测性能、能效兼优站稳旗舰!
...天玑9300正式登场,这款芯片前所未有地采用了全大核CPU架构,相较于其他芯片厂商,联发科这次走出了一条大胆的产品路线。这样一来,大家对天玑9300的性能表现更是充满了期待。当然,也可能有人会好奇,如此强悍的堆料,...……更多
天玑9300抢先实测:全大核架构将如何改变手机体验?
...为领先的旗舰平台——天玑9300。这枚芯片跳出了传统的架构设计思维,采用了4个超大核+4个大核的“全大核”CPU架构,并以此全面提升芯片性能,为用户带来了流畅的使用体验。天玑9300工程机在搭载天玑9300的终端亮相以前,CNM...……更多
...成更困难、更复杂的任务。“空天·灵眸”3.0版内核工作架构是基于热传导,这是联合团队自主研发的一套小而精的原创性架构。受传热学物理思想启发,联合团队将场景目标间视觉语义传播建模为热能扩散过程,从而使该架构...……更多
人均年薪100万,手机厂商数百亿开卷大模型
...模型,典型厂商如小米和荣耀;第二,采用云、端协同的架构设计,推出一个大模型矩阵,在云端部署百亿、千亿级别的大模型训练模型,在手机端侧部署十亿级别的大模型,典型厂商如华为、vivo和OPPO。2023年4月,王斌牵头负...……更多
搞医学影像,为什么都青睐于CPU?
...持光线合成的实现。SSE4指令集不仅扩展了Intel® 64指令集架构,还加入了图形、视频编码及处理、三维成像等方面的指令,使涉及音频、图像和数据压缩算法的应用程序性能大幅提升。为了找出执行三维可视化任务时,其产品在...……更多
22年后英特尔放弃了超线程!Lunar Lake架构深度解析
...今不过半年时间,彼时,酷睿Ultra以开创性的分离式模块架构,成为英特尔客户端SoC历史上40年来的重大变革。我们以为这种架构至少会延续一段时间,最起码不应该变得这么快,但从公布的LunarLake架构细节来看,信息量巨大,...……更多
更多关于科技的资讯:
2024平板电脑市场变天了:小米大增73%
市场调研机构Canalys公布了2024年全球平板电脑市场统计数据。最新数据显示,2024年第四季度全球平板电脑出货量达到3990万台
2025-02-08 17:15:00
软弹耐磨 鸿星尔克凌跃2.0跑鞋110元大促 吊牌299元
天猫【鸿星尔克官方旗舰店】鸿星尔克凌跃 2.0 跑鞋日常售价为 219 元,下单领取 70 元优惠券,首次购买用户叠加 7~10 元首购礼金
2025-02-08 17:15:00
韶音发布OpenFit 2 开放式耳机,开启舒适听音新时代
在2025年初举办的首届ShokzDay交流会上,作为开放式耳机、专业运动耳机赛道推动者的韶音,正式推出了新一代韶音舒适圈OpenFit2
2025-02-08 17:45:00
OPPO Find N5真机出炉:折痕最浅 机身全球最薄
快科技2月8日消息,今天下午,OPPO周意保晒出了Find N5折叠屏真机照。这款折叠屏不仅做到了全球最薄,折痕也是行业最浅
2025-02-08 17:45:00
小米回应春节期间夺手机第一:在不擅长的线下打败友商
快科技2月8日消息,据华尔街见闻援引供应链数据,2025年W5(1.27-2.2)春节期间,小米新机激活量达130万台
2025-02-08 17:45:00
七彩虹笔记本大升级!“虹光AI”智能助手接入满血DeepSeek
快科技2月8日消息,继联想“小天”之后,七彩虹科技升级全新“虹光AI”智能模型助手,正式将满血版DeepSeek R1模型引入
2025-02-08 18:15:00
2025年第一款双潜望旗舰!OPPO Find X8 Ultra 3月登场
快科技2月8日消息,博主数码闲聊站暗示,OPPO Find X8 Ultra会在3月份正式发布。对比上代Find X7 Ultra
2025-02-08 18:15:00
荣耀MagicBook Pro 14配置抢先曝光:酷睿Ultra 200H系列处理器 可流畅运行《黑神话:悟空》
快科技2月8日消息,2025年刚开年,荣耀就给了所有打算换本的同学一个大惊喜。昨晚,荣耀 PC 产品线总经理@朱臣才-荣耀 在微博上放出了新品笔记本荣耀MagicBook Pro 14的一段实测演示视频
2025-02-08 18:15:00
走出去 创未来丨亮晶晶:借数字化之力,破解潍企出海“密码”
大众网记者 杨晓玲 潍坊报道外贸是拉动经济增长的重要引擎,也是联结国内国际双循环的重要枢纽,跨境电商则是城市外贸经济的重要推动力
2025-02-08 18:38:00
胖东来:全村的希望
正月初五,胖东来蛇年营业第一天,不出意外的给其所在的小城——河南许昌,带来了一场市内“春运”。胖东来许昌地区门店每日总客流量超过30万人
2025-02-08 18:45:00
王腾包场请REDMI团队看《哪吒2》:大家都说REDMI和哪吒气质很像
快科技2月8日消息,今天,REDMI王腾包场请团队成员去看电影《哪吒2》。他表示,组织大家一起学习怎么打造优秀的产品,很多视觉效果对我们做设计和视觉都有借鉴意义
2025-02-08 18:45:00
ColorOS将全面接入DeepSeek:比友商方案更高效
快科技2月8日消息,ColorOS陈希宣布,本月底ColorOS将全面接入DeepSeek,小布助手将是首个和DeepSeek深度融合的系统智能助理
2025-02-08 18:45:00
提升购物体验,增加商业价值——揭秘电梯安装对购物中心
在繁华的都市中,购物中心如同一颗颗璀璨的明珠,吸引着无数消费者的目光。而电梯,作为购物中心的重要组成部分,其安装不仅提升了建筑的垂直交通效率
2025-02-08 19:25:00
2025年春节国际和港澳台漫游来访业务快速提升
本文转自:人民网人民网北京2月8日电 (记者申佳平)据工业和信息化部官网消息,2025年春节,得益于我国过境免签政策适用范围不断扩大
2025-02-08 19:38:00
负债千亿!苏宁系公告破产重整
快科技2月8日消息,苏宁系宣布破产!全国企业破产重整案件信息网发布苏宁电器集团有限公司、苏宁控股集团有限公司、 苏宁置业集团有限公司破产重整案件信息与一债会公告
2025-02-08 19:45:00