• 我的订阅
  • 头条热搜
NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能
...斯汀分校以及剑桥大学的研究者联合提出了一种全新的非对称 LoRA 架构 —— HydraLoRA。与传统 LoRA 需要对所有任务使用相同的参数结构不同,HydraLoRA 引入了共享的 A 矩阵和多个独立的 B 矩阵,分别处理不同的任务,从而避免任务...……更多
万字技术干货!LLM工程师必读量化指南,可视化图解揭秘大模型如何压缩
...知训练(QAT)两种方法,建议有AI基础的读者直接跳转至对称量化部分:第一部分:LLM的「问题」「大语言模型」就是大在模型参数量上,规模通常达到数十亿的级别(其中主要是权重)。 这些参数不仅存储成本相当高,推理...……更多
Nature新研究提出新型忆阻器,比Haswell CPU高效460倍
...爱尔兰利莫瑞克大学的一篇论文,其中提出了一种「线性对称的自选择式 14 bit 的动力学分子忆阻器」。 论文标题:Linear symmetric self-selecting 14-bit kinetic molecular memristors论文地址……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...题,研究团队新的基础模型OpenCity。OpenCity结合了Transformer架构和图神经网络,用以模拟交通数据中复杂的时空依赖关系。通过在大规模、异质性交通数据集上进行预训练,OpenCity能够学习丰富、具有泛化性的表征,这些表征可有...……更多
AI时代CPU不老!Intel五代至强五大革新:340亿参数小意思
...大芯片,而是改为多个小芯片整合封装。四代至强分成了对称的四个部分,做到最多60核心,五代至强则变成了镜像对称的两部分,核心数反而提升到最多64个。之所以如此改变,是因为切割的小芯片越多,彼此互相通信所需要...……更多
自研芯片三国杀,头部智驾新战场,蔚小理谁强?
...模型,理想为了解决端到端大模型可解释性差的问题,将架构升级为「端到端+VLM」,而小鹏则和特斯拉一样坚信纯视觉才是智能驾驶的终局,发布了下一代AI鹰眼纯视觉方案。但是要最大限度的发挥算法的能力,必须要有和软件...……更多
超星未来梁爽:软硬件协同优化,赋能AI 2.0新时代
...部署到现有的边缘侧芯片上,主要原因包括:(1)传统架构矩阵算力缺口明显,大模型中50-80%算力需求在Attention层中的各类矩阵计算,并且KV矩阵有明显稀疏性,需要专项支持;(2)大模型的参数量和带宽需求巨大,单7B级别的...……更多
“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
...尔®至强®CPUMax系列处理器。这是英特尔唯一一款基于x86架构并采用高带宽内存(HBM)的CPU系列,采用了片上HBM设计,内存带宽高达4TB/s。和传统DDR5内存相比,HBM具有更多的访存通道和更长的读取位宽,理论带宽可达DDR5的4倍之多...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\\\'24
...务中保持模型整体性能。之前各种知识编辑的模型方法和架构包括类似于:修改模型内部参数、增加额外参数和基于检索方法都会有冗长的编辑前缀影响推理效率。对模型本身进行微调可能会导致过拟合,从而影响其原始性能。...……更多
手机市场深陷泥沼,厂商如何破冰?
...颈不断,手机厂商该如何破冰,进入下一个增长期?潮汐架构,一份关键答案性能不再是手机的瓶颈,前几年手机厂商都选择了新的影像赛道,通过与传统相机企业的携手同行,让高端手机市场迎来了新的增长机会。如今市面上...……更多
ROG 游戏手机 9 Pro 体验评测:设计脑洞大开,游戏属性拉满
...。除此之外,机身左侧的中置的 USB-C 接口,机身底部不对称的 USB-C 接口和 3.5mm 耳机孔,可以帮助用户提升横向握持手机进行游戏时的体验。比如左侧中置 C 口可以外接散热背夹配件,底部 C 口边充边玩时不会影响用户正常握持...……更多
清华光学AI登Nature!物理神经网络,反向传播不需要了
...法更像手中已有部分完成的拼图,只需按照一些光原理(对称互易性)继续填充,而无需回头检查之前的拼图。这样下来,使用FFM优势也很明显:一是减少了对数学模型的依赖,可以避免模型不准确带来的问题;二是节省了时间...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、阿里、腾讯等企业控制成...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...U测试中击败了GPT-4o mini。这是微软首次使用混合专家模型架构。这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct,而其参数规模还不到Llama-3.1-8……更多
英特尔Lunar Lake架构解析:和超线程说再见
...lot+PC也丝毫不怵。现在我们就为大家带来LunarLake处理器的架构讲解。CPU:E核脱胎换骨,告别超线程作为LunarLake架构的核心,处理器的CPU部分可以说有着天翻地覆的变化,首先就是取消了超线程技术,让CPU最高变成了8核8线程,其...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...威与周天贶(来源:该团队)研究团队通过建立光子传播对称性模型,未采用传统的电训练反向传播范式,化“反”为“前”。这种新范式挣脱了前向-反向光场传播严格对齐的束缚,基于通用的光计算原位训练系统,突破了电...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...作者将 MMCL 方法分为四类主要方法,即基于正则化、基于架构、基于重放和基于提示的方法。基于正则化的方法:由于训练中参数的自由移动导致灾难性遗忘,基于正则化的方法旨在对参数施加约束来减少遗忘。 基于架构的方...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...a这样的大型Transformer提炼成了Mamba模型, 并且成功在Mamba架构上应用了带有硬件感知的推测解码算法,提高了整个模型的推理速度。为什么要把Llama变成Mamba?因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了,相关...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI)……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...用,当前主流大模型中,诞生了以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构、以GPT为代表的Decoder-only架构的大规模预训练语言模型。1.3 GPT系列模型技术发展历程回顾从技术角度来看,结合中国人民大学《大语言...……更多
Sigmoid注意力一样强,苹果开始重新审视注意力机制
机器之心报道机器之心编辑部注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键对应的注意力权重。尽管 SoftmaxAttn 中的 softmax 具...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
...最大的劣势之一在于,显存容量受限。当前业界LLM的网络架构,已从GPT逐渐走向MoE。通向AGI的大模型参数规模,只会呈指数级增长。这意味着,闭源/开源主流模型的尺寸只会越来越大,千亿参数,甚至万亿参数模型将会成为主...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...。但是别被Scaling Law局限,参数小不意味着能力弱,模型架构的重要性应该重新进入我们的视线。MobileLLM不仅在同等大小的模型中达到了SOTA性能,而且提出,架构的深度比宽度更重要。一个「深而窄」的「瘦长」小模型同样可以...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...了全面的性能升级,其采用4000亿级参数MoE混合专家模型架构,是目前全球模型参数最大、性能最强的MoE模型之一。“天工3.0”的模型能力提升体现在以下四大方面:1、逻辑推理能力更强:更聪明逻辑推理能力的提升对于大模型...……更多
​全大核天玑9300登场!实测性能、能效兼优站稳旗舰!
...天玑9300正式登场,这款芯片前所未有地采用了全大核CPU架构,相较于其他芯片厂商,联发科这次走出了一条大胆的产品路线。这样一来,大家对天玑9300的性能表现更是充满了期待。当然,也可能有人会好奇,如此强悍的堆料,...……更多
天玑9300抢先实测:全大核架构将如何改变手机体验?
...为领先的旗舰平台——天玑9300。这枚芯片跳出了传统的架构设计思维,采用了4个超大核+4个大核的“全大核”CPU架构,并以此全面提升芯片性能,为用户带来了流畅的使用体验。天玑9300工程机在搭载天玑9300的终端亮相以前,CNM...……更多
...成更困难、更复杂的任务。“空天·灵眸”3.0版内核工作架构是基于热传导,这是联合团队自主研发的一套小而精的原创性架构。受传热学物理思想启发,联合团队将场景目标间视觉语义传播建模为热能扩散过程,从而使该架构...……更多
人均年薪100万,手机厂商数百亿开卷大模型
...模型,典型厂商如小米和荣耀;第二,采用云、端协同的架构设计,推出一个大模型矩阵,在云端部署百亿、千亿级别的大模型训练模型,在手机端侧部署十亿级别的大模型,典型厂商如华为、vivo和OPPO。2023年4月,王斌牵头负...……更多
搞医学影像,为什么都青睐于CPU?
...持光线合成的实现。SSE4指令集不仅扩展了Intel® 64指令集架构,还加入了图形、视频编码及处理、三维成像等方面的指令,使涉及音频、图像和数据压缩算法的应用程序性能大幅提升。为了找出执行三维可视化任务时,其产品在...……更多
22年后英特尔放弃了超线程!Lunar Lake架构深度解析
...今不过半年时间,彼时,酷睿Ultra以开创性的分离式模块架构,成为英特尔客户端SoC历史上40年来的重大变革。我们以为这种架构至少会延续一段时间,最起码不应该变得这么快,但从公布的LunarLake架构细节来看,信息量巨大,...……更多
更多关于科技的资讯:
目前,安装ETC的车主越来越多,使用ETC通行高速,也成为越来越多现代车主出行的便捷选择。然而,在使用过程中,有时可能会遇到一些问题
2024-12-22 17:48:00
新时代的奔腾!Intel Wildcat Lake首次曝光:可能18A工艺
快科技12月22日消息,我们第一次看到了Intel一款新处理器的名字“Wildcat Lake”(野猫湖),目前看定位于入门级
2024-12-22 18:33:00
酷睿Ultra 200 65W包装盒首曝:没有无核显285F、没有3系列
快科技12月22日消息,Arrow Lake桌面版酷睿Ultra 200系列目前发布的只有K/KF系列,65W主流版本和35W节能版本将在明年初发布
2024-12-22 18:33:00
男孩在澳大利亚海滩发现奇怪生物 专家警告:恐有剧毒
快科技12月22日消息,据报道,一名男孩在澳大利亚巴特曼斯湾海滩惊现形似“外星生物”的物种。据悉,这种生物呈现出独特的蓝色管状形态
2024-12-22 18:33:00
最高时速250km/h!广汽集团发布GOVY AirJet飞行汽车官宣:2025年开启预订
快科技12月22日消息,广汽集团近日详细介绍了其全新飞行汽车品牌GOVY高域及首款复合翼飞行汽车GOVY AirJet
2024-12-22 18:33:00
CPU-Z小升级:支持Intel四大新品、新内存
CPU-Z近日迎来了一个小幅升级版本,v2.13,但内容相当丰富,重点支持Intel四大新品。首先是显卡方面,正式支持新发布的锐炫B580
2024-12-22 19:03:00
上海地铁11号线预计今晚9时恢复运营
本文转自:人民日报客户端据@上海地铁shmetro ,经全力抢修,11号线受损区段预计今晚9时左右恢复开通运营。
2024-12-22 19:07:00
石头居然长出了\
在秋天的阿拉斯加冰川湾公园,人们发现,石头居然长出了头发。看起来还挺浓密的。|atlasobscura而在墨西哥的查帕拉湖
2024-12-22 19:33:00
机械师K600G键盘首发299元:弹床式Gasket结构、定制HIFI轴
快科技12月22日消息,机械师K600G机械键盘目前已经上市,首发299元。据悉,该款键盘采用弹床式Gasket结构设计+多层复合降噪填充
2024-12-22 19:33:00
AMD显卡又双叒叕改名了!下代可能叫RX 9070
快科技12月22日消息,按照惯例延续下来,AMD RDNA4架构的下一代显卡应该是RX 8000系列,预计有RX 8800
2024-12-22 19:33:00
鲁网12月22日讯(记者 孙强 通讯员 冷梅)为学习日本知名企业管理经验,积极助力民营企业经营管理现代化、国际化,增强企业创新发展源动力
2024-12-22 19:57:00
印尼女子海边洗脚 突遭4米长鳄鱼死亡翻滚:逃生可能为0
12月16日,印尼北苏门答腊省南尼亚斯县,一名女子在海边洗脚时,遭遇了一条3.94米长的大鳄鱼袭击。附近居民听到了女子惨叫
2024-12-22 20:03:00
江南时报讯 域名作为企业的网络身份标识,停用后若不及时注销,不仅可能导致品牌方形象受损,还可能被一些境外服务器的不良网站抢注并用于播放侵犯他人著作权的影视作品
2024-12-22 20:52:00
9岁女孩长期吃头发胃里取出大块头发团:胃酸无法分解
快科技12月22日消息,据报道,南宁市妇幼保健院为9岁女孩小琪进行了开腹手术,从她胃里取出直径约4厘米的头发团,以及小肠内条索状头发丝绳约30厘米长
2024-12-22 21:03:00
江南时报讯 泰州某知名医药公司与某文化公司签订冠名合作协议,约定冠名费50万元,文化公司承诺3个月内完成500万元直播带货销售额
2024-12-22 21:25:00