• 我的订阅
  • 头条热搜
清华开源混合精度推理系统MixQ:大模型近无损量化并提升推理吞吐
一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署并提升推理的吞吐。△图1 MixQ吞吐与已有...……更多
CPU,正在被AI时代抛弃?
...以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大模型对...……更多
一行代码训练成本再降30%,AI大模型混合精度训练再升级
...8卡H800上训练LLaMA2-7B,Colossal-AI FP8对比Colossal-AI BF16有35%的吞吐提升,对比Torch FSDP BF16有94%的吞吐提升。在单机8卡H800上训练LLaMA2-13B,Colossal-AI FP8对比Colossal-AI BF16有39%的吞吐提升……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...仅解码器LLM)作为文本编码器,以增强对提示词的理解和推理能力。尽管T2I生成模型多年来取得了显著进展,但大多数现有模型仍依赖CLIP或T5进行文本编码,这些模型往往缺乏强大的文本理解和指令跟随能力。与CLIP或T5不同,Gem...……更多
超星未来梁爽:软硬件协同优化,赋能AI 2.0新时代
...任务,这一基础模型应该具备感知万物、知晓常识和理解推理的能力,智能驾驶、机器人的基础模型本质上是同一类基础模型。 端到端与大模型上车进行时 智能汽车是迈向通用机器人的必要阶段 近年来,智驾系统正在从传统...……更多
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...环境,可支持超千卡规模、千亿参数级别的大模型训练和推理任务,旨在突破算力瓶颈,加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计,提供低延迟、高吞吐、高可用的IB组网环境,支持GDR技术,使...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...智能计算的“潜力股”,为后摩尔时代带来新的希望。 推理和训练是 AI 大模型核心能力的两个重要阶段,正是看到了这一点,该团队在推理和训练方面进行了同期的并行研究。今年 4 月,他们在 Science 报道了通用智能光计算芯...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰?又有多少开发者曾因为频频闪烁的警报「CUDA版本必须与...……更多
...算效率和算力开销两大问题成为新的行业焦点。对大模型推理成本的优化,可通过很多技术手段实现。首先是模型本身,模型结构、训练方法都可以持续改进,包括业界很关注的MoE(混合专家模型),就是优化推理成本很好的解决...……更多
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
...存储空间和计算资源就会减少。不过这也意味着,在执行推理时,需要进行混合精度的矩阵乘法运算(mpGEMM),即用低精度的权重和高精度的激活向量进行计算。然而,现有的系统和硬件并不原生支持这种混合精度的矩阵乘法,...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。2. 灵活的预测范围:Time-MoE支持任意长度的输入和输出范围,能够处理从短期到长期的各种时序预测任务,实现了真正的全域时序预测。3. 全球最大...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...在一系列标准学术基准测试中评估 Conba 性能,包括常识推理任务(如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge)、阅读理解任务(如 BoolQ、QuAC)、聚合基准测试(如 MMLU、BBH),采用不同的学习策略。MixCon 性能与类似或更大……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...的「我在飞」,进一步询问的话,此外,video-SALMONN还能推理出男人的名字是「杰克」。我们都知道,正是这两句对白成就了这个经典场景,而video-SALMONN恰恰抓住了这个场景的精髓所在!再来一段《疯狂动物城》的动画片段:看...……更多
英伟达展示blackwell平台,否认推迟上市
...来越多,数据中心将需要更多的计算和更低的延迟。多GPU推理方法多GPU推理方法是在多个GPU上进行计算,以获得低延迟和高吞吐量,但采用多GPU路线也有其复杂性。多GPU环境中的每个GPU都必须将计算结果发送给每一层的其他GPU,...……更多
AI真·炼丹:整整14天,无需人类参与
...能上有着显著的增强,还结合大容量末级缓存使AlphaFold2推理过程中关键的张量吞吐获得了大幅提升。 英特尔®至强®CPUMax系列处理器其次,由于AlphaFold2所采用的深度学习模型规模巨大,推理过程中的张量运算不仅量大,且维度...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸晶圆来制作,基于台积电5nm制程,芯片面积为46225平方毫米,拥有的晶体管数量达到了4万亿个,拥有90...……更多
Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
...。Intel还采用KV Caching、PagedAttention机制和张量并行,提高推理效率。Intel的硬件也可利用软件框架和工具包进行加速,并获得出色的大模型推理性能,包括PyTorch以及Intel PyTorch扩展包、OpenVINO工具包、DeepSpeed、Hugging F……更多
算子开发到推理加速,一位00后开发者的“升级打怪”之旅
...框架降低了大模型训练的门槛,目前正在做大模型分布式推理加速,希望可以帮助其他开发者在生产环境中高效部署在线推理服务。在昇腾AI的生态里,像郑辉这样为大模型浪潮默默贡献自己力量的开发者不胜枚举。他们还不是...……更多
国产大模型第一梯队玩家,为什么pick了CPU?
...占绝对大头的因素——算力。 现在提及大模型的训练和推理,很多人的第一反应或许就是想到了GPU。诚然GPU在高性能上占据着一定的优势,但它所存在“硬伤”也是比较明显,那便是供应不足、价格昂贵。何以破局?国产大模...……更多
英伟达blackwell计算引擎制造商推出的ai模型
...进一步推动架构的发展,强调不断压缩更大规模AI训练与推理工作负载的处理成本。英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道,“在过去的2023年,我们经历了多模态生成式AI的诞生,文本到图像、图像到文本...……更多
探索终端操作系统领域AI大模型创新趋势 OpenHarmony技术大会OS原生智能分论坛召开
...发展带来了崭新的机遇,有望通过强大的语义理解和常识推理能力大大提升智能个人代理支持功能的广度和深度。”清华大学助理研究员李元春主题分享中软国际有限公司智能物联网军团产品研发管理部总经理、OpenHarmony项目群技...……更多
专家模型不要专家并行!微软开源MoE新路径
...好,所以要在左上角: GRIN作为MoE架构,总参数量约42B,推理时激活的参数为6.6B,打同级别(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3还要略胜一筹。在上面的这份成绩单中,GRIN MoE表现优异,尤其是在编码和数学测试中。...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研发成本、训练/推理效率和整体性能之间实现最佳...……更多
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
...实现以超低成本进行量化。它支持多种压缩算法、模型和推理后端,具有强大的扩展性和全方位的评估能力。目前,研究团队已将使用方法放在GitHub主页上,戳文末链接即可获取。Llama3.1 更大也更难压缩低比特量化是解决资源受...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...长的上下文窗口。但是如果不相应地扩展计算资源,模型推理速度就会变慢,超过一定长度的文本就没法处理了。为了克服这些障碍,状态空间语言模型 (SSLM) 架构应运而生,该架构通过在处理单词时不断更新状态来工作,已成...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...复适配器进行微调,它们不会产生任何额外的内存使用或推理成本。关于适配器的大小,团队发现秩为16的适配器在模型容量和推理性能之间提供了最佳平衡。然而,为了提供更多的灵活性,苹果提供了一套不同秩的精度恢复适...……更多
摩尔线程万卡GPU集群新进展!性能可提升20倍
...模型提供一系列可应用于PyTorch框架的算子,加速模型的推理与训练,降低新算法的开发门槛。它以Triton编程语言的易用性和编译器的标准接口为基础,为多元芯片提供了一套易适配、高性能的算子解决方案,推动基于Triton的统...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成文本,那...……更多
5年投资超1000亿,北京公布一系列AI重磅成果,北大清华百度蚂蚁微软大佬齐谈AI未来|钛媒体AGI
...计算具备高算力低功耗的特性,能够加速AI大模型训练与推理。戴琼海提到,清华大学提出光电混合全模拟智能计算架构,研制ACCEL芯片,突破光电模数转换瓶颈。相比A100,ACCEL系统级算力提升3个数量级,能效提升6个数量级(百...……更多
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
姚期智院士领衔,推出大模型新推理框架,CoT“王冠”戴不住了。提出思维图(DiagramofThought),让大模型思考更像人类。团队更是为这种推理过程提供了数学基础,通过拓扑斯理论(Topos Theory)正式化(formalize)DoT,确保其逻...……更多
更多关于科技的资讯:
华为首款百万级豪车尊界 S800定档5月底,首发六大核心智能化技术,包含三项全新技术
2月20日下午,华为召开鸿蒙智行尊界技术发布会,由华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东主持。发布会上
2025-02-20 18:30:00
2024年Q4爱奇艺海外业务收入同环比双增长 2025年将着力开拓中东、拉美等市场
2月18日,爱奇艺(NASDAQ:IQ)发布截至2024年12月31日未经审计的第四季度和全年财报。全年总收入292亿元人民币
2025-02-20 18:42:00
量子通讯技术来助力!亚冬会上的安徽力量
大皖新闻讯 2月14日晚,备受关注的第九届亚冬会在黑龙江省哈尔滨市圆满落下帷幕。选手们摘金夺银的背后有一群"幕后英雄"
2025-02-20 19:00:00
中新经纬2月20日电 (张芷菡)近段时间以来,茶饮咖啡品牌掀起做“副业”的热潮,继茶颜悦色与蜜雪冰城开起“小卖部”,近日
2025-02-20 19:08:00
锚定新赛道,长清网络视听产业“跑出”竞争力
鲁网2月20日讯(记者 李晓晨)近日,随着国产动画电影《哪吒2》的热映,其精湛的画面制作和深刻的文化内涵再次赢得了观众的广泛赞誉
2025-02-20 19:14:00
超瓷晶+再生玻璃,伯恩光学独供iPhone 16e玻璃盖板
2月20日,备受瞩目的iPhone16e正式发布,这款定位“性价比旗舰”的新机起售价4499元,成为A18芯片阵营中最亲民的机型
2025-02-20 19:21:00
冻干过程中工艺处方和预冻的解析
在实际冻干过程中,常常由于处方或冻干工艺设计不合理而出现各种各样的问题,今天欣谕冻干厂家简单介绍了药品冻干过程各关键环节的控制方法
2025-02-20 19:36:00
安源区:乘“巳”而上开启加速跑 全力以“复”冲刺开门红
江西手机报萍乡讯(习佳婕) 春启新岁,复工正当时。连日来,安源区各工业企业已奏响奋进交响曲,处处奔涌着实干争先的春潮。走进安源工业园
2025-02-20 19:39:00
响应普惠保险五年发展规划,泰康在线立足普惠守护大众幸福生活
保险向普惠靠拢是时代之需,国家金融监督管理总局在《关于推进普惠保险高质量发展的指导意见》中提到,未来五年,要基本建成高质量的普惠保险发展体系
2025-02-20 20:13:00
Aifeex自主研发Takwin系统,引领科技发展新浪潮
在AI技术持续发展并逐步深入生活的今天,Aifeex公司自主研发的Takwin计算系统,以其卓越的性能和高效的计算能力
2025-02-20 20:26:00
卡泰驰战略入股汽车之家,海尔加码汽车产业链布局
中国青岛,2月20日,海尔集团公司(海尔集团)旗下Cartech Holding Company(卡泰驰控股)与中国平安旗下Yun Chen Capital Cayman(云辰资本)达成协议
2025-02-20 20:28:00
北京时间2月20日(美东时间2月20日),哔哩哔哩(NASDAQ: BILI,HKEX:9626;以下简称“B站”)公布了截至2024年12月31日的第四季度和全年未经审计的财务报告
2025-02-20 20:28:00
电影《哪吒之魔童闹海》热映引消费热潮:盲盒断货、餐饮联动、票房大卖
自国产动画电影《哪吒之魔童闹海》(以下简称《哪吒2》)上映以来,其票房与衍生经济效应持续升温,不仅刷新全球动画电影票房纪录
2025-02-20 21:16:00
政企平台三方联动!看直播买家电享补贴!直播电商成以旧换新国补新渠道
“直播电商是近年来最重要的电商业态创新方向,也是网络零售交易增量的主要来源,促进消费和就业效应明显。”中国国际电子商务中心研究院院长李鸣涛表示
2025-02-20 22:01:00
让港口更智能!山东港口发布《人工智能(大模型)总体建设规划》
齐鲁晚报·齐鲁壹点 赵波 通讯员 李春颖2月19日,山东港口2025年度科技创新大会在青岛召开,正式发布《山东港口人工智能(大模型)总体建设规划》(以下简称《规划》)
2025-02-20 22:35:00