• 我的订阅
  • 头条热搜
清华开源混合精度推理系统MixQ:大模型近无损量化并提升推理吞吐
一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署并提升推理的吞吐。△图1 MixQ吞吐与已有...……更多
CPU,正在被AI时代抛弃?
...以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大模型对...……更多
月之暗面 Kimi 联合清华大学等开源大模型推理架构 Mooncake
...学 MADSys 实验室 2024 年 6 月联合发布了 Kimi 底层的 Mooncake 推理系统设计方案。该系统基于以 KVCache 为中心的 PD 分离和以存换算架构,提升了推理吞吐量。近日,为了进一步加速该技术框架的应用与推广,月之暗面 Kimi 和清华大...……更多
清华团队开源大模型推理引擎“赤兔Chitu”:硬件成本削减50%
...授团队与清华系科创企业清程极智联合宣布,开源大模型推理引擎“赤兔Chitu”。这一突破性技术为国产AI芯片的广泛应用和生态建设带来了新的机遇。“赤兔Chitu”首次实现在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精...……更多
一行代码训练成本再降30%,AI大模型混合精度训练再升级
...8卡H800上训练LLaMA2-7B,Colossal-AI FP8对比Colossal-AI BF16有35%的吞吐提升,对比Torch FSDP BF16有94%的吞吐提升。在单机8卡H800上训练LLaMA2-13B,Colossal-AI FP8对比Colossal-AI BF16有39%的吞吐提升……更多
DeepSeek第二炸:开源首个用于 MoE 模型训练通信库
...码库DeepEP王炸。据了解,DeepEP是首个用于 MoE 模型训练和推理的开源 EP 通信库,它填补了MoE模型专用通信工具的空白,为大规模分布式AI训练和实时推理场景提供了更高效的底层支持。在这里,简单介绍一下DeepEP的技术性能特点...……更多
...V3.1通过软件定义与更多芯片适配,能让超低精度训练、推理在中国自研芯片上更容易实现。业内人士指出,DeepSeek—V3.1的UE8M0FP8Scale助力国产AI软硬协同,AI正加速迈进应用落地的关键期,在政企示范引领、软硬协同创新、AI基建...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...仅解码器LLM)作为文本编码器,以增强对提示词的理解和推理能力。尽管T2I生成模型多年来取得了显著进展,但大多数现有模型仍依赖CLIP或T5进行文本编码,这些模型往往缺乏强大的文本理解和指令跟随能力。与CLIP或T5不同,Gem...……更多
DeepSeek,大消息
...伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,实现了推理速度提升25倍,并且每token成本降低20倍的惊人成果。这一新模型的推出,标志着英伟达在人工智能领域的又一次重大进展。开源周第三天,DeepSeek宣布开源Optimized Paralle...……更多
超星未来梁爽:软硬件协同优化,赋能AI 2.0新时代
...任务,这一基础模型应该具备感知万物、知晓常识和理解推理的能力,智能驾驶、机器人的基础模型本质上是同一类基础模型。 端到端与大模型上车进行时 智能汽车是迈向通用机器人的必要阶段 近年来,智驾系统正在从传统...……更多
...司利用自主研发的训练框架和量化算法显著提升了训练和推理速度,并优化了模型精度与推理吞吐量;在智能安全保障上,公司采用RLHF方案对齐安全认知,创新的热修复技术确保了大模型的安全性,提供安全、可靠的用户体验...……更多
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
...然没有资本市场那么高亢。技术派更关注FP8在模型训练、推理及生态标准化上的实际价值与挑战。▍FP8是什么,有哪些提升?在AI训练与推理过程中,为提升计算效率,数值精度的降低是一个常见的技术路径。摩尔线程AI Infra总...……更多
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...环境,可支持超千卡规模、千亿参数级别的大模型训练和推理任务,旨在突破算力瓶颈,加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计,提供低延迟、高吞吐、高可用的IB组网环境,支持GDR技术,使...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...智能计算的“潜力股”,为后摩尔时代带来新的希望。 推理和训练是 AI 大模型核心能力的两个重要阶段,正是看到了这一点,该团队在推理和训练方面进行了同期的并行研究。今年 4 月,他们在 Science 报道了通用智能光计算芯...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰?又有多少开发者曾因为频频闪烁的警报「CUDA版本必须与...……更多
...算效率和算力开销两大问题成为新的行业焦点。对大模型推理成本的优化,可通过很多技术手段实现。首先是模型本身,模型结构、训练方法都可以持续改进,包括业界很关注的MoE(混合专家模型),就是优化推理成本很好的解决...……更多
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
...存储空间和计算资源就会减少。不过这也意味着,在执行推理时,需要进行混合精度的矩阵乘法运算(mpGEMM),即用低精度的权重和高精度的激活向量进行计算。然而,现有的系统和硬件并不原生支持这种混合精度的矩阵乘法,...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。2. 灵活的预测范围:Time-MoE支持任意长度的输入和输出范围,能够处理从短期到长期的各种时序预测任务,实现了真正的全域时序预测。3. 全球最大...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...在一系列标准学术基准测试中评估 Conba 性能,包括常识推理任务(如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge)、阅读理解任务(如 BoolQ、QuAC)、聚合基准测试(如 MMLU、BBH),采用不同的学习策略。MixCon 性能与类似或更大……更多
从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型
...模型的精度,同时保持了线性注意力优越的并行计算与高推理速度。论文链接:https://arxiv.org/abs/2405.16605 代码链接:https://github.com/LeapLabTHU/MLLA 视频讲解:https://www.bilibili……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...的「我在飞」,进一步询问的话,此外,video-SALMONN还能推理出男人的名字是「杰克」。我们都知道,正是这两句对白成就了这个经典场景,而video-SALMONN恰恰抓住了这个场景的精髓所在!再来一段《疯狂动物城》的动画片段:看...……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...为可以吃到4位(INT4/FP4)内核的计算红利,实现了更快的推理速度。BitNet a4.8仅激活55%的参数,并支持3 bit KV cache,进一步提升了大规模LLM部署和推理的效率。BitNet a4.8模型架构模型的整体架构如图1所示,BitNet a4.8采用了与BitNet b……更多
英伟达展示blackwell平台,否认推迟上市
...来越多,数据中心将需要更多的计算和更低的延迟。多GPU推理方法多GPU推理方法是在多个GPU上进行计算,以获得低延迟和高吞吐量,但采用多GPU路线也有其复杂性。多GPU环境中的每个GPU都必须将计算结果发送给每一层的其他GPU,...……更多
AI真·炼丹:整整14天,无需人类参与
...能上有着显著的增强,还结合大容量末级缓存使AlphaFold2推理过程中关键的张量吞吐获得了大幅提升。 英特尔®至强®CPUMax系列处理器其次,由于AlphaFold2所采用的深度学习模型规模巨大,推理过程中的张量运算不仅量大,且维度...……更多
算力直降97%,GPT-3存储只用20MB?!这篇新论文火了
...开始,作者提到前人研究已经表明,大语言模型(LLM)的推理可以在1.58-bit精度下进行,且不会有任何性能损失。比如下面这篇论文,有人引入了1-bit的LLM变体(即BitNet b1.58),其中LLM的每个参数或权重都是三元的{-1, 0, 1}。它在...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸晶圆来制作,基于台积电5nm制程,芯片面积为46225平方毫米,拥有的晶体管数量达到了4万亿个,拥有90...……更多
安谋科技下代“周易”NPU成功部署DeepSeek-R1:速度高达40 tokens/s
...的最高处理速度可达每秒40 tokens,并支持动态长度的模型推理输入。这也展现了安谋科技软件栈对大模型的成熟支持、深度优化,包括动态推理优化和硬件算力潜力的挖掘,从而显著提升推理速度和吞吐量。目前,软件栈已支持...……更多
Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
...。Intel还采用KV Caching、PagedAttention机制和张量并行,提高推理效率。Intel的硬件也可利用软件框架和工具包进行加速,并获得出色的大模型推理性能,包括PyTorch以及Intel PyTorch扩展包、OpenVINO工具包、DeepSpeed、Hugging F……更多
智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习
...出的巨大潜力,而这种潜力的核心基石正是智能体的复杂推理能力。与当下广受关注的 OpenAI-o1 及其追随者略有不同,大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类:虽然不是每个人都需要具备...……更多
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...7连发,在模型智能水平、Agent工具调用和Coding能力、深度推理、多模态等方面实现多项突破。2025云栖大会,阿里云CTO周靖人发布多项重磅技术更新在大语言模型中,阿里通义旗舰模型Qwen3-Max全新亮相,性能超过GPT5、Claude Opus 4等...……更多
更多关于科技的资讯:
刷新多项世界纪录!我国新型单光子探测器量产落地
大皖新闻讯 日前,安徽省量子信息工程技术研究中心发布消息称,我国实现了全球首款四通道超低噪声半导体单光子探测器的量产落地(以下简称“深度制冷单光子探测器”)
2025-10-12 10:52:00
深入实施“人工智能+”行动丨浪潮智能终端“超高清+AI”解锁场景新玩法
漫步浩瀚太空,秒回侏罗纪时代,与科幻机甲同框……济南方特东方神画“九州神韵”的XR拍摄专区,小学生李安安兴奋地“穿越”在异时空中
2025-10-11 10:21:00
近日,据大象新闻报道,疾控卫监部门在一次突击检查中发现,某美容院将普通的高频电灼仪包装为“黄金微针”项目进行推广。这类看似创新的营销话术
2025-10-11 12:36:00
中新经纬10月11日电 (李自曼)近期,多家险企推出1年期的短期重疾险产品。同样保额下,传统重疾险保费动辄千元甚至上万元
2025-10-11 13:55:00
滨州移动织就“数字救援网”,赋能红十字演练通信零死角
鲁网10月11日讯近日,中国红十字应急救援北部协作区综合救援演练在山东省滨州市惠民县黄河三角洲应急消防实训基地拉开帷幕
2025-10-11 14:44:00
看点十足!2025中国移动全球合作伙伴大会变身“AI嘉年华”
当碳基生命的创造力与硅基生命的智慧力深度融合,将迸发出怎样的“AI+”可能?2025年10月10日—10月12日,中国移动全球合作伙伴大会在广州保利世贸博览馆盛大召开
2025-10-11 15:31:00
中国移动董事长杨杰:碳硅共生 合创AI+时代
10月10日至12日,2025中国移动全球合作伙伴大会在广州举行。10月11日上午,中国移动董事长杨杰出席大会主论坛,并发表题为《碳硅共生 合创AI+时代》的主旨演讲
2025-10-11 15:31:00
北京apm多重活动焕活国庆长假新体验,解锁假日新乐趣!
国庆假日期间,北京apm以“沉浸式假日体验”为核心,精心打造多元互动活动、热门IP联名快闪与专属会员福利矩阵,为王府井商圈注入鲜活动能与浓郁假日氛围
2025-10-11 15:41:00
山东乐陵:“老味道”飘出消费新滋味
位于乐陵市经济开发区的山东金鹏德盛斋扒鸡有限公司扒鸡生产车间内,老师傅王强不再像过去那样,紧盯着油炸锅、凭经验调节火力
2025-10-11 16:03:00
近日,张家口农商银行钟楼北小贷中心积极组织开展一场针对光大新天地商城内各商户的专项走访活动。此次活动旨在深入了解商城内各类商户的经营状况
2025-10-11 16:20:00
易生支付:智慧支付护航国庆文旅消费 赋能区域商业活力升级
2025年国庆长假期间,全国文旅消费市场持续呈现旺盛活力。易生支付凭借高并发交易处理、全渠道聚合支付、实时资金清算等核心技术能力
2025-10-11 17:08:00
齐鲁晚报·齐鲁壹点 连宁燕今年以来,威海市商务局围绕促消费开展了一系列卓有成效的工作。紧跟国家、省级、市级各级各类消费提振部署安排
2025-10-11 17:10:00
从精装到智装:百川装饰20年新范式在深圳启航
新范式·新百川·新未来:20周年发布品牌与战略升级近日,行业专家、合作伙伴及媒体代表逾300人齐聚深圳百川装饰集团20周年现场
2025-10-11 17:11:00
聊城首家无缝钢管制造企业汇通集团:年产85万吨钢管,远销全球30余国
鲁网10月11日讯(记者 泮晓阳)10月11日上午,聊城市政府新闻办公室召开“产业链上的山东好品牌”企业家系列现场记者见面会(六)聊城黑色金属加工
2025-10-11 17:44:00
聊城新一代信息技术发展:创新水平稳步提高,多项成果达国际领先
鲁网10月11日讯(记者 泮晓阳)10月11日上午,聊城市政府新闻办公室召开“产业链上的山东好品牌”企业家系列现场记者见面会(六)聊城黑色金属加工
2025-10-11 17:49:00