• 我的订阅
  • 头条热搜
清华开源混合精度推理系统MixQ:大模型近无损量化并提升推理吞吐
一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署并提升推理的吞吐。△图1 MixQ吞吐与已有...……更多
CPU,正在被AI时代抛弃?
...以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大模型对...……更多
一行代码训练成本再降30%,AI大模型混合精度训练再升级
...8卡H800上训练LLaMA2-7B,Colossal-AI FP8对比Colossal-AI BF16有35%的吞吐提升,对比Torch FSDP BF16有94%的吞吐提升。在单机8卡H800上训练LLaMA2-13B,Colossal-AI FP8对比Colossal-AI BF16有39%的吞吐提升……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...仅解码器LLM)作为文本编码器,以增强对提示词的理解和推理能力。尽管T2I生成模型多年来取得了显著进展,但大多数现有模型仍依赖CLIP或T5进行文本编码,这些模型往往缺乏强大的文本理解和指令跟随能力。与CLIP或T5不同,Gem...……更多
超星未来梁爽:软硬件协同优化,赋能AI 2.0新时代
...任务,这一基础模型应该具备感知万物、知晓常识和理解推理的能力,智能驾驶、机器人的基础模型本质上是同一类基础模型。 端到端与大模型上车进行时 智能汽车是迈向通用机器人的必要阶段 近年来,智驾系统正在从传统...……更多
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...环境,可支持超千卡规模、千亿参数级别的大模型训练和推理任务,旨在突破算力瓶颈,加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计,提供低延迟、高吞吐、高可用的IB组网环境,支持GDR技术,使...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...智能计算的“潜力股”,为后摩尔时代带来新的希望。 推理和训练是 AI 大模型核心能力的两个重要阶段,正是看到了这一点,该团队在推理和训练方面进行了同期的并行研究。今年 4 月,他们在 Science 报道了通用智能光计算芯...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰?又有多少开发者曾因为频频闪烁的警报「CUDA版本必须与...……更多
...算效率和算力开销两大问题成为新的行业焦点。对大模型推理成本的优化,可通过很多技术手段实现。首先是模型本身,模型结构、训练方法都可以持续改进,包括业界很关注的MoE(混合专家模型),就是优化推理成本很好的解决...……更多
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
...存储空间和计算资源就会减少。不过这也意味着,在执行推理时,需要进行混合精度的矩阵乘法运算(mpGEMM),即用低精度的权重和高精度的激活向量进行计算。然而,现有的系统和硬件并不原生支持这种混合精度的矩阵乘法,...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。2. 灵活的预测范围:Time-MoE支持任意长度的输入和输出范围,能够处理从短期到长期的各种时序预测任务,实现了真正的全域时序预测。3. 全球最大...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...在一系列标准学术基准测试中评估 Conba 性能,包括常识推理任务(如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge)、阅读理解任务(如 BoolQ、QuAC)、聚合基准测试(如 MMLU、BBH),采用不同的学习策略。MixCon 性能与类似或更大……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...的「我在飞」,进一步询问的话,此外,video-SALMONN还能推理出男人的名字是「杰克」。我们都知道,正是这两句对白成就了这个经典场景,而video-SALMONN恰恰抓住了这个场景的精髓所在!再来一段《疯狂动物城》的动画片段:看...……更多
英伟达展示blackwell平台,否认推迟上市
...来越多,数据中心将需要更多的计算和更低的延迟。多GPU推理方法多GPU推理方法是在多个GPU上进行计算,以获得低延迟和高吞吐量,但采用多GPU路线也有其复杂性。多GPU环境中的每个GPU都必须将计算结果发送给每一层的其他GPU,...……更多
AI真·炼丹:整整14天,无需人类参与
...能上有着显著的增强,还结合大容量末级缓存使AlphaFold2推理过程中关键的张量吞吐获得了大幅提升。 英特尔®至强®CPUMax系列处理器其次,由于AlphaFold2所采用的深度学习模型规模巨大,推理过程中的张量运算不仅量大,且维度...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸晶圆来制作,基于台积电5nm制程,芯片面积为46225平方毫米,拥有的晶体管数量达到了4万亿个,拥有90...……更多
Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
...。Intel还采用KV Caching、PagedAttention机制和张量并行,提高推理效率。Intel的硬件也可利用软件框架和工具包进行加速,并获得出色的大模型推理性能,包括PyTorch以及Intel PyTorch扩展包、OpenVINO工具包、DeepSpeed、Hugging F……更多
算子开发到推理加速,一位00后开发者的“升级打怪”之旅
...框架降低了大模型训练的门槛,目前正在做大模型分布式推理加速,希望可以帮助其他开发者在生产环境中高效部署在线推理服务。在昇腾AI的生态里,像郑辉这样为大模型浪潮默默贡献自己力量的开发者不胜枚举。他们还不是...……更多
国产大模型第一梯队玩家,为什么pick了CPU?
...占绝对大头的因素——算力。 现在提及大模型的训练和推理,很多人的第一反应或许就是想到了GPU。诚然GPU在高性能上占据着一定的优势,但它所存在“硬伤”也是比较明显,那便是供应不足、价格昂贵。何以破局?国产大模...……更多
英伟达blackwell计算引擎制造商推出的ai模型
...进一步推动架构的发展,强调不断压缩更大规模AI训练与推理工作负载的处理成本。英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道,“在过去的2023年,我们经历了多模态生成式AI的诞生,文本到图像、图像到文本...……更多
探索终端操作系统领域AI大模型创新趋势 OpenHarmony技术大会OS原生智能分论坛召开
...发展带来了崭新的机遇,有望通过强大的语义理解和常识推理能力大大提升智能个人代理支持功能的广度和深度。”清华大学助理研究员李元春主题分享中软国际有限公司智能物联网军团产品研发管理部总经理、OpenHarmony项目群技...……更多
专家模型不要专家并行!微软开源MoE新路径
...好,所以要在左上角: GRIN作为MoE架构,总参数量约42B,推理时激活的参数为6.6B,打同级别(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3还要略胜一筹。在上面的这份成绩单中,GRIN MoE表现优异,尤其是在编码和数学测试中。...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研发成本、训练/推理效率和整体性能之间实现最佳...……更多
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
...实现以超低成本进行量化。它支持多种压缩算法、模型和推理后端,具有强大的扩展性和全方位的评估能力。目前,研究团队已将使用方法放在GitHub主页上,戳文末链接即可获取。Llama3.1 更大也更难压缩低比特量化是解决资源受...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...长的上下文窗口。但是如果不相应地扩展计算资源,模型推理速度就会变慢,超过一定长度的文本就没法处理了。为了克服这些障碍,状态空间语言模型 (SSLM) 架构应运而生,该架构通过在处理单词时不断更新状态来工作,已成...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...复适配器进行微调,它们不会产生任何额外的内存使用或推理成本。关于适配器的大小,团队发现秩为16的适配器在模型容量和推理性能之间提供了最佳平衡。然而,为了提供更多的灵活性,苹果提供了一套不同秩的精度恢复适...……更多
摩尔线程万卡GPU集群新进展!性能可提升20倍
...模型提供一系列可应用于PyTorch框架的算子,加速模型的推理与训练,降低新算法的开发门槛。它以Triton编程语言的易用性和编译器的标准接口为基础,为多元芯片提供了一套易适配、高性能的算子解决方案,推动基于Triton的统...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成文本,那...……更多
5年投资超1000亿,北京公布一系列AI重磅成果,北大清华百度蚂蚁微软大佬齐谈AI未来|钛媒体AGI
...计算具备高算力低功耗的特性,能够加速AI大模型训练与推理。戴琼海提到,清华大学提出光电混合全模拟智能计算架构,研制ACCEL芯片,突破光电模数转换瓶颈。相比A100,ACCEL系统级算力提升3个数量级,能效提升6个数量级(百...……更多
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
姚期智院士领衔,推出大模型新推理框架,CoT“王冠”戴不住了。提出思维图(DiagramofThought),让大模型思考更像人类。团队更是为这种推理过程提供了数学基础,通过拓扑斯理论(Topos Theory)正式化(formalize)DoT,确保其逻...……更多
更多关于科技的资讯:
小米SU7冬季进店福利:18项免费车辆检测 防冻液、玻璃水免费加
快科技12月14日消息,小米SU7宣布推出冬季进店免费服务活动,限时从12月16日至2025年1月26日。在此期间,小米SU7车主可享受18项免费车辆检测
2024-12-14 16:47:00
小鹏汇天:飞行汽车2026年量产交付 先飞码用户尝鲜起飞
快科技12月14日消息,小鹏汇天今日在上海陆家嘴举办了“陆地航母”飞行汽车首飞活动。创始人、总裁赵德力中表示,预计在2025年第三季度
2024-12-14 16:47:00
决胜四季度 打好收官战丨湖北新耀:扩产能提质效 加班加点忙生产
十堰广电讯(郧西县融媒记者 王琴)岁末年尾,十堰企业坚持国际国内市场“双轮驱动”,全力以赴抓订单、拓市场,开足马力忙生产
2024-12-14 17:05:00
微星48.9英寸带鱼屏旗舰显示器国内上市
12月13日消息,微星宣布旗下型号为491CQPX的48.9英寸带鱼屏旗舰显示器现已在国内上市,这款显示器采用双2K240Hz规格
2024-12-14 17:09:00
在当前金融行业动态不断变化的背景下,金融服务市场正日益呈现出多元化的发展态势。随着经济的发展和人们对资金需求的日益增长
2024-12-14 17:14:00
「面对面」Talk局:OPPO广告携手金融行业客户共话新机遇
营销的变化,在数字时代的浪潮效应下,总是显得日新月异。大家都在为提升增长的双效而绞尽脑汁,大到行业方法,小到产品实操和投放
2024-12-14 17:14:00
周鸿祎:95%以上的中国电脑安装了360
快科技12月14日消息,今年7月,微软蓝屏事件被记录为史上最严重的IT系统崩溃。此次事件由杀毒软件更新触发,导致全球超过20个国家的逾千万Windows设备陷入瘫痪
2024-12-14 17:17:00
《耳语的世界》开启限免:好评率75%
12月13日消息,游戏《TheWhisperedWorld:SpecialEdition》现已在GOG平台开启限免活动
2024-12-14 17:28:00
医日健品牌升级发布会:智联健康丨数绘蓝图
2024年12月11日,在上海陆家嘴CBD有着蓝宝石一称的金融信息中心三楼上海厅,一场聚焦数字医疗健康领域创新发展的盛会——上海医日健品牌升级发布会隆重举行
2024-12-14 18:12:00
区间测速终点前龟速行驶惨被撞 司机:前面跑太快、怕被抓拍
快科技12月14日消息,经常跑高速的朋友对区间测速并不陌生,它是指检测机动车通过两个相邻测速监控点之间的路段(测速区间)的平均速率的方法
2024-12-14 18:17:00
【宅男财经·从重磅会议看商机】中央经济工作会议确定,以科技创新引领新质生产力发展,建设现代化产业体系;开展“人工智能+”行动
2024-12-14 18:20:00
1.3万极越车主再吃定心丸 百度集团副总裁:兜底智驾和地图导航
快科技12月14日消息,极越汽车闪崩一事有了进一步的发展,今日下午,百度集团副总裁、智能驾驶事业群组总裁王云鹏发表了朋友圈
2024-12-14 18:47:00
12月14日消息,山西亚鑫融科新材料有限公司高端电子新材料项目迎来重要里程碑——DMC(碳酸二甲酯)循环气压缩机一次性试车成功
2024-12-14 19:04:00
能玩3A游戏的全能本!无界15 Pro国补到手仅3199元
快科技12月14日消息,机械革命无界15 Pro全能本原价3999元,国补到手仅3199.2元。无界15 Pro轻薄本搭载ZEN4架构的锐龙7 8745HS处理器
2024-12-14 19:17:00
蔚来法务部:因散播谣言三人已被行拘、含某汽车品牌两员工
快科技12月14日消息,蔚来汽车法务部今日发布消息称,蔚来已对恶意造谣人员提起诉讼。法务部表示:11月底,在微博、抖音
2024-12-14 19:17:00