• 我的订阅
  • 头条热搜
清华开源混合精度推理系统MixQ:大模型近无损量化并提升推理吞吐
一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署并提升推理的吞吐。△图1 MixQ吞吐与已有...……更多
CPU,正在被AI时代抛弃?
...以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大模型对...……更多
月之暗面 Kimi 联合清华大学等开源大模型推理架构 Mooncake
...学 MADSys 实验室 2024 年 6 月联合发布了 Kimi 底层的 Mooncake 推理系统设计方案。该系统基于以 KVCache 为中心的 PD 分离和以存换算架构,提升了推理吞吐量。近日,为了进一步加速该技术框架的应用与推广,月之暗面 Kimi 和清华大...……更多
一行代码训练成本再降30%,AI大模型混合精度训练再升级
...8卡H800上训练LLaMA2-7B,Colossal-AI FP8对比Colossal-AI BF16有35%的吞吐提升,对比Torch FSDP BF16有94%的吞吐提升。在单机8卡H800上训练LLaMA2-13B,Colossal-AI FP8对比Colossal-AI BF16有39%的吞吐提升……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...仅解码器LLM)作为文本编码器,以增强对提示词的理解和推理能力。尽管T2I生成模型多年来取得了显著进展,但大多数现有模型仍依赖CLIP或T5进行文本编码,这些模型往往缺乏强大的文本理解和指令跟随能力。与CLIP或T5不同,Gem...……更多
超星未来梁爽:软硬件协同优化,赋能AI 2.0新时代
...任务,这一基础模型应该具备感知万物、知晓常识和理解推理的能力,智能驾驶、机器人的基础模型本质上是同一类基础模型。 端到端与大模型上车进行时 智能汽车是迈向通用机器人的必要阶段 近年来,智驾系统正在从传统...……更多
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...环境,可支持超千卡规模、千亿参数级别的大模型训练和推理任务,旨在突破算力瓶颈,加速AI算力的国产化进程。国产千卡智算集群采用软硬件一体化的架构设计,提供低延迟、高吞吐、高可用的IB组网环境,支持GDR技术,使...……更多
清华团队提出新型光计算架构,光训练速度提升1个数量级
...智能计算的“潜力股”,为后摩尔时代带来新的希望。 推理和训练是 AI 大模型核心能力的两个重要阶段,正是看到了这一点,该团队在推理和训练方面进行了同期的并行研究。今年 4 月,他们在 Science 报道了通用智能光计算芯...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰?又有多少开发者曾因为频频闪烁的警报「CUDA版本必须与...……更多
...算效率和算力开销两大问题成为新的行业焦点。对大模型推理成本的优化,可通过很多技术手段实现。首先是模型本身,模型结构、训练方法都可以持续改进,包括业界很关注的MoE(混合专家模型),就是优化推理成本很好的解决...……更多
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
...存储空间和计算资源就会减少。不过这也意味着,在执行推理时,需要进行混合精度的矩阵乘法运算(mpGEMM),即用低精度的权重和高精度的激活向量进行计算。然而,现有的系统和硬件并不原生支持这种混合精度的矩阵乘法,...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。2. 灵活的预测范围:Time-MoE支持任意长度的输入和输出范围,能够处理从短期到长期的各种时序预测任务,实现了真正的全域时序预测。3. 全球最大...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...在一系列标准学术基准测试中评估 Conba 性能,包括常识推理任务(如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge)、阅读理解任务(如 BoolQ、QuAC)、聚合基准测试(如 MMLU、BBH),采用不同的学习策略。MixCon 性能与类似或更大……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...的「我在飞」,进一步询问的话,此外,video-SALMONN还能推理出男人的名字是「杰克」。我们都知道,正是这两句对白成就了这个经典场景,而video-SALMONN恰恰抓住了这个场景的精髓所在!再来一段《疯狂动物城》的动画片段:看...……更多
英伟达展示blackwell平台,否认推迟上市
...来越多,数据中心将需要更多的计算和更低的延迟。多GPU推理方法多GPU推理方法是在多个GPU上进行计算,以获得低延迟和高吞吐量,但采用多GPU路线也有其复杂性。多GPU环境中的每个GPU都必须将计算结果发送给每一层的其他GPU,...……更多
AI真·炼丹:整整14天,无需人类参与
...能上有着显著的增强,还结合大容量末级缓存使AlphaFold2推理过程中关键的张量吞吐获得了大幅提升。 英特尔®至强®CPUMax系列处理器其次,由于AlphaFold2所采用的深度学习模型规模巨大,推理过程中的张量运算不仅量大,且维度...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸晶圆来制作,基于台积电5nm制程,芯片面积为46225平方毫米,拥有的晶体管数量达到了4万亿个,拥有90...……更多
Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
...。Intel还采用KV Caching、PagedAttention机制和张量并行,提高推理效率。Intel的硬件也可利用软件框架和工具包进行加速,并获得出色的大模型推理性能,包括PyTorch以及Intel PyTorch扩展包、OpenVINO工具包、DeepSpeed、Hugging F……更多
算子开发到推理加速,一位00后开发者的“升级打怪”之旅
...框架降低了大模型训练的门槛,目前正在做大模型分布式推理加速,希望可以帮助其他开发者在生产环境中高效部署在线推理服务。在昇腾AI的生态里,像郑辉这样为大模型浪潮默默贡献自己力量的开发者不胜枚举。他们还不是...……更多
国产大模型第一梯队玩家,为什么pick了CPU?
...占绝对大头的因素——算力。 现在提及大模型的训练和推理,很多人的第一反应或许就是想到了GPU。诚然GPU在高性能上占据着一定的优势,但它所存在“硬伤”也是比较明显,那便是供应不足、价格昂贵。何以破局?国产大模...……更多
Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理
...lVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效,并且完全开源,所有模型检查点、VLM 数据集、训练...……更多
英伟达blackwell计算引擎制造商推出的ai模型
...进一步推动架构的发展,强调不断压缩更大规模AI训练与推理工作负载的处理成本。英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道,“在过去的2023年,我们经历了多模态生成式AI的诞生,文本到图像、图像到文本...……更多
探索终端操作系统领域AI大模型创新趋势 OpenHarmony技术大会OS原生智能分论坛召开
...发展带来了崭新的机遇,有望通过强大的语义理解和常识推理能力大大提升智能个人代理支持功能的广度和深度。”清华大学助理研究员李元春主题分享中软国际有限公司智能物联网军团产品研发管理部总经理、OpenHarmony项目群技...……更多
专家模型不要专家并行!微软开源MoE新路径
...好,所以要在左上角: GRIN作为MoE架构,总参数量约42B,推理时激活的参数为6.6B,打同级别(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3还要略胜一筹。在上面的这份成绩单中,GRIN MoE表现优异,尤其是在编码和数学测试中。...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研发成本、训练/推理效率和整体性能之间实现最佳...……更多
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
...实现以超低成本进行量化。它支持多种压缩算法、模型和推理后端,具有强大的扩展性和全方位的评估能力。目前,研究团队已将使用方法放在GitHub主页上,戳文末链接即可获取。Llama3.1 更大也更难压缩低比特量化是解决资源受...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...长的上下文窗口。但是如果不相应地扩展计算资源,模型推理速度就会变慢,超过一定长度的文本就没法处理了。为了克服这些障碍,状态空间语言模型 (SSLM) 架构应运而生,该架构通过在处理单词时不断更新状态来工作,已成...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...复适配器进行微调,它们不会产生任何额外的内存使用或推理成本。关于适配器的大小,团队发现秩为16的适配器在模型容量和推理性能之间提供了最佳平衡。然而,为了提供更多的灵活性,苹果提供了一套不同秩的精度恢复适...……更多
摩尔线程万卡GPU集群新进展!性能可提升20倍
...模型提供一系列可应用于PyTorch框架的算子,加速模型的推理与训练,降低新算法的开发门槛。它以Triton编程语言的易用性和编译器的标准接口为基础,为多元芯片提供了一套易适配、高性能的算子解决方案,推动基于Triton的统...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成文本,那...……更多
更多关于科技的资讯:
本文转自:人民网人民网记者 赵竹青2025年的春节前夕,当大街小巷挂满红灯笼、家家户户忙着备年货时,国产人工智能大模型DeepSeek在海内外突然“爆火”
2025-01-29 17:42:00
大年初一,中国记协采访了DeepSeek
亲爱的粉丝们:近期,DeepSeek成为关注焦点。为了帮助大家进一步了解DeepSeek,我们与它进行了一次简短对话,希望对大家的工作有所助益(因海报容量有限
2025-01-29 16:44:00
1月28日,深度求索(DeepSeek)官网显示,其线上服务受到大规模恶意攻击,谭主向奇安信安全专家咨询并独家了解到,DeepSeek这次受到的网络攻击,IP地址都在美国。来源
2025-01-29 15:42:00
精致餐饮品牌推抖音“年夜饭”套餐,解锁“场景营销”新思路
春节前夕,年夜饭销售紧俏,主打高品质的“精致餐饮”备受欢迎。为满足消费需求,抖音生活服务联合大董烤鸭、紫薇美力集团旗下餐饮品牌鲁采LU STYLE
2025-01-29 08:40:00
2025贺新春瓣瓣同心京津冀 欢欢喜喜过大年大年初一,天津的古文化街年味浓郁。一系列新春活动,吸引天南海北的游客前来逛街赏景
2025-01-29 09:09:00
厦门网讯(厦门日报记者 朱道衡)春节来鼓浪屿要怎么玩?一天之内能否逛完,只有两个小时该怎么玩?鼓浪屿景点众多,游客该如何串联
2025-01-29 09:37:00
阿里云首次亮相总台春晚,云技术支持全球观众看直播
1月28日晚,阿里云首次亮相中央广播电视总台蛇年春晚,云技术支持全球观众观看春晚直播。作为总台春晚云计算AI独家合作伙伴
2025-01-29 13:18:00
美国科技巨头“收割者”!国产DeepSeek干掉英伟达4.3万亿市值
快科技1月28日消息,临近春节,中国人工智能公司DeepSeek突然爆火,其发布的DeepSeek-R1大模型性能上比肩OpenAI o1
2025-01-28 09:06:00
英伟达回应股价遭DeepSeek暴击:DeepSeek是出色的AI进步
快科技1月28日消息,日前,美股收盘英伟达股价暴跌17%,市值一夜蒸发5888.62亿美元(约合人民币4.27万亿元)
2025-01-28 10:07:00
王晶监制电影《笑傲江湖》上线爱优腾:张雨绮版东方不败来了
快科技1月28日消息,今日,电影《笑傲江湖》在腾讯视频、爱奇艺、优酷三大平台上线,同时发布“春满江湖”版海报。海报中,东方不败(张雨绮饰)侧卧雪地
2025-01-28 10:07:00
7月11日上映!DC《超人》新预告发布:只身大战反派、怪兽
快科技1月28日消息,DC全新的《超人》发布了新版预告,展示了超人翱翔于冰原之上、只身大战怪兽的场景,卢瑟等反派人物也一一登场
2025-01-28 10:37:00
快来看哪个更牛!网友热捧DeepSeek创意写春联
快科技1月28日消息,据媒体综合报道,近日,随着新春佳节的临近,一股创意写春联的热潮正在网络上悄然兴起。而在这场创意盛宴中
2025-01-28 10:37:00
李子柒将首次亮相央视《春晚》:讲述服饰的非遗故事
快科技1月28日消息,据央视频官方透露,今晚李子柒将首次亮相央视《春晚》,并担任“春晚体验官”,讲述演出服饰上的非遗故事
2025-01-28 11:07:00
育碧再次大裁员!185名员工被裁 英国工作室永久关闭
据eurogamer报道,育碧近日宣布,将关闭位于英国莱明顿的工作室,并裁减公司185个职位。部分莱明顿工作的员工将通过远程合同继续留职
2025-01-28 11:07:00
全球罕见!中国这两座城市又有“雪窝子”了
快科技1月28日消息,据媒体报道,近日,山东半岛东北部的烟台和威海再次因其频繁的降雪而备受关注,被形象地称为“雪窝子”
2025-01-28 11:07:00