• 我的订阅
  • 科技

NVIDIA RTX显卡AI推理提速5倍!

类别:科技 发布时间:2023-11-16 20:13:00 来源:瘦子财经

11月16日消息,正在举行的微软Iginte全球技术大会上,微软发布一系列AI相关的全新优化模型、开发工具资源,帮助开发者更深入地释放硬件性能,拓展AI场景。

尤是对于当下在AI领域占据绝对主导地位的NVIDIA来说,微软这次送上了一份大礼包,无论是面向OpenAIChatAPI的TensorRT-LLM封装接口,还是RTX驱动的性能改进DirectMLforLlama2,以及其他热门大语言模型(LLM),都可以在NVIDIA硬件上获得更好的加速和应用。

NVIDIA RTX显卡AI推理提速5倍!

其中,TensorRT-LLM是一款用于加速LLM推理的库,可大大提升AI推理性能,还在不断更以支持越来越多的语言模型,而且它还是开源的。

就在10月份,NVIDIA也发布了面向Windows平台的TensorRT-LLM,在配备RTX30/40系列GPU显卡的台式机、笔记本上,只要显存不少于8GB,就可以更轻松地完成要求严苛的AI工作负载。

现在,TensorRT-LLMforWindows可以通过全新的封装接口,与OpenAI广受欢迎的聊天API兼容,因此可以在本地直接运行各种相关应用,而不需要连接云端,有利于在PC上保留私人和专有数据,防范隐私泄露。

只要是针对TensorRT-LLM优化过的大语言模型,都可以与这一封装接口配合使用,包括Llama2、Mistral、NVLLM,等等。

对于开发者来说,无需繁琐的代码重写和移植,只需修改一两行代码,就可以让AI应用在本地快速执行。

NVIDIA RTX显卡AI推理提速5倍!

↑↑↑基于TensorRT-LLM的微软VisualStudio代码插件——Continue.dev编码助手

本月底还会有TensorRT-LLMv0.6.0版本更新,将会在RTXGPU上带来最多达5倍的推理性能提升,并支持更多热门的LLM,包括全新的70亿参数Mistral、80亿参数Nemotron-3,让台式机和笔记本也能随时、快速、准确地本地运行LLM。

根据实测数据,RTX4060显卡搭配TenroRT-LLM,推理性能可以跑到每秒319tokens,相比其他后端的每秒61tokens提速足足4.2倍。

RTX4090则可以从每秒tokens加速到每秒829tokens,提升幅度达2.8倍。

NVIDIA RTX显卡AI推理提速5倍!

基于强大的硬件性能、丰富的开发生态、广阔的应用场景,NVIDIARTX正成为本地端侧AI不可或缺的得力助手,而越来越丰富的优化、模型和资源,也在加速AI功能、应用在上亿台RTXPC上的普及。

目前已经有400多个合作伙伴发布了支持RTXGPU加速的AI应用、游戏,而随着模型易用性的不断提高,相信会有越来越多的AIGC功能出现在WindowsPC平台上。

NVIDIA RTX显卡AI推理提速5倍!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-11-17 00:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

13代酷睿支持160亿参数大模型、Arc显卡提速54%
生成式AI(AIGC)无疑是当下最热门的话题和应用,各家软硬件厂商都在全力投入。作为拥有强大硬件、广泛生态的行业领袖,Intel也正在大力推动PCAIGC应用的落地
2023-08-20 17:00:00
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
有CPU就能跑大模型,性能甚至超过NPU/GPU!没错,为了优化模型端侧部署,微软亚洲研究院提出了一种新技术——T-MAC。这项技术主打性价比,不仅能让端侧模型跑得更快,而且资源
2024-08-10 09:52:00
从狂热到理性:大模型训练三堵墙,一场少数人的游戏 | 钛媒体深度
...的地方需要加速,像通信需要加速、显存需要压缩、整个推理也需要加速。百度智能云能够把调优手段集成到基础库,对于大模型计算和推理非常有帮助。”谢广军说。从平台的视角来说,不管是训
2023-06-29 12:00:00
面壁智能的端侧大模型面壁MiniCPM正式亮相
...大的底层支撑,先是算力方面,凭借全流程高效infra10倍推理加速,能够将成本降低90%;其次在算法方面,面壁模型通过高效模型训练配置实现模型能力快速形成;数据处理方面,凭借
2024-02-01 21:36:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instruct可胜任复杂推理任务
2024-08-22 09:49:00
英伟达推出史上最强AI芯片H200:推理性能提升90%,无缘中国市场
...的H100的带宽和容量分别为3.35TB和80GB。这将提升大模型在推理方面的表现,并有助于提升高性能计算应用的计算能力。英伟达预计,H200将在明年二季度开始发货,谷歌、微
2023-11-14 14:05:00
微软研究院推出orca2llm
...然后生成、回忆-原因-生成、提取-生成和直接回答等各种推理技术,同时还能为不同的任务选择不同的解决方案策略。Orca2模型相比较Llama2和WizardLM等大型语言模型
2023-11-22 11:08:00
微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑
微软开源1bit大模型推理框架!现在1000亿参数大模型量化后单CPU可跑,速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现
2024-10-23 12:05:00
专家模型不要专家并行!微软开源MoE新路径
...好,所以要在左上角: GRIN作为MoE架构,总参数量约42B,推理时激活的参数为6.6B,打同级别(7B)的非MoE模型是手拿把攥
2024-11-12 09:57:00
更多关于科技的资讯:
马年新春年味尚浓,元宵汤圆市场就“马”力全开。各大品牌纷纷推出“马”元素汤圆。这些产品凭借萌趣外形迅速出圈,部分热款销量突破40万单
2026-02-27 06:53:00
前来中国进行正式访问的德国总理默茨,于昨日专程飞抵杭州,乘坐红旗车继续访华行程。德国总理一行先后考察了宇树科技、西门子能源等企业
2026-02-27 06:53:00
觅睿科技昨日申购,发行价格为21.52元/股,发行市盈率为14.99倍。本次公开发行股份数量1360.55万股,采用战略配售和网上发行相结合的方式进行
2026-02-27 07:24:00
近日,一份名为《2028年全球智能危机》的报告在外网刷屏,报告仅在其官方账号24小时内阅读量就超2000万。报告推演了若AI技术超预期发展
2026-02-27 07:54:00
■李璐摘要:在高度不确定和动态变化的创新导向型项目中,传统以计划和控制为核心的项目管理模式面临显著挑战。灵活管理机制因其强调适应性
2026-02-27 04:54:00
胶东在线1月24日讯(通讯员 于江涛)1月24日,烟台市2026年度家电以旧换新、数码和智能产品购新补贴活动正式启动。截至目前
2026-02-27 04:03:00
纵览原创丨网传“相机涨价10倍”,石家庄太和电子城商户:“没感觉,相机价格比较平稳”
见习记者 袁欣悦近期,“6年前2459元买入如今涨到4048元”“CCD相机价格翻10倍”等信息频频进入大众视野,照相机被网友戏称为“电子黄金”
2026-02-26 20:34:00
中新经纬2月26日电 (袁媛)2026年被业内视为“智能体加速落地期”,人工智能正从单纯的对话工具走向能够自主执行任务的智能体系统
2026-02-26 21:31:00
江南时报讯 近日,工商银行徐州分行与特来电新能源股份有限公司举办“绿色出行,智联未来”充电生态共建项目启动暨经营家方案发布会
2026-02-26 21:39:00
手握7000万订单,济南起步区这家企业以4倍新产能满弓劲发赶交付
鲁网2月26日讯在济南起步区崔寨街道的绿能智造产业园,济南鼎点数控设备有限公司正以干劲“满格”的姿态,火热推进复工复产
2026-02-26 17:11:00
近日,湖北省洪湖市烟草专卖局围绕信息采集工作推出四项关键措施,全面提升数据的规范性与准确度。强化队伍建设,提升专业能力
2026-02-26 17:12:00
艺龙酒店科技马年新春业绩斐然,品质服务与生态赋能共启新程
2026年春节,得益于“史上最长春节”红利持续释放,国内文旅酒店行业迎来显著增长。经文化和旅游部数据中心测算,春节假日9天
2026-02-26 17:13:00
湖北洪湖烟草:立足实效提升营销服务效能
为切实提升客户服务质量与经营获得感,近期,湖北省洪湖市烟草专卖局(营销部)紧密围绕市场实际与客户需求,采取针对性举措,全力推动营销服务效能再上新台阶
2026-02-26 17:14:00
2026年第37届国际宝饰展近日圆满落幕,在这场汇聚全球顶尖珠宝力量的盛会中,MiNG名皇珠宝以老钱风雅致展位惊艳亮相
2026-02-26 17:12:00
近期,湖北省洪湖市烟草专卖局立足零售客户实际需求,精准把握经营难点,创新实施“四式”服务模式,有效提升了客户的满意度和获得感
2026-02-26 17:13:00