• 我的订阅
  • 科技

NVIDIA RTX显卡AI推理提速5倍!

类别:科技 发布时间:2023-11-16 20:13:00 来源:瘦子财经

11月16日消息,正在举行的微软Iginte全球技术大会上,微软发布一系列AI相关的全新优化模型、开发工具资源,帮助开发者更深入地释放硬件性能,拓展AI场景。

尤是对于当下在AI领域占据绝对主导地位的NVIDIA来说,微软这次送上了一份大礼包,无论是面向OpenAIChatAPI的TensorRT-LLM封装接口,还是RTX驱动的性能改进DirectMLforLlama2,以及其他热门大语言模型(LLM),都可以在NVIDIA硬件上获得更好的加速和应用。

NVIDIA RTX显卡AI推理提速5倍!

其中,TensorRT-LLM是一款用于加速LLM推理的库,可大大提升AI推理性能,还在不断更以支持越来越多的语言模型,而且它还是开源的。

就在10月份,NVIDIA也发布了面向Windows平台的TensorRT-LLM,在配备RTX30/40系列GPU显卡的台式机、笔记本上,只要显存不少于8GB,就可以更轻松地完成要求严苛的AI工作负载。

现在,TensorRT-LLMforWindows可以通过全新的封装接口,与OpenAI广受欢迎的聊天API兼容,因此可以在本地直接运行各种相关应用,而不需要连接云端,有利于在PC上保留私人和专有数据,防范隐私泄露。

只要是针对TensorRT-LLM优化过的大语言模型,都可以与这一封装接口配合使用,包括Llama2、Mistral、NVLLM,等等。

对于开发者来说,无需繁琐的代码重写和移植,只需修改一两行代码,就可以让AI应用在本地快速执行。

NVIDIA RTX显卡AI推理提速5倍!

↑↑↑基于TensorRT-LLM的微软VisualStudio代码插件——Continue.dev编码助手

本月底还会有TensorRT-LLMv0.6.0版本更新,将会在RTXGPU上带来最多达5倍的推理性能提升,并支持更多热门的LLM,包括全新的70亿参数Mistral、80亿参数Nemotron-3,让台式机和笔记本也能随时、快速、准确地本地运行LLM。

根据实测数据,RTX4060显卡搭配TenroRT-LLM,推理性能可以跑到每秒319tokens,相比其他后端的每秒61tokens提速足足4.2倍。

RTX4090则可以从每秒tokens加速到每秒829tokens,提升幅度达2.8倍。

NVIDIA RTX显卡AI推理提速5倍!

基于强大的硬件性能、丰富的开发生态、广阔的应用场景,NVIDIARTX正成为本地端侧AI不可或缺的得力助手,而越来越丰富的优化、模型和资源,也在加速AI功能、应用在上亿台RTXPC上的普及。

目前已经有400多个合作伙伴发布了支持RTXGPU加速的AI应用、游戏,而随着模型易用性的不断提高,相信会有越来越多的AIGC功能出现在WindowsPC平台上。

NVIDIA RTX显卡AI推理提速5倍!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-11-17 00:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

13代酷睿支持160亿参数大模型、Arc显卡提速54%
生成式AI(AIGC)无疑是当下最热门的话题和应用,各家软硬件厂商都在全力投入。作为拥有强大硬件、广泛生态的行业领袖,Intel也正在大力推动PCAIGC应用的落地
2023-08-20 17:00:00
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
有CPU就能跑大模型,性能甚至超过NPU/GPU!没错,为了优化模型端侧部署,微软亚洲研究院提出了一种新技术——T-MAC。这项技术主打性价比,不仅能让端侧模型跑得更快,而且资源
2024-08-10 09:52:00
从狂热到理性:大模型训练三堵墙,一场少数人的游戏 | 钛媒体深度
...的地方需要加速,像通信需要加速、显存需要压缩、整个推理也需要加速。百度智能云能够把调优手段集成到基础库,对于大模型计算和推理非常有帮助。”谢广军说。从平台的视角来说,不管是训
2023-06-29 12:00:00
面壁智能的端侧大模型面壁MiniCPM正式亮相
...大的底层支撑,先是算力方面,凭借全流程高效infra10倍推理加速,能够将成本降低90%;其次在算法方面,面壁模型通过高效模型训练配置实现模型能力快速形成;数据处理方面,凭借
2024-02-01 21:36:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instruct可胜任复杂推理任务
2024-08-22 09:49:00
英伟达推出史上最强AI芯片H200:推理性能提升90%,无缘中国市场
...的H100的带宽和容量分别为3.35TB和80GB。这将提升大模型在推理方面的表现,并有助于提升高性能计算应用的计算能力。英伟达预计,H200将在明年二季度开始发货,谷歌、微
2023-11-14 14:05:00
微软研究院推出orca2llm
...然后生成、回忆-原因-生成、提取-生成和直接回答等各种推理技术,同时还能为不同的任务选择不同的解决方案策略。Orca2模型相比较Llama2和WizardLM等大型语言模型
2023-11-22 11:08:00
微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑
微软开源1bit大模型推理框架!现在1000亿参数大模型量化后单CPU可跑,速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现
2024-10-23 12:05:00
专家模型不要专家并行!微软开源MoE新路径
...好,所以要在左上角: GRIN作为MoE架构,总参数量约42B,推理时激活的参数为6.6B,打同级别(7B)的非MoE模型是手拿把攥
2024-11-12 09:57:00
更多关于科技的资讯:
都市快报讯 昨天上午,上城区同协路旁的西子智慧产业园迎来了一名特殊的“保安”——身高1.8米,通体银色金属光泽,走起路来
2026-01-11 08:22:00
人形机器人“入职”前的试炼场来了杭州日报讯 核心提示2025年被称为人形机器人量产元年,今年人形机器人步入量产关键期,如何让机器人理解并适应人类真实的世界
2026-01-11 08:22:00
河北新闻网讯(崔梦露)1月8日下午,平安产险唐山中心支公司通过抖音、微信视频号、平安好车主、平安好生活等四大线上平台,举办“开年迎好运家家有平安”直播活动
2026-01-09 21:11:00
在全球制造业向高质量升级的浪潮下,超高压技术正成为破解多行业性能瓶颈的关键支撑。作为全球超高压领域标杆企业,Quintus专注于超高压技术的研发与应用
2026-01-10 20:59:00
为规范互联网应用程序个人信息收集使用活动,保护个人信息权益,促进个人信息合理利用,根据《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》《网络数据安全管理条例》等法律法规
2026-01-10 21:56:00
浙江造,红遍中国年!万事利春晚红围巾成“新年硬通货”
随着2026马年临近,一条承载马年春晚吉祥寓意的红围巾,正成为年末备受瞩目的新春佳礼。作为总台文创官方合作品牌,万事利丝绸匠心推出的“骐骥驰骋”系列围巾与丝巾
2026-01-10 21:02:00
摄像头自动识违规!雄安的这个工地很“智慧”
1月4日上午,雄安新区启动区中国中化大厦二期项目施工现场,一个安装在工地入口的摄像头缓缓转动。当镜头捕捉到两名未按规定穿戴反光背心的工人走向施工区域时
2026-01-10 17:01:00
年货陆续上架 春节“品质年味”一键备齐
离春节还有月余,我市各大超市的年货节已摩拳擦掌,准备登场。1月9日下午,永辉超市发布了2026年货节战略,本届年货节以“新永辉新年味”为核心主题
2026-01-10 17:54:00
西电杜敬利教授团队为太空天线装上“智能神经” 助其保持最佳形态
在距离地球数百乃至数万公里的太空中,大型空间可展开天线如同一把把缓缓张开的“巨伞”,肩负着通信、遥感、深空探测等重要使命
2026-01-10 19:17:00
济宁移动圆满完成邹城福特纵横跨年联谊活动通信保障
鲁网1月10日讯2025年12月31日,邹城福特纵横公园跨年联谊活动热闹启幕。济宁移动以专业保障护航欢乐时光,圆满完成此次活动通信支撑任务
2026-01-10 15:41:00
乌山时评|“晓风”再起 拂动人心
近日,一则令不少书友激动的消息传遍福州人的朋友圈——晓风书屋即将在鼓屏路旧址重启。为何“晓风”再起,依旧能拂动人心?要知道
2026-01-10 08:14:00
厦门网讯(厦门日报记者 何无痕)当前,招聘市场的“AI味”越来越浓。近日,记者调查发现,如今企业不再依赖传统的选才,开始尝试更智能
2026-01-10 08:30:00
@杭州人,你的信用能换钱了!
最近,杭州人的“信用幸福指数”又上涨了!信用消费专区在杭州市民卡App上线,用户凭钱江分就能享受信用消费折扣、体验低空文旅的乐趣
2026-01-10 09:19:00
新春雅集 财安相伴——邮储银行VIP客户插花暨金融反诈便民活动温馨启幕
近日,邮储银行高新区支行以花为媒、以情相连,精心举办“花漾时光·金融护航”VIP客户专属插花沙龙活动,活动将花艺美学体验
2026-01-10 09:51:00
中亦科技以 IT 运维筑牢半导体产业增长之基
最近,半导体行业的目光都聚焦在一条“疯狂”的曲线上:内存价格。这绝非一次简单的周期性波动。深层驱动力是以人工智能应用落地引发的“以存代算”技术范式革命
2026-01-10 09:51:00