• 我的订阅
  • 头条热搜
Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理
...VLM 仅使用 1200 个 tokens,而 Qwen2-VL 则使用 1.6 万个 tokens。吞吐量SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多个基准测试中表现出色,且处理速度相比较 Qwen2-VL……更多
专家模型不要专家并行!微软开源MoE新路径
...密集模型进行了比较,使用相同的硬件测量了它们的训练吞吐量。 尽管MoE总的参数量是密集模型的六倍多,但在实验中达到了超过80%的相对吞吐量,证实了使用GRIN MoE方法的模型具有显著的计算扩展潜力。(PS:密集模型的吞吐...……更多
CPU,正在被AI时代抛弃?
...系统能够高效处理大量的数据,而CPU的强大计算能力和高吞吐量特性可以很好地满足要求,能够确保推理任务的快速完成。英特尔的测试数据也验证了千帆大模型平台团队的发现,其通过测试证明,单台双路CPU服务器完全可以轻...……更多
Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
...i 2,对70亿参数、720亿参数的通义千问2模型的推理和微调吞吐量进行了基准测试,以下为详细性能指标和测试结果:70亿参数通义千问2在单颗Gaudi 2加速器上的推理720亿参数通义千问2在八颗Gaudi 2加速器上的推理通义千问2 FP8在Gaud...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)。在吞吐量方面,处理长序列时,Conba 层计算效率更高,增加其比例可提高整体吞吐量。基本配置单位是 MixCon 块,由 Conba 或注意力层组合而成,每个层包含注意力模块或 Conba ...……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...果——记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。 至于为何另辟蹊径,寻求非Transformer的大模型路径,岩芯数智CEO刘凡平指出,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...领先扩散模型Flux-12B,Sana-0.6B不仅参数小12倍,重要的是吞吐量飙升100倍。以后,低成本的内容创作,Sana才堪称这一领域的王者。下面来看个更复杂的:一艘海盗船被困在宇宙漩涡星云中,通过模拟宇宙海滩旋涡的特效引擎渲染...……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
...1/100,GPT-4的1/360。据介绍,目前MiniCPM-2B在CPU(比GPU计算吞吐量低)上就能跑起来,相较于用GPU才能运行的大模型,能够降低推理成本。与此同时,即便将大小压缩75%,MiniCPM的性能也能做到基本无损耗。在性能上,MiniCPM-2B的中文...……更多
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
...达3400万刀。当时Sohu号称LLM推理性能达到H100的10倍,单价吞吐量更是高达140倍。而就在刚刚,Etced又宣布了炸裂的新消息:已筹到1.2亿美元。 就在上周,英伟达的市值达到3.3万亿美元,超过微软成为全球第一。而Etched相信,自己...……更多
英伟达展示blackwell平台,否认推迟上市
...多GPU推理方法是在多个GPU上进行计算,以获得低延迟和高吞吐量,但采用多GPU路线也有其复杂性。多GPU环境中的每个GPU都必须将计算结果发送给每一层的其他GPU,这就需要高带宽的GPU对GPU通信。多GPU推理方法是在多个GPU上进行计...……更多
月之暗面 Kimi 联合清华大学等开源大模型推理架构 Mooncake
...以 KVCache 为中心的 PD 分离和以存换算架构,提升了推理吞吐量。近日,为了进一步加速该技术框架的应用与推广,月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等共同发布开源项目...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...究者通过每秒生成的 token 数来评估 Memory3 的解码速度或吞吐量。了解更多内容,请参考原论文。 ……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...能力。GPU 有很好的批处理能力(比如从 BS1 到 BS16),可将吞吐量提高 12 到 15 倍。比如在上图中,当 decoder0 在进行批处理运算时,可以同时从 HBM 读取 decoder1 的参数。 SambaNova 的研究者观察到,SN40L 在 Llama 3.1 70B ……更多
英特尔第五代至强可扩展处理器发布:AI推理性能提升42%!
...开启。客户应用实例方面,IBM watsonx.data平台的网络查询吞吐量提高了2.7倍,Palo Alto Networks的基于深度学习模型的威胁检测性能提升了2倍,Gallium Studios游戏工作室Numenta AI平台的推理性能比GPU云实例提高了多达6.5倍。 拥有28款……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...问的内容,模型只会激活不同的专家子模块进行推理,在吞吐量一定的情况下,可以更快地完成推理、给出回答。这让Grok-1拥有了更快的生成速度和更低的推理成本,简而言之就是更好的使用体验和性价比。根据xAI公布的数据,...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...键值缓存留下大约 28GB 的空间。Feldman 声称,除了极高的吞吐量外,WSE-3 还可以扩展到更高的批量大小。尽管它究竟可以扩展到多大程度并保持每个用户Token的生成率,这家初创公司不愿透露。“我们目前的批次大小经常变化。...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...遵循任务上的表现。训练与推理系统该研究对训练系统的吞吐量、推理系统的延迟以及支持的最大序列长度进行了定量评估。表 2 显示了吞吐量结果。与 ZIGZAG-RINGATTN 相比,本文系统实现了 2.1 倍至 5.7 倍的加速,性能与 DeepSpeed-U...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...处理大小为 1 ,硬件采用 H100 GPU 的设置中测量模型生成吞吐量。结果如下图所示,Falcon Mamba 以恒定的吞吐量生成所有 token,并且 CUDA 峰值内存没有任何增加。对于 Transformer 模型,峰值内存会增加,生成速度会随着生成的 token ...……更多
面壁智能的端侧大模型面壁MiniCPM正式亮相
...对此面壁智能也在发布会上进行了展示,不同终端设备的吞吐量各有不同,也正是壁MiniCPM的出现,让用户那怕是一部手机,一个消费级显卡也能在端侧流畅跑通大模型。为了更真实的展示面壁MiniCPM在端侧的处理能力,发布现场...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...k库,对Falcon Mamba和流行的Transformer模型在内存使用和生成吞吐量方面进行了比较。为了公平比较,将所有Transformer模型的词汇大小调整为与Falcon Mamba一致,因为这对模型的内存需求有很大影响。在查看结果之前,先讨论序列中提...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...据传输速度更快。与F32相比,英伟达GPU提供的FP16将算术吞吐量提高了8倍,大幅加快了数学受限层的训练速度。此外,PyTorch团队还着重强调,计算全部是依赖OpenAI的Triton语言执行的。Triton是一种用于编写高效自定义深度学习基元...……更多
自定义Llama 3.1模型的利器来了!NVIDIA打造生成式AI代工厂,还有加速部署的微服务
...些模型。NIM微服务有助于将Llama 3.1模型部署到生产中,其吞吐量最多可比不使用NIM运行推理时高出2.5倍。从ai.nvidia.com即可了解适用于Llama 3.1模型的NVIDIA NIM推理微服务,以加快将Llama 3.1模型部署到生产级AI的速度。 将Llama 3.1 ……更多
史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
...更多的计算能力且利用率非常高, 因此可以运行巨大的吞吐量,而不会出现内存带宽瓶颈。软件如何工作在 GPU 和 TPU 上,软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片(如 AMD、Intel、AWS ...……更多
昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE
...万维宣布开源2千亿稀疏大模型Skywork-MoE,性能强劲,同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE大模型,也是首个支持用单台409...……更多
苹果大模型,不藏了
...法,来了:先减少闪存传输的数据量,再提高每次传输的吞吐量。先看框架:以手机为例,平时购机时的【12+256G】、【16+512G】,12/16为运行内存,256/512为储存空间。以此类推绝大部分移动设备存储结构,运存空间小,但读取速...……更多
大模型“免费”送,厂商们图什么?
...悉,DeepSeek可节省42.5%训练成本,减少93.3%的KV缓存,最大吞吐量提高5.76倍。整体而言,DeepSeek-V2消耗的显存(KVCache)只有同级别Dense模型的1/5-1/100。不过,这并不意味着当下大模型行业的价格战十分正常。2024年5月,谈及大模型...……更多
英伟达地表最强,黄教主被称作AI界“霉霉”
...万亿参数AI模型的性能,为每个GPU提供了高达1.8TB/s的双向吞吐量,确保当今最复杂的大语言模型能在多达576个GPU之间实现无缝高速通信。RAS引擎:Blackwell驱动的GPU集成了专用引擎和基于人工智能的预防性维护功能,可确保可靠性...……更多
英特尔酷睿Ultra笔记本NPU能力体验
...计算,且NPU在存储方面拥有高带宽、高容量的特性,数据吞吐量大、响应延迟低的特点,对AI应用效率提升起到积极作用。NPU就像一个效率超高的AI计算专家,让你的本本续航更持久的同时,也能流畅运行虚拟背景、实时美颜等...……更多
oppo首个端侧应用70亿参数大模型findx7系列
...CC和高隔离度技术,OPPO可以进一步提升超级低频四天线的吞吐量并降低网络延迟。面向握持对信号强度的影响,OPPO对低频天线进行了特殊设计,构建了OPPO自研手持状态下的信号模型,改善手持状态下的手机信号状况,实现了最...……更多
李开复发布零一万物首款340亿参数大模型Yi
...车通行5509.5万辆,环比下降2.86%;监测港口累计完成货物吞吐量24726.9万吨,环比下降3.88%,完成集装箱吞吐量552.8万标箱,环比下降3.02%;民航累计保障航班10.3万班(其中货运航班4251班,包括国际货运航班2467班,国内货运航班178...……更多
更多关于科技的资讯:
别被厂商忽悠了!家用路由器选购大揭秘
打开购物网站搜路由器,满屏“穿墙王”“千兆路由”等夸张广告词令人眼花,一时间竟不知该如何挑选合适的路由器品牌和型号。其实家用路由器大多能满足日常需求
2025-04-27 22:34:00
作为潍坊地区汽车流通领域的领军企业,山东某汽车集团有限公司以50余家4S店的规模稳居区域市场龙头地位。随着企业规模扩张
2025-04-27 22:46:00
安丘农商银行:服务有深度 金融有温度
今年以来,安丘农商银行始终将满足客户需求作为金融服务的出发点和落脚点,通过积极开展外拓走访、优化厅堂服务以及创新多种宣传方式
2025-04-27 22:47:00
数字赋能文旅 仓山区将推出多项数字场景体验项目
福州新闻网4月27日讯(记者 谢敏 通讯员 仓萱 文/图)27日,记者从仓山区获悉,数字峰会期间,仓山区将推出多项数字场景体验项目
2025-04-27 22:49:00
朱雀玄武敕令再申请改48字新名字:户口本都放不下了
4月27日消息,据媒体报道,朱雀玄武敕令此前想把名字更改为“周天紫薇大帝”,这一申请未获通过。随后这位小伙在此提交改名申请
2025-04-27 23:04:00
“珍珠女王”白如芳逝世:年仅55岁
4月27日消息,据媒体报道,被誉为“珍珠女王”的知名珍珠艺术设计师、北京红桥商场芳华珠宝品牌创始人白如芳女士,因病于2025年4月23日逝世
2025-04-27 23:34:00
年轻人上桌,白酒慌了?
某种程度上,年轻人与白酒之间的关系,如今更像是一种双向试探:白酒不断靠近年轻人的消费场景,却始终在外围打转;年轻人愿意为创意买单
2025-04-27 23:36:00
博主曝华为首款鸿蒙PC:办公软件已基本解决
快科技4月27日消息,在3月举行的华为Pura先锋盛典及鸿蒙智行新品发布会上,华为常务董事、终端BG董事长余承东正式宣布
2025-04-27 20:04:00
再添天文利器!中国首个大型通用光谱望远镜JUST启动建设
快科技4月27日消息,据报道,上海交通大学JUST光谱望远镜基建项目在青海冷湖正式启动建设,标志着我国即将实现大型光谱望远镜从无到有的历史性突破
2025-04-27 20:04:00
全球首个在轨验证星载基站亮相科交会
大皖新闻讯 作为“平天星座”的首发卫星,“池州一号”卫星将于今年年底搭载“池州造”火箭发射升空。“池州一号”卫星由池州星移联信航天科技公司自主研发
2025-04-27 20:23:00
从显示技术到航天动力 蚌埠近200件创新成果闪耀“科交会”
大皖新闻讯 世界首片8.6代OLED玻璃基板彰显国内显示技术的领先实力,“蚌埠造”龙云发动机助力航空航天产业发展……第三届中国(安徽)科技创新成果转化交易会上
2025-04-27 20:23:00
OPPO担任人工智能终端工作组副组长单位
4月25日,人工智能终端产业发展研讨会暨人工智能终端工作组第一次全体大会召开,工业和信息化部副部长熊继军出席会议并致辞
2025-04-27 20:28:00
母亲节送礼攻略 | 野兽派萱草花系列新品
近日,高端艺术生活方式品牌野兽派发布2025母亲节主题大片《每个妈妈都喜欢花》。片中,国民演员赵雅芝与其儿子黄恺杰温情亮相
2025-04-27 20:45:00
何同学风波后复更:为一位女生制作单手键盘
快科技4月27日消息,此前,博主何同学因发布网约车司机求好评相关言论引发争议,不久何同学删博。今日晚间,沉寂两周后何同学复更
2025-04-27 21:04:00
中国青年报客户端讯(中青报·中青网记者 胡春艳 实习生 粟悦)在中国电影诞生120周年、世界电影诞生130周年之际,作为第15届北京国际电影节的重要组成部分
2025-04-27 21:14:00