• 我的订阅
  • 头条热搜
Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理
...VLM 仅使用 1200 个 tokens,而 Qwen2-VL 则使用 1.6 万个 tokens。吞吐量SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多个基准测试中表现出色,且处理速度相比较 Qwen2-VL……更多
GPT-4被破解 训练成本 模型架构的秘密都被挖出来了?
...有足够的内存带宽来容纳大型语言模型来实现一定水平的吞吐量。即使它们有足够的带宽,边缘硬件计算资源的利用率也会很糟糕。在数据中心、云中,利用率就是一切。 Nvidia 因其卓越的软件而受到赞誉的一半原因是,在 GPU ...……更多
专家模型不要专家并行!微软开源MoE新路径
...密集模型进行了比较,使用相同的硬件测量了它们的训练吞吐量。 尽管MoE总的参数量是密集模型的六倍多,但在实验中达到了超过80%的相对吞吐量,证实了使用GRIN MoE方法的模型具有显著的计算扩展潜力。(PS:密集模型的吞吐...……更多
华为AI存储助力中国移动构建超大规模智算集群
...:在吞吐性能方面,万亿级参数大模型需要至少10TB/秒的吞吐量,而传统存储系统难以满足这一要求;在多协议处理方面,数据从归集到处理再到训练,涉及对象存储和文件存储的频繁转换,这对传统存储架构是一个巨大挑战;...……更多
CPU,正在被AI时代抛弃?
...系统能够高效处理大量的数据,而CPU的强大计算能力和高吞吐量特性可以很好地满足要求,能够确保推理任务的快速完成。英特尔的测试数据也验证了千帆大模型平台团队的发现,其通过测试证明,单台双路CPU服务器完全可以轻...……更多
Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
...i 2,对70亿参数、720亿参数的通义千问2模型的推理和微调吞吐量进行了基准测试,以下为详细性能指标和测试结果:70亿参数通义千问2在单颗Gaudi 2加速器上的推理720亿参数通义千问2在八颗Gaudi 2加速器上的推理通义千问2 FP8在Gaud...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)。在吞吐量方面,处理长序列时,Conba 层计算效率更高,增加其比例可提高整体吞吐量。基本配置单位是 MixCon 块,由 Conba 或注意力层组合而成,每个层包含注意力模块或 Conba ...……更多
DeepSeek,大消息
...RDMA的非对称带宽转发场景进行了深度优化,不仅提供高吞吐量,还支持流式多处理器数量控制,从而在训练和推理任务中实现高吞吐量性能。稍早于2月26日,DeepSeek宣布,即日起,北京时间每日00:30至08:30的夜间空闲时段,DeepSeek...……更多
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
...果——记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。 至于为何另辟蹊径,寻求非Transformer的大模型路径,岩芯数智CEO刘凡平指出,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...领先扩散模型Flux-12B,Sana-0.6B不仅参数小12倍,重要的是吞吐量飙升100倍。以后,低成本的内容创作,Sana才堪称这一领域的王者。下面来看个更复杂的:一艘海盗船被困在宇宙漩涡星云中,通过模拟宇宙海滩旋涡的特效引擎渲染...……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
...1/100,GPT-4的1/360。据介绍,目前MiniCPM-2B在CPU(比GPU计算吞吐量低)上就能跑起来,相较于用GPU才能运行的大模型,能够降低推理成本。与此同时,即便将大小压缩75%,MiniCPM的性能也能做到基本无损耗。在性能上,MiniCPM-2B的中文...……更多
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
...达3400万刀。当时Sohu号称LLM推理性能达到H100的10倍,单价吞吐量更是高达140倍。而就在刚刚,Etced又宣布了炸裂的新消息:已筹到1.2亿美元。 就在上周,英伟达的市值达到3.3万亿美元,超过微软成为全球第一。而Etched相信,自己...……更多
英伟达展示blackwell平台,否认推迟上市
...多GPU推理方法是在多个GPU上进行计算,以获得低延迟和高吞吐量,但采用多GPU路线也有其复杂性。多GPU环境中的每个GPU都必须将计算结果发送给每一层的其他GPU,这就需要高带宽的GPU对GPU通信。多GPU推理方法是在多个GPU上进行计...……更多
月之暗面 Kimi 联合清华大学等开源大模型推理架构 Mooncake
...以 KVCache 为中心的 PD 分离和以存换算架构,提升了推理吞吐量。近日,为了进一步加速该技术框架的应用与推广,月之暗面 Kimi 和清华大学 MADSys 实验室联合 9#AISoft、阿里云、华为存储、面壁智能、趋境科技等共同发布开源项目...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...究者通过每秒生成的 token 数来评估 Memory3 的解码速度或吞吐量。了解更多内容,请参考原论文。 ……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...能力。GPU 有很好的批处理能力(比如从 BS1 到 BS16),可将吞吐量提高 12 到 15 倍。比如在上图中,当 decoder0 在进行批处理运算时,可以同时从 HBM 读取 decoder1 的参数。 SambaNova 的研究者观察到,SN40L 在 Llama 3.1 70B ……更多
DeepSeek第二炸:开源首个用于 MoE 模型训练通信库
...算调度,降低计算资源消耗。3、重性能内核据介绍,高吞吐量内核可适用于训练和推理预填充场景,最大化数据处理能力;4、低延迟内核它针对推理解码场景设计,采用纯RDMA通信和自适应路由技术,减少延迟。5、资源控制与...……更多
英特尔第五代至强可扩展处理器发布:AI推理性能提升42%!
...开启。客户应用实例方面,IBM watsonx.data平台的网络查询吞吐量提高了2.7倍,Palo Alto Networks的基于深度学习模型的威胁检测性能提升了2倍,Gallium Studios游戏工作室Numenta AI平台的推理性能比GPU云实例提高了多达6.5倍。 拥有28款……更多
...法显著提升了训练和推理速度,并优化了模型精度与推理吞吐量;在智能安全保障上,公司采用RLHF方案对齐安全认知,创新的热修复技术确保了大模型的安全性,提供安全、可靠的用户体验。能“深度思考”的推理模型非常火...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...问的内容,模型只会激活不同的专家子模块进行推理,在吞吐量一定的情况下,可以更快地完成推理、给出回答。这让Grok-1拥有了更快的生成速度和更低的推理成本,简而言之就是更好的使用体验和性价比。根据xAI公布的数据,...……更多
...训练,生成速度比上一个版本V2.5模型提升3倍,达到每秒吞吐量60token。”陈运文介绍,“V3对GPU资源的使用效率极高,因为很多单位没有庞大的GPU集群,DeepSeek这种低资源、高效果的特性有利于今后大规模推广应用。”DeepSeek-V3为...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...键值缓存留下大约 28GB 的空间。Feldman 声称,除了极高的吞吐量外,WSE-3 还可以扩展到更高的批量大小。尽管它究竟可以扩展到多大程度并保持每个用户Token的生成率,这家初创公司不愿透露。“我们目前的批次大小经常变化。...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...遵循任务上的表现。训练与推理系统该研究对训练系统的吞吐量、推理系统的延迟以及支持的最大序列长度进行了定量评估。表 2 显示了吞吐量结果。与 ZIGZAG-RINGATTN 相比,本文系统实现了 2.1 倍至 5.7 倍的加速,性能与 DeepSpeed-U...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...处理大小为 1 ,硬件采用 H100 GPU 的设置中测量模型生成吞吐量。结果如下图所示,Falcon Mamba 以恒定的吞吐量生成所有 token,并且 CUDA 峰值内存没有任何增加。对于 Transformer 模型,峰值内存会增加,生成速度会随着生成的 token ...……更多
英特尔发布中国特供版7nm AI芯片Gaudi2,减少RDMA接口以符合出口管制规定|硅基世界
...专用媒体处理器。在ResNet-50模型测试中,Gaudi2比一代训练吞吐量提高了3倍,BERT模型的训练吞吐量提高了4.7倍。目前,单个Gaudi 2在ResNet-50模型中可达到非常稳定的5800个图像/每秒的吞吐量。测试GPT-3方面,Gaudi2也表现出了强劲性...……更多
面壁智能的端侧大模型面壁MiniCPM正式亮相
...对此面壁智能也在发布会上进行了展示,不同终端设备的吞吐量各有不同,也正是壁MiniCPM的出现,让用户那怕是一部手机,一个消费级显卡也能在端侧流畅跑通大模型。为了更真实的展示面壁MiniCPM在端侧的处理能力,发布现场...……更多
算力直降97%,GPT-3存储只用20MB?!这篇新论文火了
...(FP16或BF16)的Transformer LLM相匹配,同时在延迟、存储、吞吐量和算力消耗方面成本更低。然而,上述变体是在推理时使用低精度,而在训练时仍需高精度权重。因此,noise_step的一个核心区别是:无需反向传播。允许模型直接在...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...k库,对Falcon Mamba和流行的Transformer模型在内存使用和生成吞吐量方面进行了比较。为了公平比较,将所有Transformer模型的词汇大小调整为与Falcon Mamba一致,因为这对模型的内存需求有很大影响。在查看结果之前,先讨论序列中提...……更多
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...据传输速度更快。与F32相比,英伟达GPU提供的FP16将算术吞吐量提高了8倍,大幅加快了数学受限层的训练速度。此外,PyTorch团队还着重强调,计算全部是依赖OpenAI的Triton语言执行的。Triton是一种用于编写高效自定义深度学习基元...……更多
自定义Llama 3.1模型的利器来了!NVIDIA打造生成式AI代工厂,还有加速部署的微服务
...些模型。NIM微服务有助于将Llama 3.1模型部署到生产中,其吞吐量最多可比不使用NIM运行推理时高出2.5倍。从ai.nvidia.com即可了解适用于Llama 3.1模型的NVIDIA NIM推理微服务,以加快将Llama 3.1模型部署到生产级AI的速度。 将Llama 3.1 ……更多
更多关于科技的资讯:
科拓生物亮相首届精准营养大会,引领益生菌产业精准化变革
8月17-19日,中国营养学会精准营养产业分会主办的第一届精准营养产业大会在上海盛大启幕。本届大会以“创新新生态,转化新标准”为主题
2025-08-21 10:53:00
英特尔成立UQD互插互换联盟:携手五大伙伴,共筑液冷生态新未来
今日,英特尔®通用快接头(下称UQD)互插互换联盟正式成立。成立仪式上,英特尔与首批认证合作伙伴——英维克、丹佛斯、立敏达科技
2025-08-21 10:55:00
安全护航真诚相遇 珍爱网筑起坚固反诈防线为爱保驾护航
从清晨醒来手机收到的一条天气提醒,到开启旅途的一份行程规划,到工作中依赖网络开展的业务往来,再到闲暇时畅游网络世界的娱乐放松……网络已深度融入我们的日常生活与工作
2025-08-21 09:10:00
萍乡构建“返乡即就业”服务体系 已帮扶2万余人达成就业意向
本报讯 信息日报全媒体记者谢梦丽报道:8月19日,记者从萍乡市人社部门了解到,今年以来,针对返乡人员就业工作,萍乡多举措构建“返乡即就业”全周期服务体系
2025-08-21 06:19:00
8月18日,“中国醋都·清徐”陈醋系列产品包装设计大赛启动。本次大赛以“清徐陈醋 健康好醋”为主题,由清徐县醋产业发展和研究中心
2025-08-21 07:20:00
四院士“智”见AI
8月20日,第九届未来网络发展大会在南京上秦淮国际文化交流中心开幕。邬贺铨、李国杰、刘韵洁、郑庆华等专家,在会上开展深度对话
2025-08-21 07:40:00
算力可像“水电”一样便捷取用
未来网络试验设施(CENI)创新试验展台的灵犀导览机器人。紫金山实验室展台。南报网讯(记者张安琪实习生饶嘉萱)8月20日在第九届未来网络发展大会开幕式上
2025-08-21 07:42:00
全球首个!西电“玄知”密码大模型问世!
近日,西安电子科技大学计算机科学与技术学院沈玉龙教授团队在密码大模型方面取得突破性进展,研究成果以“玄知大模型”命名在西部网络安全大会上正式发布
2025-08-20 09:45:00
东方甄选股价跳水,新东方紧急声明
8月19日,东方甄选股价上演“天地板”,早盘一度暴涨逾23%,午后高台跳水,盘后跌20.89%。若以日内高点计算,追高资金在不足两小时内浮亏逾30%
2025-08-20 09:55:00
产业链上的山东好品牌|历时19年,平耐集团为全球建筑与工业装备披上“中国智造”外衣
大众网记者 刘爽 张宁 菏泽报道“作为国家级高新技术企业,平耐集团正以毫米级的品质追求和绿色智能的产业实践,为全球建筑与工业装备披上‘中国智造’的防护外衣……”平耐新材料科技(山东)有限公司(以下简称
2025-08-20 10:39:00
宇树科技发布新款人形机器人预告海报,身高180cm,拥有31个全身自由度,动作灵活且优雅
8月19日晚间,宇树科技发布新款人形机器人预告海报,配文“敬请期待”。根据官方海报显示,新款机器人有1米8大高个,拥有31个关节自由度(6*2+3+7*2+2)
2025-08-20 11:39:00
AI赋能智慧生产 固达电缆销售额上半年增长58%
固达电缆集团厂区展现出一片繁忙景象,叉车穿梭、货车满载,大型行车正将成卷电缆装车发往全国各地。据悉,今年1-6月,固达电缆销售额同比增长58%
2025-08-20 12:05:00
京东宠物上线超百款差异化爆品 确保投资回报 破局同质化内卷
当前,宠物经济持续升温,随着养宠人群年轻化、喂养理念的转变,宠物行业正从基础刚需向多元化、精细化、专业化蜕变。8月19日
2025-08-20 13:47:00
2025全球智慧教育大会|腾讯青少年AIGC创作工坊发布并启动AIGC智创少年计划
2025年8月18-20日,2025全球智慧教育大会在京举行。本次大会聚焦“人机协同催生教育新生态”,探讨新技术与教育深度融合的创新路径
2025-08-20 14:24:00
美橙回收国补遇上开学季,双重补贴引爆年轻消费市场!
——千名潮流数码玩家强势推荐伴随2025年国家第三批消费补贴全面落地,由武汉青云美橙科技服务有限公司运营的美橙回收于八月下旬推出开学季活动“国补遇上开学季
2025-08-20 14:24:00