• 我的订阅
  • 头条热搜
小米开源首个推理大模型Xiaomi MiMo:7B参数就超越OpenAI o1-mini
快科技4月30日消息,小米官方今天正式宣布,开源首个为推理(Reasoning)而生的大模型——Xiaomi MiMo。据介绍,Xiaomi MiMo在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo仅用7B的参数规模,超越了OpenAI的闭..……更多
美股异动丨金山云一度涨超13% 小米首个推理大模型MiMo开源
...。金山云H股今日收涨14.2%,报7.4港元。消息面上,今天,小米开源首个为推理(Reasoning)而生的大模型“Xiaomi MiMo”,联动预训练到后训练,全面提升推理能力。 在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo仅用...……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
...云端协同的部署趋势。自2023年下半年起,三星、华为、小米、特斯拉、理想等国内外手机和智驾厂商都发布了适配于终端硬件的大模型。在终端硬件厂商加速产品AI化的趋势下,面壁智能认为,成本是大模型的隐形竞争力,“比...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...码仓库 Trending Research 第一位。为了赋予机器人端到端的推理和操纵能力,本文创新性地将视觉编码器与高效的状态空间语言模型集成,构建了全新的 RoboMamba 多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力,...……更多
商汤生成式AI业务飙涨256%,成为中国大模型、智算服务市场占有率领头羊
...端设备。商汤的企业客户覆盖各行各业,其中既有京东、小米、金山办公等互联网公司,也包括三大运营商、吉利等车企、以清华为代表的高校、头部大模型创业公司等等。目前共有3000多家行业头部企业使用商汤大模型及智算...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建和部署成本过高。改善成本 - 性能的一种方法是使...……更多
昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE
...万维宣布开源2千亿稀疏大模型Skywork-MoE,性能强劲,同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE大模型,也是首个支持用单台409...……更多
大模型不会推理,为什么也能有思路?有人把原理搞明白了
大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算法创新研究院、北京大学等机构的研究者受人类大脑记忆层次结构的启发,他们通过为 LLM ...……更多
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
...发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法,根据给定的prompt难度,动态地分配测试时(Test-Time)的计算资源。结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。换句话说...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。先来看一张其乐融融的图片(一眼AI):右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。至于到底能不能其乐融融,咱就不管了,之所以有此场景...……更多
Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理
...lVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效,并且完全开源,所有模型检查点、VLM 数据集、训练...……更多
随着大模型的发展日新月异,其推理和训练的边界问题也引起了广泛讨论。近日,清程极智CEO汤雄超在一场行业活动中明确表示,尽管外界有声音认为OpenAI发布的o1模型模糊了推理和训练的界限,但从技术角度来看,这两个阶段...……更多
...算效率和算力开销两大问题成为新的行业焦点。对大模型推理成本的优化,可通过很多技术手段实现。首先是模型本身,模型结构、训练方法都可以持续改进,包括业界很关注的MoE(混合专家模型),就是优化推理成本很好的解决...……更多
大模型推理乘上RISC-V快车?国内AI芯片创企推大模型系列一体机
...并发、技术自主可控方面具有优势的新选择。AI大模型在推理侧的新机遇与RISC-V创新架构具有的可扩展性、可编程性、超大规模等优势特点不谋而合。技术和场景应用的双重优势下,希姆计算的大模型一体机能支撑企业将基座模...……更多
CPU,正在被AI时代抛弃?
...以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大模型对...……更多
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练计划目前普遍进展不顺,新模型...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...业基准测试中达到了 SOTA,并提供了新的功能,如改进的推理能力。最强开源 LLM 来了Meta 官方博客写道,“得益于预训练和后训练的改进,我们的预训练和指令微调模型是目前 8B 和 70B 参数尺度下最好的模型。”他们表示,后期...……更多
微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑
微软开源1bit大模型推理框架!现在1000亿参数大模型量化后单CPU可跑,速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现,开源不到一周GitHub已揽获7.9k Star。传统大模型参数以16位浮点数(如FP16或BF16)形...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
... OpenAI 在大语言模型领域的新尝试,也可能是对人工智能推理能力一次新的革命性提升。根据目前流出的信息来看,相比以往的 GPT 模型,「草莓」在处理复杂问题、执行多步骤任务方面展现出前所未有的潜力,使其成为通用人...……更多
chatgpt低成本复现流程开源
...。相比原生PyTorch,单机训练速度最高可提升7.73倍,单卡推理速度提升1.42倍,仅需一行代码即可调用。对于微调任务,可最多提升单卡的微调模型容量3.7倍,同时保持高速运行,同样仅需一行代码。要知道,ChatGPT火是真的火,...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多
百川智能发布baichuan3稳定语言模型
...处理和代码生成领域的强大实力。不仅如此,其在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4,是中文医疗任务表现最佳的大模型。Baichuan3还突破“迭代式强化学习”技术...……更多
联想发布DeepSeek一体机解决方案:支持千亿参数大模型训练
...器双产品形态,率先实现从千亿参数大模型训练到场景化推理落地的全链条覆盖。联想创新性推出两大产品:面向敏捷部署的DeepSeek智能体一体机采用ThinkStationPX工作站为载体,搭载沐曦曦思N260 GPU。实测数据显示,在相同并发条...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...交视觉-语言-动作建模框架RevThink:使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术分享群」。SwiftEdit:50 倍速文本引导图像...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
...教育大模型的快速迭代,摩尔线程、师者AI还将在大模型推理上开展适配工作。摩尔线程夸娥方案是业内首个跑通、跑完国产大模型的千卡集群,基于全功能MTT S4000 GPU,提供软硬一体化的全栈解决方案,具备模型覆盖、推理加速...……更多
...测中,它的综合能力逼近当时的顶尖大模型,尤其在逻辑推理和数学题上展现出强劲性能,而且它的成本要远低于作比较的其他大模型。更令圈内研究者惊喜的,是它在训练方式上的简化。以往的模型在提升推理能力时,通常依...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...ta 提出“可持续思维链”:让大语言模型在连续潜空间中推理GameArena:通过实时电脑游戏评估 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研发成本、训练/推理效率和整体性能之间实现最佳...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
...The」。完整的回复,花了整整20个小时熟悉模型的训练和推理的朋友都知道,这些事情一点都不奇怪。集群搭建(GPU配置、网络设计、轨道优化等)、集群管理(实时监控、故障排除等)……个个都是「拦路虎」。对于缺乏相关...……更多
更多关于科技的资讯:
京东折扣超市全国第六店落户固安
河北新闻网讯(李寒梦、陈放)9月25日,京东折扣超市全国第六家门店在固安尚品爱购城市广场正式开业,进一步点燃居民消费热情
2025-09-29 09:53:00
从榨菜月饼到榨菜咖啡,乌江榨菜以创新打破品类边界
近年来,伴随区域化、特色化产品的迅速增长,各大品牌在深耕主业的同时也开始积极探索新赛道、新领域。乌江榨菜作为涪陵榨菜集团旗下的核心品牌
2025-09-29 08:03:00
华北首家!多美卡品牌专卖店登陆北京玩具反斗城
[北京] – 继中国首家多美卡品牌专卖店入驻玩具反斗城上海南丰城店并成功引爆小车收藏热潮后,玩具反斗城(Toys“R”Us)与多美(TAKARA TOMY)的战略合作再结硕果
2025-09-29 07:33:00
南报网讯(记者张甜甜)10月2日至3日,由南京报业传媒集团旗下南报优选供应链公司主办的首届紫金山国潮漫文化嘉年华,将在南京国际展览中心举办
2025-09-29 07:42:00
9月26日,购在中国(山西站)暨中石化易捷第八届易享节在我市启动,诸多三晋名特优产品将陆续入驻中石化易捷,走向全国。今后
2025-09-28 08:20:00
刚刚闭幕的长春航空展上,“净月号”成瞩目焦点
9月23日,长春航空展圆满闭幕,“净月号”凭借其震撼的实体造型与深厚的文化内涵,成为展会瞩目的焦点。这艘承载中式太空梦想的“星舰”
2025-09-28 10:07:00
为更好的服务广大客户,富德生命人寿安平支公司积极组织员工开展《产品健康增值服务》培训。培训中,讲师细致讲解公司产品健康增值服务
2025-09-28 10:12:00
河北新闻网讯(王丽英)9月24日至25日,宁晋县晶龙集团举行人力资源专业培训,内训师靳桂峰、王素峰和张晓宁分别围绕工伤保险及识人辨人
2025-09-28 10:18:00
美团Keeta上线阿联酋!40天连开3国,国际化全速推进
当地时间9月27日上午11点,美团旗下国际外卖品牌Keeta正式在阿联酋迪拜启动运营,这是Keeta继8月上线卡塔尔、9月上线科威特后
2025-09-28 10:22:00
小米17系列9月27日开售,卢伟冰称ProMax需求远超预期,已安排快速提拉生产
9月27日上午10点,小米17系列开售,价格4499元起!并全系首发第五代骁龙 8 至尊版。据悉,小米17尺寸6.3,7000mAh 电池
2025-09-28 10:22:00
齐鲁晚报·齐鲁壹点 王会广 通讯员 李杰在数字经济蓬勃发展的当下,大数据、云计算、物联网、移动互联网、人工智能以及区块链等新兴技术的广泛应用
2025-09-28 10:56:00
实时互动x高效制播:佳能携手《密室大逃脱大神版 互动直播》真人秀实现制作新范式
在直播与正片并行制作逐渐成为综艺内容生产新常态的当下,真人秀现场对影像系统的要求不断提升:既要满足直播的即时输出,又要兼顾正片制作的高质量成片
2025-09-28 11:51:00
齐鲁晚报·齐鲁壹点菏泽光影在线摄影摄像实战培训班11月初开启
从“拍摄小白”到“拍摄大神”,你只差这一套实战课!齐鲁晚报(光影在线实战培训)告别“自动挡”,用镜头讲故事。这是一个视觉统治注意力的时代
2025-09-28 12:03:00
烟台银行威海荣成支行“金融+”开辟服务新路径
近日,烟台银行荣成支行通过创新推出的“智慧物业”合作解决方案,成功为当地多家物业公司纾困解难,有效破解了长期困扰行业发展的收费难
2025-09-28 12:05:00
莫林酒店洛阳首店落子!完善文旅服务补中高端住宿
作为中国第一古刹,洛阳白马寺的文旅热度在 2025 年暑期再攀新高 —— 日均接待游客超 8000 人次,35 元亲民票价搭配免费斋饭政策
2025-09-28 12:22:00