• 我的订阅
  • 头条热搜
小米开源首个推理大模型Xiaomi MiMo:7B参数就超越OpenAI o1-mini
快科技4月30日消息,小米官方今天正式宣布,开源首个为推理(Reasoning)而生的大模型——Xiaomi MiMo。据介绍,Xiaomi MiMo在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo仅用7B的参数规模,超越了OpenAI的闭..……更多
美股异动丨金山云一度涨超13% 小米首个推理大模型MiMo开源
...。金山云H股今日收涨14.2%,报7.4港元。消息面上,今天,小米开源首个为推理(Reasoning)而生的大模型“Xiaomi MiMo”,联动预训练到后训练,全面提升推理能力。 在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo仅用...……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
...云端协同的部署趋势。自2023年下半年起,三星、华为、小米、特斯拉、理想等国内外手机和智驾厂商都发布了适配于终端硬件的大模型。在终端硬件厂商加速产品AI化的趋势下,面壁智能认为,成本是大模型的隐形竞争力,“比...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...码仓库 Trending Research 第一位。为了赋予机器人端到端的推理和操纵能力,本文创新性地将视觉编码器与高效的状态空间语言模型集成,构建了全新的 RoboMamba 多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力,...……更多
商汤生成式AI业务飙涨256%,成为中国大模型、智算服务市场占有率领头羊
...端设备。商汤的企业客户覆盖各行各业,其中既有京东、小米、金山办公等互联网公司,也包括三大运营商、吉利等车企、以清华为代表的高校、头部大模型创业公司等等。目前共有3000多家行业头部企业使用商汤大模型及智算...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建和部署成本过高。改善成本 - 性能的一种方法是使...……更多
昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE
...万维宣布开源2千亿稀疏大模型Skywork-MoE,性能强劲,同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE大模型,也是首个支持用单台409...……更多
大模型不会推理,为什么也能有思路?有人把原理搞明白了
大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。本文来自上海算法创新研究院、北京大学等机构的研究者受人类大脑记忆层次结构的启发,他们通过为 LLM ...……更多
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
...发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法,根据给定的prompt难度,动态地分配测试时(Test-Time)的计算资源。结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。换句话说...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。先来看一张其乐融融的图片(一眼AI):右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。至于到底能不能其乐融融,咱就不管了,之所以有此场景...……更多
Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理
...lVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效,并且完全开源,所有模型检查点、VLM 数据集、训练...……更多
随着大模型的发展日新月异,其推理和训练的边界问题也引起了广泛讨论。近日,清程极智CEO汤雄超在一场行业活动中明确表示,尽管外界有声音认为OpenAI发布的o1模型模糊了推理和训练的界限,但从技术角度来看,这两个阶段...……更多
...算效率和算力开销两大问题成为新的行业焦点。对大模型推理成本的优化,可通过很多技术手段实现。首先是模型本身,模型结构、训练方法都可以持续改进,包括业界很关注的MoE(混合专家模型),就是优化推理成本很好的解决...……更多
大模型推理乘上RISC-V快车?国内AI芯片创企推大模型系列一体机
...并发、技术自主可控方面具有优势的新选择。AI大模型在推理侧的新机遇与RISC-V创新架构具有的可扩展性、可编程性、超大规模等优势特点不谋而合。技术和场景应用的双重优势下,希姆计算的大模型一体机能支撑企业将基座模...……更多
CPU,正在被AI时代抛弃?
...以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大模型对...……更多
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练计划目前普遍进展不顺,新模型...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...业基准测试中达到了 SOTA,并提供了新的功能,如改进的推理能力。最强开源 LLM 来了Meta 官方博客写道,“得益于预训练和后训练的改进,我们的预训练和指令微调模型是目前 8B 和 70B 参数尺度下最好的模型。”他们表示,后期...……更多
微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑
微软开源1bit大模型推理框架!现在1000亿参数大模型量化后单CPU可跑,速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现,开源不到一周GitHub已揽获7.9k Star。传统大模型参数以16位浮点数(如FP16或BF16)形...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
... OpenAI 在大语言模型领域的新尝试,也可能是对人工智能推理能力一次新的革命性提升。根据目前流出的信息来看,相比以往的 GPT 模型,「草莓」在处理复杂问题、执行多步骤任务方面展现出前所未有的潜力,使其成为通用人...……更多
chatgpt低成本复现流程开源
...。相比原生PyTorch,单机训练速度最高可提升7.73倍,单卡推理速度提升1.42倍,仅需一行代码即可调用。对于微调任务,可最多提升单卡的微调模型容量3.7倍,同时保持高速运行,同样仅需一行代码。要知道,ChatGPT火是真的火,...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多
百川智能发布baichuan3稳定语言模型
...处理和代码生成领域的强大实力。不仅如此,其在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4,是中文医疗任务表现最佳的大模型。Baichuan3还突破“迭代式强化学习”技术...……更多
联想发布DeepSeek一体机解决方案:支持千亿参数大模型训练
...器双产品形态,率先实现从千亿参数大模型训练到场景化推理落地的全链条覆盖。联想创新性推出两大产品:面向敏捷部署的DeepSeek智能体一体机采用ThinkStationPX工作站为载体,搭载沐曦曦思N260 GPU。实测数据显示,在相同并发条...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...交视觉-语言-动作建模框架RevThink:使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术分享群」。SwiftEdit:50 倍速文本引导图像...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
...教育大模型的快速迭代,摩尔线程、师者AI还将在大模型推理上开展适配工作。摩尔线程夸娥方案是业内首个跑通、跑完国产大模型的千卡集群,基于全功能MTT S4000 GPU,提供软硬一体化的全栈解决方案,具备模型覆盖、推理加速...……更多
...测中,它的综合能力逼近当时的顶尖大模型,尤其在逻辑推理和数学题上展现出强劲性能,而且它的成本要远低于作比较的其他大模型。更令圈内研究者惊喜的,是它在训练方式上的简化。以往的模型在提升推理能力时,通常依...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...ta 提出“可持续思维链”:让大语言模型在连续潜空间中推理GameArena:通过实时电脑游戏评估 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研发成本、训练/推理效率和整体性能之间实现最佳...……更多
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
...The」。完整的回复,花了整整20个小时熟悉模型的训练和推理的朋友都知道,这些事情一点都不奇怪。集群搭建(GPU配置、网络设计、轨道优化等)、集群管理(实时监控、故障排除等)……个个都是「拦路虎」。对于缺乏相关...……更多
更多关于科技的资讯:
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00
“FutureBOT未来引力”2025北京机器人文化节首日盛况 打造国庆科技打卡新地标
国庆首日,“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇正式拉开帷幕,成为国庆假期极具科技温度的打卡地
2025-10-03 19:06:00
走到白石山巅的尽头,这家建在悬崖边的“云端咖啡厅”绝对让你惊呼。
2025-10-03 11:37:00
泰康人寿发布新品“泰康百万药无忧(庆典版)医疗保险”(以下‬简称“百万药无忧”),以广覆盖、易投保、强保障、低费率为优势
2025-10-03 09:17:00
厦门网讯(厦门日报记者 翁华鸿 通讯员 林雨新)在近日举行的2025全球数据管理峰会“数据要素分论坛暨大数据统计与人工智能技术创新管理研讨会”上
2025-10-03 08:38:00
兴趣-实践-视野:达芬奇金奖少年带来的教育启示录
摘要:2025“你是达芬奇”全球青少年科学与艺术创新赛圆满落幕,其中金奖获奖少年的亲身实践告诉我们,在AI赋能的新时代
2025-10-02 16:22:00
单日调用近1万亿次,高德助力北斗规模化民用跨入新量级
2025年10月1日,随着国庆长假首日出行高峰的到来,高德基于北斗卫星导航系统的定位数量接近1万亿次,支撑导航总里程数超90亿公里
2025-10-02 22:31:00
10月1日,从太钢获悉,今年以来,太钢不锈进料加工团队以“精准备案、高效协同”为核心,在进料铬铁镍铁资源利用方面取得突破性进展
2025-10-02 17:39:00
厦门网讯(厦门日报记者 林露虹)记者昨日从中国移动咪咕公司获悉,该公司打造的“鼓浪屿AI伴游”服务已正式上线。市民和游客只需打开“鼓浪屿元宇宙”微信小程序
2025-10-02 08:57:00
“中国脑机谷”落户新奥新智感知产业园 政企研协同构建脑机接口产业新生态
河北新闻网讯(张新)9月26日,脑机接口产业联盟首届“脑机接口50人论坛”暨天津脑机接口产业创新发展推进会举办。会上,由新奥集团旗下的天津新智感知科技有限公司
2025-10-01 08:40:00
国网三明供电公司:守护灯火庆华诞 主动运维显担当
国网三明供电公司检修人员及时更换损坏器件并调整传动系统并完成设备修复及全套试验。(纪长添 摄)东南网10月1日讯 9月28日
2025-10-01 09:19:00
9月26日,由华东政法大学与上海星瀚律师事务所联合主办的第三届“星瀚杯”走进企业的法律课公益大赛正式启动。腾讯云作为大赛的技术支持单位
2025-10-01 09:56:00
平望实小承办吴江区骨干教师(数学)讲学团活动
为进一步发挥吴江区骨干教师的示范和辐射作用,推进课堂教学改革,有效提升教师教学业务能力。2025年9月24日,由苏州市吴江区教师发展中心主办的2025年吴江区骨干教师(数学)讲学团活动在平望实验小学举行
2025-10-01 09:58:00
AI技术让抗战文物“活起来”,人民日报数字传播联合百度推抗战文物智能体
9月30日,由人民日报数字传播与中国国家博物馆、中国人民大学、百度文心大模型、百度百科联合出品的《80年,80件》智能体和3D文物词条正式上线
2025-10-01 10:00:00
新时达2025工博会圆满落幕 | STEP 2.0战略引领智能制造新篇章
2025年9月23日至27日,第二十五届中国国际工业博览会在国家会展中心(上海)盛大举行。新时达以"智拓无界 共创未来"为主题
2025-10-01 10:00:00