• 我的订阅
  • 科技

对标o1,Kimi放出了最能打的国产模型

类别:科技 发布时间:2024-11-19 09:50:00 来源:机器之心Pro

AI 领域正在经历新一轮技术范式的变化,预训练 Scaling Law 放缓之后,推理时间计算成为了新的性能提升关键。

两个月前,OpenAI o1 的诞生再次引领了大模型技术的突破。从后训练阶段入手,通过更多的强化学习、原生的思维链和更长的推理时间,o1 将大模型的能力又往前推了一步。

这段时间,国内大模型初创公司月之暗面的技术攻关经历了一场加速。

继 Kimi 探索版 10 月开放之后,这家公司在 11 月 16 日交上又一份答卷:Kimi 的最新一代推理模型 k0-math,在数学能力已实现对标 OpenAI o1-mini 和 o1-preview。

对标o1,Kimi放出了最能打的国产模型

这是 Kimi 推出的首款推理能力强化模型,k0-math 同样采用了全新的强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,大幅提升了解决数学难题的能力,可以帮助用户完成更具挑战性的数学任务 。

Kimi 创始人杨植麟表示,接下来 k0-math 模型会持续迭代,提升更难题目的解题能力,挑战数学模型的能力极限。同时,k0-math 数学模型和更强大的 Kimi 探索版,将会分批陆续上线 Kimi 网页版(kimi.ai)和 Kimi 智能助手 APP。

在 Kimi Chat 全量开放一周年之际,还有一个数字吸引了大家的注意:截至 2024 年 10 月,Kimi 智能助手在 PC 网页、手机 APP、小程序等全平台的月度活跃用户已超过 3600 万。

数学能力对标 o1,k0-math 的表现如何?

在多项基准能力测试中,k0-math 的数学能力可对标 OpenAI o1 系列公开发布的两个模型:o1-mini 和 o1-preview。

具体来说,在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中,k0-math 初代模型成绩超过 o1-mini 和 o1-preview 模型:k0-math 模型得分 93.8,o1-mini 为 90 分, o1-preview 为 85.5 分。k0-math 的成绩仅次于尚未正式上线的 o1 完全版的 94.8 分。

而在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

对标o1,Kimi放出了最能打的国产模型

常规模型的关键目标是尽快提供答案。与之不同,在做题过程中,k0-math 模型会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。k0-math 的解题思考过程,常常会让数学高手也受到启发。

以这道 AIME 竞赛题目为例,k0-math 模型通过不断探索和试错,经历了八九次失败,意识到自己之前用了过于复杂的方法,最终得出了正确结果。

对标o1,Kimi放出了最能打的国产模型

不过,需要注意的是,k0-math 模型虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答 LaTeX 格式难以描述的几何图形类问题。

此外,它还有一些局限性需要突破,包括对于过于简单的数学问题。例如「1+1=?」,k0-math 模型可能会过度思考。

「意图增强」等三大推理能力

注入 Kimi 探索版

新的强化学习技术范式带来的推理能力提升,也将会泛化到更多日常任务上。

在上个月推出的 Kimi 探索版中,月之暗面已将推理能力运用到 AI 搜索任务上,通过模拟人类的推理思考过程,多级分解复杂问题,执行深度搜索,并即时反思改进结果,帮助用户更高效地完成复杂的搜索调研任务。

据杨植麟介绍,基于强化学习层面的技术创新,Kimi 探索版已在三大推理能力上实现突破:意图增强、信源分析和链式思考。

意图增强:Kimi 探索版可以将抽象的问题和模糊的概念具体化,拓展用户的真实搜索意图。例如,当互联网产品经理调研某产品的用户忠诚度,Kimi 探索版会思考当用户搜索「忠诚度」时,本质上是想做数据的分析,然后找到可以体现忠诚度的维度,将这个比较模糊和抽象的概念,转化为更加具体的「活跃度、留存率、使用频率、使用时长」等关键词,然后通过机器更擅长的海量并行搜索,查找更全面和准确的答案。

信源分析:Kimi 探索版会从大量的搜索来源结果中,分析筛选出更具权威性和可靠性的信源,并且在答案中提供溯源链接,可一键定位信源具体出处,精确到段落级别,让条信息都有据可查。例如,在咨询顾问调查人群市场规模的场景,借助 Kimi 探索版查找中国不同年龄的人口占比情况时,Kimi 会筛选最权威和最新的人口普查报告信息。

链式思考:Kimi 探索版可以更好地基于思维链推理能力处理产品、公司、行业等研究问题。例如,当程序员做技术选型,想要了解「react 中有哪些状态管理库,最好用的是什么」。Kimi 首先会拆解问题,找到 react 的状态管理库有哪些,然后分别搜索每个状态管理库的优缺点、使用场景和推荐理由,最后分析总结找到的所有高质量信息,推荐一个最适合大多数情况的状态管理库和理由。

面向推理 Scaling Law 时代

在过去几年中,LLM 使用来自网站、书籍和其他来源的公开文本和其他数据进行预训练,但模型开发者基本上已经从这类数据中榨干了尽可能多的资源。

有研究预计,如果 LLM 保持现在的发展势头,预计在 2028 年左右,已有的数据储量将被全部利用完。届时,基于大数据的大模型的发展将可能放缓甚至陷入停滞。

对标o1,Kimi放出了最能打的国产模型

来源:论文《Will we run out of data? Limits of LLM scaling based on human-generated data》

好在以 o1 为代表的「推理 Scaling Law」成果,给大模型规模扩展 vs 性能的曲线带来了一次上翘。领域内认为,这让大模型领域重现了类似当年 AlphaGo 强化学习的成功 —— 给越多算力,就输出越多智能,一直到超越人类水平。

在这条赛道,不论海外的 OpenAI、谷歌,还是国内的月之暗面,都重新站在了全新的起跑线上。

当然,这种范式转变,首先加剧了科技公司之间的人才争夺。去年 7 月,德扑 AI 作者 Noam Brown 就加入 OpenAI,并在 o1 项目中发挥了至关重要的作用。近日,Anthropic 又从谷歌挖走了 AlphaGo 核心作者、强化学习大牛 Julian Schrittwieser。

对此,月之暗面是否有所准备?

「我们是很早看到这一点的。只不过在早期,预训练的很多红利还没有被充分发挥出来,所以可能更关注怎么通过预测下一个 Token 去压缩更多的智能,但关于强化学习,不管是在人才还是在技术的储备上,我们都有很早地去铺垫。」杨植麟表示。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-19 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...出现。想来想去,如此自信的原因可能在于最近人们让大模型学会了「推理」的方法。就在 9 月份,OpenAI 正式公开前所未有的复杂推理大模型 o1,这是一个重大突破,新模型既具
2024-11-28 10:00:00
...文转自:人民网-安徽频道4月20日,科大讯飞深度推理大模型——讯飞星火X1迎来全新升级。作为当前业界唯一基于全国产算力训练的深度推理大模型,升级后的星火X1在数学、代码、逻辑
2025-04-22 16:50:00
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...时间12月5日,OpenAI正式上线ChatGPT‍的o1和o1-Pro两个新的AI模型。其中o1模型实际上大家之前已经用过了
2024-12-11 20:12:00
大模型权威报告:讯飞星火得分第一
...息(记者徐鹏)《麻省理工科技评论》中国最新发布的大模型评测报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,在此次评
2023-08-18 09:35:00
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...、数字游戏等任务。这就是上海AI实验室版o1——强推理模型书生InternThinker,刚刚正式开放试用!新模型不仅在长思维能力方面有了很大提升,而且还能在推理过程中进行自
2024-11-29 09:27:00
对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
...息,日前,国内人工智能公司月之暗面推出的Kimi国产大模型正式发布k0-math。k0-math是Kimi推出的首款推理能力强化模型
2024-11-18 08:22:00
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleC
2024-09-30 09:50:00
零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新
...机器之心编辑部在 OpenAI 发布会的前一天,来自中国的大模型公司零一万物,让开源大模型社区活跃了起来:Yi 大模型家族新成员「Yi-1
2024-05-14 09:56:00
科大讯飞联手华为首次攻克全国产算力下推理模型训练难关
...科大讯飞发布了当前全国产算力平台上唯一的深度推理大模型——讯飞星火X1。该模型中文数学能力国内第一,并率先应用于教育、医疗等刚需场景。同时,讯飞星火4.0 Turbo底座能力
2025-01-15 15:07:00
更多关于科技的资讯:
木里木外x Designwire设计腕儿 《心居未来·豪宅艺术与生活方式》趋势论坛圆满举行
智能高定探索美好关系,2025年10月22日,木里木外·故宫·源邸迎来了一场思想与美学的盛宴。以“心居未来·豪宅艺术与生活方式”为主题的趋势论坛论坛在此隆重启幕
2025-11-03 14:31:00
以 AI 科技赋能中超 ,铸强品牌区域影响力
鲁网11月3日讯2025年2月22日,联想集团与中国足球职业联赛联合会正式达成战略合作,成为中超联赛官方合作伙伴,以全栈 AI 技术为核心为联赛注入科技活力
2025-11-03 14:37:00
中新经纬11月3日电 据“北京市场监管”微信号3日消息,京津冀三地市场监督管理部门联合发布“双十一”消费提示和平台合规指导
2025-11-03 15:00:00
第26届金牌服务季战略升级,金牌家居赋能装企决胜“品质交付”
10月29日上午,金牌服务季——“品质交付”装企交付保障誓师大会在金牌家居总部研发大楼隆重举行,金牌家居总裁潘孝贞、轮值执行副总裁陈少华等多位领导出席
2025-11-03 15:01:00
近日,致力于智慧、安全、健康和可持续建筑解决方案的全球性企业江森自控宣布推出EasyIO Neo Series楼宇自动化系统的新版本
2025-11-03 15:01:00
远大生命科学与图灵量子共建AI赋能平台|量子智能重塑GUTX益次方研发范式
近日,远大生命科学有限公司(以下简称“远大生命科学”)与图灵量子正式签署战略合作协议,双方将共同建设“益生菌数据库及量子AI赋能系统”
2025-11-03 15:01:00
2025世界物联网博览会|思特奇全栈物联能力筑基万物智联
10月31日,2025世界物联网博览会(2025WIOT)已在无锡市太湖国际博览中心盛大启幕。作为国内领先的数字化转型与智能化服务提供商
2025-11-03 15:09:00
2025年优质少儿编程教育机构:妙小程少儿编程-赛事出口+精准匹配!
在少儿编程教育领域,家长选择机构时通常会围绕课程体系的科学性、教学模式的适配性、竞赛支持的实用性及师资团队的稳定性展开考量
2025-11-03 15:10:00
2025年51Talk口碑好:收费透明+约课便捷+系统稳定!
在为孩子选择在线英语课程时,很多家长都会关心课程的收费价格是否合理、能否长期坚持。作为2011年成立、2016年在美国上市的首家中国在线教育企业
2025-11-03 15:12:00
张朝阳谈物理课开讲四周年:人生任何阶段都可以学习
11月2日14:00,搜狐创始人、董事局主席兼首席执行官、物理学博士张朝阳携《张朝阳的物理课》四周年特别直播如约而至。以“以矢量微积分的精神表达微分几何”为主题
2025-11-03 15:31:00
无人车配送场景再“上新”,顺丰同城携手收钱吧推出无人车校园餐配
近日,国内规模最大的第三方即配平台顺丰同城与数字化门店综合服务商收钱吧达成合作,联合在四川汽车职业技术学院推出无人车校园智能餐配服务
2025-11-03 15:31:00
鲁网11月3日讯近日,山东省地矿局第七地质大队与之江实验室科学数据枢纽研究中心,聚焦AI技术与地矿行业的深度融合,通过视频会议形式召开专题交流会
2025-11-03 15:47:00
携手何泓姗创意直播,容声冰箱以“鲜净”引领储鲜新观念
鲁网11月3日讯10月31日,容声冰箱在长沙京东MALL打造了一场别开生面的“快闪+直播”品牌事件。活动邀请了在《如懿传》中饰演“小琵琶精”白蕊姬的知名演员何泓姗作为“超级用户”
2025-11-03 15:50:00
三联家电11.11全城狂欢节启幕:家电迎最佳入手时机
鲁网11月3日讯随着冬季临近,消费者对家电的需求日益旺盛。即日起至11月11日,三联家电“11.11全城狂欢节”正式开启
2025-11-03 15:51:00
海信冰箱首创磁吸光幕门板,破解高端家电美学与功能兼容难题
鲁网11月3日讯日前,家电行业迎来一项标志性创新——深耕市场多年的海信冰箱正式推出了全球首创的磁吸光幕门板,并成功入围2025国际CMF设计奖
2025-11-03 15:52:00