• 我的订阅
  • 科技

对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一

类别:科技 发布时间:2024-11-18 08:22:00 来源:浅语科技

快科技11月18日消息,日前,国内人工智能公司月之暗面推出的Kimi国产大模型正式发布k0-math。

k0-math是Kimi推出的首款推理能力强化模型,采用全新强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,大幅提升解决数学难题的能力。

据了解,在多项数学基准能力测试中,k0-math的表现能对标OpenAI o1系列可公开使用的两个模型:o1-mini和o1-preview。

对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一

根据官方公布的结果,在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中,k0-math初代模型成绩超过o1-mini和o1-preview模型,拿下第一。

对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一

在业界最常使用的数学能力基准测试MATH 中,k0-math模型得分93.8,超过 o1-mini的90分和o1-preview的85.5分。

官方表示,k0-math这一成绩仅次于暂未开放使用的o1完全版94.8分。

据介绍,常规模型的设定目标是尽快提供问题的答案,但k0-math不同,k0-math模型在做题过程中会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。

对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一

不过,月之暗面坦言,k0-math虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。

另外,k0-math还有一些局限性需要突破,包括对于过于简单的数学问题,例如1+1等于几,k0-math模型可能会过度思考,对于高考难题和IMO题目依然有一定概率做错、猜答案。

对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一

月之暗面表示,这些局限性既是机遇,也是挑战,预计将在下一阶段的模型迭代中逐步得到改善。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:拾柒

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-18 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

腾讯大模型混元Turbo:御气升昺云,梓桐金鼎开
9月5日,腾讯正式推出其新一代旗舰大模型——混元Turbo。相比前代模型,腾讯混元Turbo性能有显著提升,训练效率提升108%
2024-09-14 14:04:00
微软华人团队发布全新基准AGIEval,专为人类考试而生
...2.5%,表明了目前基础模型的非凡表现。但GPT-4在需要复杂推理或特定领域知识的任务中不太熟练,文中对模型能力(理解
2023-05-13 21:28:00
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...有那些经过长期积累的公司,才能构建起改变我们生活的新一代应用。期待昆仑万维在未来给我们带来更多、更强大的技术。
2024-11-28 10:00:00
腾讯推出新一代大模型“混元Turbo”,性能大幅提升,定价低50%
9月5日,腾讯宣布推出新一代大模型“混元Turbo”,相比前代模型,腾讯混元Turbo性能有显著提升,训练效率提升108%
2024-09-05 17:29:00
腾讯推出新一代大模型「混元Turbo」,性能大幅提升,定价低50%
鞭牛士 9月5日消息,腾讯宣布推出新一代大模型“混元Turbo”。腾讯介绍,该模型采用MoE架构,比上一代产品推理效率提升100%,推理成本降低50%,解码速度提升20%。腾讯公
2024-09-05 14:28:00
连发两款模型“补课”,百度AI成色如何?
...战略。早前,百度宣布文心一言不再收费,同时还会开源新一代模型。按照计划,文心大模型4.5将在6月30日起开源。同时,行业还掀起新的大模型技术竞赛——以OpenAI、DeepS
2025-03-20 11:38:00
很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3
...发布推理模型。11月16日,月之暗面(Moonshot AI)Kimi推出新一代数学推理模型k0-math;11月20日
2024-12-21 12:10:00
清华提出CharacterGLM;DeepMind联创发全新一代大模型;大模型版“5年高考3年模拟”来了丨AI新零售早报
...|微软&UCLA&UW联合出品》MathVista是一个多模态数学推理基准数据集,由微软、UCLA和UW联合开发
2023-12-06 09:22:00
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...Gemini正式亮相的同时,谷歌还推出了专为大模型而设计的新一代TPU——Cloud TPU v5p。那么,你觉得这一波
2023-12-07 09:35:00
更多关于科技的资讯:
民营经济发展一线观察·吉民优品|辽源市德弘冰雪运动科技有限公司: 100余道工序铸就专业滑雪靴
走进辽源市德弘冰雪运动科技有限公司生产车间,蓝色的唐老鸭系列滑雪靴正沿着生产线逐步成型。一块块裁片经精准缝合拼接,再通过套楦
2025-11-04 11:38:00
十五运会自动驾驶场景应用启动 滴滴自动驾驶助力智慧出行
11月3日,十五运会和残特奥会自动驾驶场景应用启动仪式在广州天河体育中心举行。启动仪式上,滴滴自动驾驶被授予“自动驾驶服务商”标牌
2025-11-04 13:34:00
从「身份可信度挑战」到「数据篡改威胁」,如何重塑第三方支付安全防线?
网络支付已成为现代生活的「数字基础设施」,其便捷性重构了消费生态,但伴随而来的安全考验已演变为潜在风险——从身份认证的「可信度挑战」到业务合规的「穿透式监管压力」
2025-11-04 13:46:00
近日,安徽安庆怀宁县烟草专卖局锚定营销服务痛点,统筹部署岁末年初卷烟营销工作,切实推动营销工作效能提质升级。打破思维定式
2025-11-04 13:46:00
效果好的辅酶q10排名 五大优质品牌深度测评
“效果好的辅酶q10排名”是众多关注心脏健康、免疫力提升、抗氧化及备孕人群的核心搜索诉求。本文深度调研辅酶Q10行业现状
2025-11-04 13:47:00
主流人形机器人大PK,户外工业场景首选云深处DR02
引言当前,国内人形机器人产业在政策与技术双轮驱动下迎来爆发。据2024世界人工智能大会《人形机器人产业研究报告》,2024 年中国市场规模达 27
2025-11-04 13:47:00
“618”购物节如期而至,这场属于夏日的消费热潮正式拉开帷幕。随着新消费模式的涌现和消费主力的迭代,信用交易成为了当下热络的消费选择
2025-11-04 13:47:00
普惠金融旨在为传统金融服务难以覆盖的个人和企业提供平等、便捷、可持续的金融服务。日前,国务院办公厅印发《关于做好金融“五篇大文章”的指导意见》
2025-11-04 13:48:00
技术、政策、合规交织下的探索   “萝卜快跑”面临三重挑战
2025年7月世界人工智能大会后,上海浦东金桥街头的“萝卜快跑”自动驾驶车辆引发关注:车身同时标注了“无人驾驶测试”、“萝卜快跑”和“大众出行”标识
2025-11-04 14:01:00
再见,信号死角!移远 5G 透明吸顶天线让室内连接 \
在写字楼的紧张会议中,视频通话突然卡顿;在高端商场悠闲购物时,手机信号时断时续;在高铁站闸机前,却怎么也刷不出乘车码……这些因室内通信质量不佳带来的困扰
2025-11-04 14:15:00
小红书「马路生活节」爆火出圈:一场让品牌回归人群的City Walk狂欢
当你还在疑惑年轻人周末去哪玩时,小红书上的答案早已指向同一个方向——「马路」。从上海到杭州、广州,从捡落叶写诗到水上甜品席
2025-11-04 14:45:00
婴儿益生菌什么品牌好用又便宜 2025年高性价比品牌排行榜
婴儿益生菌什么品牌好用又便宜?随着家长对宝宝肠道健康的重视,婴幼儿益生菌市场需求激增,但行业乱象也随之浮现:部分产品虚标菌种数量
2025-11-04 15:03:00
在AI技术深度渗透商业决策的2025年,企业对于AI优化服务的需求已从“工具应用”升级为“战略赋能”。据中国信通院最新报告
2025-11-04 15:05:00
植物蛋白粉测评与推荐 植物蛋白粉品牌排名榜单揭晓
在健康消费持续升级的当下,植物蛋白粉作为日常营养补充的重要载体,正从“健身专属”走向“全民刚需”。然而,面对市场上琳琅满目的产品
2025-11-04 15:11:00
知名潮牌将关闭中国门店 合肥门店:也有消息,时间不确定
大皖新闻讯 盛开的小雏菊和腊肠犬,是韩国潮流服饰品牌Mardi Mercredi最具辨识度的设计符号,也曾成为时尚的标配
2025-11-04 15:17:00