• 我的订阅
  • 科技

重磅!OpenAI o1模型还没有实现真正的逻辑推理能力

类别:科技 发布时间:2024-09-18 15:01:00 来源:新浪财经

一、o1系列模型概况

9月13日OpenAI宣布发布o1系列模型,o1系列模型包括o1、o1-mini以及抢先版o1-preview,o1-preview和o1-mini模型已经可以使用。OpenAI宣布,“新模型在推理能力上代表了人工智能能力的新水平,因此,计数器将重置为1”。

根据OpenAI的自测,o1在竞赛编程问题(Codeforces)中排名第89个百分点,在美国数学奥林匹克竞赛(AIME)预选赛中位列美国前500名学生之列,并且在物理、生物和化学问题的基准测试(GPQA)中超过了人类博士水平的准确度。

OpenAI团队上下对o1模型充满了信心,OpenAI的CEO 山姆·奥特曼在社交媒体上表示:“需要耐心等待的时刻结束了!”、“这是我们至今为止最强大、最一致的一系列模型。“。

根据OpenAI的公开文档,o1主要利用了强化学习和思维链两种技术。首先,利用强化学习技术,通过奖惩训练o1自行寻找答案,o1会尝试不同的策略,发现自己的错误,并修改策略;其次,在解答问题时,再采用思维链技术,将复杂问题分解为多个连续关联的简单问题,类似于人类逐步解决问题的方式。

重磅!OpenAI o1模型还没有实现真正的逻辑推理能力

这使得o1的训练方式与之前的AI模型有着根本不同,OpenAI使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练,包括“推理数据”和专门为其量身定制的科学文献。

OpenAI发现,o1 模型通过训练时和测试时,准确性会随时间平稳提高,思考越久质量越高,安全性越高。借助新的训练方法,o1模型会更加准确,AI幻觉问题减少,但依然存在,而且通过对上下文的关联分析,获得了更高的“越狱测试”分值。

重磅!OpenAI o1模型还没有实现真正的逻辑推理能力

而且在绝大多数这些推理密集型任务中,比如数学计算、代码编程,以及测试化学、物理和生物学专业知识的基准GPQA-diamond上,o1 系列模型的性能均明显优于 GPT-4o。

重磅!OpenAI o1模型还没有实现真正的逻辑推理能力

根据OpenAI公布的信息,o1系列模型的特长并不相同,从数学能力看,o1最强,其次是o1-mini,最后是o1-preview,从成本看,o1最高,其次是o1-preview,最便宜是o1-mini。o1擅长准确生成和调试复杂代码,o1-preview具有较强的推理能力和广阔的世界知识,o1-mini速度更快、比o1-preview便宜80%的推理模型,在编程方面尤其高效。

重磅!OpenAI o1模型还没有实现真正的逻辑推理能力

但o1系列模型在关于世界的事实知识方面总体表现不佳,甚至不如GPT-4o等之前模型,需要更长时间、更高成本来回答问题,目前也缺乏从网络收集实时信息的能力,更易产生幻觉。

二、社会评测与同行水平

社会评测普遍认可o1 系列模型的逻辑推理能力优于 GPT-4o,但也有很多人提出了不同看法。

差评XPIN邀请了理综三科的博士测评,物理评价较高,而生物、化学评价较低,综合认为o1在认知上达到硕士水平,但创造力上仍远远达不到硕博水平。

文章地址:https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_9103761019903209191%22%7D&n_type=1&p_from=4

APPSO认为o1做题能力强,但复杂的生活场景推理仍不尽如人意。

文章地址:https://m.huxiu.com/article/3465156.html

每日经济新闻通过评测发现,o1在经典草莓测试、代码编写、小游戏制作、数学与经济学表现出色,对事实性知识与语言理解上表现反而不如GPT-4o。

文章地址:https://baijiahao.baidu.com/s?id=1810084250835787270&wfr=spider&for=pc

赛博禅心从o1输出语言风格分析,认为 o1“与其说是模型优化,不如说是工程优化”。

文章地址:https://www.sohu.com/a/808623091_121124377

此外,在o1发布之前,谷歌AI研究实验室DeepMind在7月底宣布,其AI系统在今年国际数学奥林匹克(IMO)中首次取得与银牌得主同等的成绩, Anthropic在 6月推出了Claude 3.5 Sonnet模型,在推理、编码等测试中的得分也超过了GPT-4o,竞争对手的AI模型与o1差距并不远。

重磅!OpenAI o1模型还没有实现真正的逻辑推理能力

三、AlphaGo模型借鉴

OpenAI并没有公布oI的模型特征,只公布了利用了强化学习和思维链两种技术,思维链是由谷歌在2022 年提出,oI是第一个实现的,这是将复杂问题简化的方法。

但最为重要的是强化学习技术,强化学习的前驱是DeepMind的AlphaGo。

AlphaGo以前的围棋算法采用的是蒙特卡洛树搜索,试图利用计算机的算力优势进行海量模拟试错,但围棋人工智能也只能战胜业余棋手。

AlphaGo的成功取决于开发出了价值网络,将价值网络、策略网络和蒙特卡洛树搜索组合在一起,策略网络是指预测可能走法的概率分布,价值网络是指估计游戏状态的价值,蒙特卡洛树搜索是游戏树的核心搜索算法。

对于围棋而言,搜索的复杂度取决于搜索空间的宽度(每步的选择多寡)和深度(博弈的步数),围棋棋面有361个点,平均宽度约为250,深度约为150,AlphaGo用价值网络(value network)消减深度,用策略网络(policy network)消减宽度,利用局面评估函数,极大地缩小了蒙特卡洛树的搜索范围,提高了算法的成功概率。

AlphaGo用了一个13层的深度卷积神经网络来训练价值网络和策略网络,将棋盘每个位置编码48种经验特征,通过“自我对战”来进行深度学习,识别每个位置的隐含特征,积累了2000万盘高质量对局作为大数据基础。

机器学习的优点是通过人力所无法企及的海量运算,把人类说不清楚的复杂逻辑训练出来,放在多层神经网络海量系数里,以此改善价值网络、策略网。

此外,AlphaGoV18算力也有了极大提升,在以4:1胜李世石比赛中,使用的分布式机器有1202个CPU和176个GPU。围棋人工智能的算法、算力均获得了大幅提升,从而战胜了人类最高水平的棋手。

三、oI模型分析

oI必定会像AlphaGo那样设立目标,给出胜负规则,然后才能通过奖惩训练o1,o1才能通过蒙特卡洛树搜索,发现高价值答案,从而修改策略,不断自我积累与改进。

从数学、物理、化学、生物等学科看,oI在数学、物理等学科上,目标与胜负规则设定较为简单、明确,因此o1相比GPT-4o进步明显,但在化学、生物等学科上,目标与胜负规则设定相对较为复杂、模糊,因此训练成绩相对没有那么突出。这可能与‌化学、生物需要大量知识点的理解有关,o1在对事实性知识与语言理解上表现不如GPT-4o。

虽然AlphaGo可以在围棋比赛中战胜人类冠军,人工智能可以在大规模图像识别和人脸识别超越了人类的水平,人工智能系统诊断皮肤癌可以达到专业医生水平,但都是在需求明确、边界清晰、逻辑简单的前提下,也就是概念模型较为简单的前提下,人工智能可以利用算力优势超过人类,但当时人工智能在复杂逻辑推理、抽象概念理解上,还存在明显的局限性。

数学、物理和围棋虽然都强调逻辑思维,但侧重点不同。围棋侧重于空间布局和策略选择。数学、物理的基本概念和公理构成了一个演绎系统,通过这些基本元素推导出复杂的定理和公式,定理和公式具有唯一性和确定性。围棋中的走法往往有很多种可能性,数学、物理题的解法虽然也存在有多种可能,但在策略网络的宽度、价值网络的深度选择上要大大少于围棋,所以数学、物理的深度学习难度并不比围棋高。

数学、物理题的真正难点在于以数据驱动的暴力策略无法模拟人类的常识推理,比如向AI提问“如果一根香蕉重0.5磅,而我有7磅香蕉和9个橙子,我总共有多少个水果?“具有小学文化的人可以算出答案是23个水果。AI却回答:“你有16个水果、7根香蕉和9个橙子。” AI没有建立出对概念的精确认知,导致了数字的简单堆积。

o1的新训练数据集必定包括了精确的科学文献数据,与专业的推理数据,从而大大增强了o1的常识推理能力,因此才能在逻辑推理能力上胜过了GPT-4o。

重磅!OpenAI o1模型还没有实现真正的逻辑推理能力

四、oI模型的内在缺陷

但OpenAI o1的强化学习还没有实现真正的逻辑推理能力,逻辑推理能力是一种根据事物概念的内涵、外延与发展变化,推理出事物之间逻辑关系的能力,拥有真正的逻辑推理能力其实并不需要太多算力进行暴力计算。

o1通过奖惩训练进行大量强化学习,说明其虽然通过科学文献数据与推理数据,提升了AI的常识推理能力,但仍不足以建立AI对事物概念的内涵、外延与发展变化的准确认知,还需要通过大量具有目标、奖惩规则的学习进行修正,如果脱离了这些目标、奖惩规则,AI无法基于这些训练出来的逻辑在另一个领域进行准确的逻辑推理,这其实是“AI逻辑假象”,AI并没有准确认知事物背后的逻辑,只是通过大量学习构建出了已知领域事物的固有逻辑关系,而其他领域难以照搬与应用这些逻辑关系。

其实o1模型只是掌握已知领域事物固有逻辑关系的解题家,而非掌握普适逻辑能力的逻辑家!

《聚势:开创全球科技、商业、经济新趋势》即将上市,推演未来500年人类命运,重构人类战略,站在无尽的时间长河之上,以未来的眼光,穿透当今全球社会的重重迷雾,直面本质。更多精彩内容,敬请期待!

本文图片来自于网络与AI作图。

重磅!OpenAI o1模型还没有实现真正的逻辑推理能力

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-18 18:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...一在今年5月的 OpenCampass 测试榜单中,TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一
2024-09-30 09:50:00
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...一代“天工2.0”MoE大模型,“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,
2024-04-01 19:56:00
不止反击,谷歌在AI群隔空@所有人
...的一个代表大模型,其功能的强大已无需赘言,尤其是在逻辑推理和数学表现层面。但据谷歌的官方测试,PaLM2的部分结果(例如数学)比GPT-4还要好。谷歌称,对PaLM2做了算法
2023-05-11 23:00:00
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...始在一些权威评测中取得领先。今天,国内首款具备中文逻辑推理能力的 o1 模型来了,它便是由昆仑万维推出的「天工大模型 4
2024-11-28 10:00:00
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等
2024-03-15 10:41:00
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...度30个二级维度。报告称SenseChat-Vision 5.5在基础能力-数理逻辑推理任务如图表推理、场景推理方面具备领先优势
2024-10-14 13:34:00
图灵奖得主杨立昆:AI的逻辑推理和规划能力有限,会犯事实错误和逻辑错误
...”杨立昆表示,人工智能距离人类和动物的能力差距在于逻辑推理和规划,这是智能的重要特征,现在的大模型只能“本能反应”。“如果你用一万亿或两万亿个token来训练它们,机器的性能
2023-06-10 05:00:00
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...竞赛不仅是对人类(碳基智能)思维敏捷性、知识掌握和逻辑推理的极限挑战,更是AI(“硅基智能”)锻炼的绝佳练兵场,是衡量AI与“超级智能”距离的重要标尺。OlympicAren
2024-06-25 09:45:00
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度的影响,表现出类似的错误倾向。研究背景人类在推理过程中存在两种系
2024-08-19 13:49:00
更多关于科技的资讯:
通讯员 程瑶近日,在泰安市大数据局、泰安市财政局、国家金融监督管理总局泰安监管分局、泰安市直多部门举办的2025年“数据要素×”大赛山东分赛泰安市选拔赛中
2025-10-18 19:58:00
通讯员 王靓婧随着AI技术与柜台业务深度融合,建行的AI助手正以“智能搭档”的角色,为柜员减负、提效、赋能,重新定义线下金融服务的专业与温度
2025-10-18 19:23:00
探访南昌红谷滩商业新活力:首店经济亮眼,TOD模式引潮
大皖新闻讯 2025世界VR产业大会召开在即,南昌市红谷滩区委宣传部以“活力红谷滩 智启新未来”为主题组织媒体行活动。媒体团深入辖区标杆商业体
2025-10-18 19:18:00
Kiwa为“腾越电子”颁发MID认证证书,叩响欧盟市场新篇章
国际权威检测、检验及认证(TIC)服务商Kiwa,于不久前正式向连云港腾越电子科技有限公司(全文简称为“腾越电子”)颁发欧盟CE认证MID证书
2025-10-18 18:44:00
南报网讯(通讯员胡晓靓记者夏思宇)走进南京绿叶制药有限公司制冷站,冷水机组、冷冻水泵、冷却水泵、冷却塔等设备稳定运转,维持药品生产GMP车间的恒温恒湿环境
2025-10-17 08:13:00
聚焦2025中国国际数字经济博览会•现场|打卡数字展馆 体验未来生活
10月16日,2025中国国际数字经济博览会展区工作人员在调试机器人。 河北日报记者 史晟全摄借助VR设备沉浸在古城往事中
2025-10-17 08:23:00
我从事科技研发工作,出生在一个三代从商的家庭。我的祖父是一名民营企业家,在枣强县这片土地上开启了玻璃钢产业创业之路;我的父亲骑着一辆摩托车闯荡天津
2025-10-17 09:11:00
博物馆“抢票”成第一关,中轴线打卡、汉服妆造让历史游玩出沉浸新花样……音乐节、演唱会与国际顶级体育赛事一票难求,“为一场演出赴一座城”成为常态
2025-10-17 09:15:00
新闻纵深·县域特色产业新力量|借力京津,机器人产业双链融合
阅读提示唐山市高新技术产业开发区在机器人新赛道上频频发力,已形成以工业机器人为引领、特种机器人为亮点、服务机器人为特色
2025-10-17 09:19:00
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新最近在金华街头,不少人注意到一组频繁穿梭的出租车广告:“住旭客民宿
2025-10-17 09:25:00
AI EMPOWERS ALL丨神州泰岳亮相中国移动全球合作伙伴大会
碳硅共生,合创AI+时代——第13届中国移动全球合作伙伴大会于今日在广州保利世贸博览馆盛大启幕。神州泰岳作为中国移动长期重要合作伙伴
2025-10-17 09:25:00
内容觉醒·生态共创 | 2025瑞派短视频大赛职人组培训圆满落幕
金秋时节,硕果盈枝。由瑞派股份市场营销中心倾力打造的“2025年度瑞派短视频大赛职人专属赛道培训”在热烈氛围中圆满收官
2025-10-17 09:55:00
市场销售疲软,高档卷烟销售增速放缓,中低档卷烟却因消费需求旺盛出现供应紧张的问题,这是当前卷烟销售工作面临的瓶颈。受计划经济体制影响
2025-10-17 10:02:00
浪潮科技三款平台产品或升级认可
近日,山东省工业和信息化厅公布了拟入选第九批山东省首版次高端软件产品公示名单。浪潮科技研发的“焱宇行业大模型服务平台 V1
2025-10-17 10:03:00
旅服会媒体开放日:全产业链盛会引关注
16日,由中国旅行社协会、中国旅游集团主办的2025首届国际旅行服务大会暨交易展(以下简称“旅服会”)迎来媒体开放日。来自30余家主流媒体
2025-10-17 10:04:00