• 我的订阅
  • 财经

又慢又贵?OpenAI推理模型“草莓”来了,GPT-5还有多远

类别:财经 发布时间:2024-09-13 15:28:00 来源:澎湃新闻

OpenAI的“草莓”终于来了。

当地时间9月12日,人工智能(AI)巨头OpenAI发布代号“草莓”的AI推理模型OpenAI o1系列,包括OpenAI o1-preview以及小版本的o1-mini。

据OpenAI介绍, o1会花更多时间思考问题,然后再做出反应,就像人一样。通过训练学会了完善自己的思考过程,尝试不同的策略,并认识到自己的错误。与以前的科学、编码和数学模型相比,可以推理复杂的任务,解决更难的问题。

又慢又贵?OpenAI推理模型“草莓”来了,GPT-5还有多远

OpenAI表示,该系列模型对于复杂的推理任务来说是一个重大进步,因此也将产品计数器重置为1,并命名为OpenAI o1。该名称中的“o”或指代Orion(猎户座)。

推理能力更强,思维链提供模型安全新机会

“草莓”项目此前名为“Q*”,也正是引发OpenAI“宫斗”并导致公司CEO山姆·奥特曼(Sam Altman)曾被突然解职的原因。彼时,据消息人士称,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)曾告诉员工,一封关于Q*(发音为 Q-Star)AI取得突破的信件促使董事会采取了解雇行动。

OpenAI在Q*上取得的进展,让部分公司内部人士相信,这可能是他们找到“超级智能(即AGI,通用人工智能)”的突破。

根据官方给出的信息,o1多项能力远超GPT-4o。在编程竞赛题(Codeforces)中排名第89位,在美国数学奥林匹克预选赛(AIME)中跻身全美前500 名学生行列,在物理、生物和化学问题(GPQA)基准测试中的准确率也超过了人类博士生水平。

据介绍,类似于人类在回答一个难题前可能会思考很长时间,o1在尝试解决问题时也会使用一连串的思考。通过强化学习,o1可以学会磨练自己的思维链,完善自己使用的策略。它学会识别和纠正错误、把棘手的步骤分解成更简单的步骤、在当前方法无效时尝试不同的方法。

OpenAI表示,使用思维链能显著提高安全性和一致性,因为能够以清晰的方式观察模型的思维,且模型对安全规则的推理对分布外场景也更加稳健。

商汤科技董事会执行主席兼CEO徐立此前曾表示,未来决定一个模型聪不聪明,完全在于构造模型思维链数据的方法论是否足够强,并且这一足够强的方法论能够可持续并且迭代。

又慢又贵?OpenAI推理模型“草莓”来了,GPT-5还有多远

OpenAI o1的原始完整思维链部分截图

不过,OpenAI最终选择不向用户展示原始思维链,而是展示思维链摘要。OpenAI进一步解释称:“隐藏的思维链为监测模型提供了一个独特的机会。假设模型是忠实可读的,那么隐藏的思维链就能让我们‘读懂’模型的思想,了解它的思维过程。例如,将来可能希望监控思维链,以发现操纵用户的迹象。但是,要做到这一点,模型必须能够以不改变的形式自由表达自己的想法,因此我们不能在思维链上训练任何政策遵从或用户偏好。我们也不想让用户直接看到不一致的思维链。”

目前,ChatGPT的Plus和团队用户可以使用o1两款模型,企业和教育用户将从下周开始可以使用。

更慢却更贵,并非GPT-4o“继任者”

目前,o1-preview的每周消息限制为30条,o1-mini为50条。OpenAI称正在努力提高消息上限,并让ChatGPT能够根据给定的提示自动选择合适的模式,也将访问权限扩展到更多层次的用户,计划为所有免费用户提供o1-mini的访问权限。

而在API( 应用程序编程接口)端,o1-preview每100万输入tokens(大模型将文本分解成单词、字符集或单词和标点符号的组合)收费15美元,每100万输出tokens收费60美元。与GPT-4o 相比,输入成本是其3倍,输出成本是其4倍。

o1-mini则定位速度更快、成本效益更高,据称在数学和编程方面的表现也较为出色,在AIME和Codeforces等评估基准上几乎与o1性能相当,可作为o1-preview的替代方案,具有更高的速率限制和更低的延迟,API用户使用o1-mini的价格比o1-preview便宜80%。

其他弊端也显而易见,OpenAI o1的速度比其他模型更慢。据外媒报道,o1回答某些问题可能需要10多秒钟,该模型会选择通过显示当前正在执行的子任务的标签来显示进度。

同时,鉴于生成式人工智能模型的不可预测性,o1可能还有其他缺陷和局限。例如有时会在井字游戏中出错。在一篇技术论文中,OpenAI表示一些测试人员传言称o1比GPT-4o 更容易产生幻觉,当它不知道问题的答案时,也不太愿意承认。

此外,o1目前也无法浏览网页或分析文件。

奥特曼坦言,o1是OpenAI目前能力最强、最对齐的一系列模型,不过仍有缺陷。

OpenAI总裁格雷戈里·布罗克曼(Greg Brockman)也表示,目前o1技术仍处于早期阶段,OpenAI正积极探索,包括可靠性、幻觉和对抗攻击者的鲁棒性(稳定性)。

OpenAI表示,作为一个早期模型,OpenAI o1还不具备使ChatGPT变得有用的许多功能,如浏览网络信息、上传文件和图片等。对于许多常见情况,GPT-4o 在短期内会有更强的能力。后续会进行定期更新和改进,“让这个新模型与当前模型一样易于使用的工作仍在进行中”。

OpenAI强调,OpenAI o1并不是GPT-4o的“继任者”,可以将4o与o1的推理功能结合使用,在o1系列之后还计划继续开发和发布GPT系列模型。

又慢又贵?OpenAI推理模型“草莓”来了,GPT-5还有多远

OpenAI o1与GPT-4o多项基准测试对比

值得一提的是,此前据外媒报道,OpenAI或正考虑给“草莓”大模型或下一代旗舰模型制定更高的收费标准,最高或将达到每月2000美元。作为对比的是,目前ChatGPT Plus的收费标准是每月20美元。

动荡不安的OpenAI,GPT-5何时到来?

据外媒报道,穆拉蒂表示,目前正在构建下一代主模型GPT-5,该模型将比其前身大得多。尽管该公司仍然相信规模将有助于从人工智能中挖掘出新的能力,但GPT-5很可能还会包括本次推出的推理技术。

“有两种范式。”穆拉蒂表示,“缩放范式和这种新范式。我们希望将它们结合在一起。”

GPT-5的开发之路并不好走。

就在当地时间9月11日,GPT-4o/GPT-5的研究领导人、OpenAI版“Her”技术负责人亚历克西斯・康诺(Alexis Conneau)突然宣布离职。而此前,OpenAI联合创始人、首席科学家伊尔亚·苏茨克韦(Ilya Sutskever),“超级对齐”团队负责人杨·莱克(Jan Leike),联合创始人约翰·舒尔曼(John Schulman),ChatGPT负责人Peter Deng等人都已先后离职……目前,11位创始人中,仅剩两人仍留在OpenAI。

不仅人事动荡,OpenAI还被曝出今年或将面临50亿美元的收支缺口。

但可以看到的是,OpenAI已经在行动。

OpenAI最新计划再融资约65亿美元,该轮融资估值达到1500亿美元。而就在上个月底,OpenAI被曝正在准备新一轮由风投公司Thrive Capital领投,微软、苹果、英伟达或跟投的10亿美元融资时,估值才刚超过1000亿美元。

当地时间8月29日,OpenAI表示ChatGPT目前每周活跃用户超过2亿,是去年秋季的两倍。

OpenAI表示,92%的财富500强公司都在使用该公司的产品,自7月推出ChatGPT-4o mini以来,其API的使用量翻了一倍。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-13 17:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
... OpenAI 在大语言模型领域的新尝试,也可能是对人工智能推理能力一次新的革命性提升。根据目前流出的信息来看,相比以往的 GPT 模型,「草莓」在处理复杂问题、执行多步骤任
2024-09-12 09:49:00
对着3个中国AI大模型,两个美国科技界大佬深聊了半小时
...前AI行业快速发展,竞争也越来越激烈,特别是各种高级推理模型之间的竞争。过去一段时间,中国科技公司陆续发布了3款自研的AI模型
2024-12-04 09:48:00
专注于推理的OpenAI“草莓”模型两周内发布?是人工智能下一重大突破
...“秋季发布”(9月至11月)要更早。上述报道称,专注于推理能力的人工智能“草莓”发布前后还有一些亟待解决的问题,但看似“仓促上马”似乎说明OpenAI感受到了大语言模型驱动产
2024-09-11 09:55:00
超强AI来袭!OpenAI最新AI模型 “草莓”即将上线,推理能力惊艳
...但其实这个模型的能力可不容小觑,它能够通过多步骤的推理解决复杂的问题。根据《信息》网站的报道,“草莓” 模型将视为一种推理模型,这意味着它能够处理一些需要多步骤来完成的请求,
2024-09-12 10:02:00
消息称OpenAI计划两周内发布新AI模型“草莓” 专注于推理
...于之前的预期。根据之前的报道,“草莓”是一款专注于推理的AI产品,预计于今秋发布。但这两位测试过该模型的人士称,OpenAI计划在未来两周内发布“草莓”。当然,最终的日期也可
2024-09-11 09:50:00
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...小尺寸版o1-mini。OpenAI官方发文称,新模型旨在解决复杂推理问题,训练模型在响应之前花更多时间思考,类似于人类的思考方式
2024-09-13 16:44:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题
2024-09-13 16:42:00
奥特曼晒“草莓”引热议 神秘新模型现身竞技场 网友第一波实测来了
...级智能的关键一步。它被指具有这些特性,比如在数学和推理能力方面有很大的提升,突破了人类数据的限制,可以自己生产巨量训练数据,有自主学习和自我改进的能力等等。在草莓项目正式被曝
2024-08-08 15:11:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型
2024-09-13 13:34:00
更多关于财经的资讯:
平安产险河南分公司开展特殊儿童金融教育活动,传递金融温度
大河网讯 近日,平安产险河南分公司走进郑州航空港区益智学校,开展金融知识伴成长教育宣传公益活动。通过精心设计的动画课程
2025-10-11 13:08:00
锦浪科技在宁波新设进出口公司
近日,宁波锦浪进出口有限公司成立,注册资本1000万元,经营范围包含:国内贸易代理;货物进出口;电气设备销售;光伏设备及元器件销售等。企查查股权穿透显示,该公司由锦浪科技(300
2025-10-11 10:24:00
企查查IPO:为“数据要素三年计划”后首家数据商
10月10日消息,据上交所官网,企查查科技股份有限公司(以下简称“企查查”)已递交招股书,拟登陆A股主板。记者了解到,这是国家数据局等17部门联合发布《“数据要素×”三年行动计划(2024—2026年)》后
2025-10-11 10:24:00
时任光大银行丹东分行行长葛某因贷款“三查”严重失职被禁业10年
10月10日,国家金融监督管理总局丹东监管分局行政处罚信息公开表显示,葛某(时任中国光大银行丹东分行行长)因贷款“三查”严重不到位被禁止从事银行业工作10年。
2025-10-11 10:32:00
东莞常平新华村镇银行因内控及贷款“三查”违规被罚75万元,三名责任人遭警告
10月10日,国家金融监督管理总局东莞监管分局行政处罚信息公开表显示,东莞常平新华村镇银行股份有限公司因内控管理不规范、未严格落实贷款“三查”工作要求被罚款75万元;相关责任人徐
2025-10-11 10:32:00
北京金融监管局印发专项文件督导机构支持“三农”领域极端强降雨灾后恢复重建
10月10日,北京金融监管局发布印发专项文件督导机构支持“三农”领域极端强降雨灾后恢复重建的通知。前期,北京遭遇极端强降雨
2025-10-11 10:34:00
宁德金融监管分局创新银保联动模式精准滴灌乡村振兴产业
10月10日,宁德金融监管分局发布关于创新银保联动模式精准滴灌乡村振兴产业的通知。指导辖区银行保险机构加强协作,探索多种银保联动模式
2025-10-11 10:35:00
宁夏金融监管局督促辖内政策性银行做好秋粮收购工作
10月10日,宁夏金融监管局发布关于督导辖内政策性银行积极落实2025年粮食收购政策的通知,把做好粮食收购工作作为提升粮食安全保障水平
2025-10-11 10:36:00
中国进出口银行任命三名重要部门总经理:孔乔任资产保全部总经理
10月10日,中国进出口银行官微消息显示,孔乔任资产保全部总经理;曾宪策任审计部总经理;李建梁任行政部总经理。
2025-10-11 10:39:00
渤海银行拟近500亿元“出清”不良资产包,以优化资产结构
10月10日,渤海银行股份有限公司(股份代号:9668.HK,简称“渤海银行”)发布公告宣布,为优化资产结构、节约资本占用
2025-10-11 10:40:00
渤海银行高层变动:非执行董事段文务将辞任,提名崔宏琴接替
10月10日,渤海银行股份有限公司(股份代号:9668.HK)宣布一项董事会人事变动。因工作调整,段文务先生已向董事会请辞非执行董事及董事会发展战略和普惠金融委员会委员职务
2025-10-11 10:40:00
华夏银行吉林分行开展债券市场非金融企业债务融资工具宣传推广月活动
近日,为深入贯彻落实金融服务实体经济的政策导向,提升公众对债券市场及非金融企业债务融资工具的认知,华夏银行吉林分行开展了“债券市场非金融企业债务融资工具宣传推广月”系列活动
2025-10-11 10:47:00
平安产险黔东南中心支公司“乡风文明100行动”落地丹寨县扬武镇番瓮村
为积极响应国家乡村振兴战略,深化与基层的党建共建,近日,平安产险黔东南中心支公司总经理赵子颂一行赴丹寨县扬武镇番瓮村开展“乡风文明100行动”捐赠活动
2025-10-11 09:52:00
兴业银行济南分行全力堵截电信网络诈骗 为企业资金安全保驾护航
通讯员 张梦清 王燕男近日,兴业银行济南分行成功堵截一起电信网络诈骗案件,有效保护了企业客户资金安全,彰显了该行在风险防控和金融安全领域的专业能力与责任担当
2025-10-11 06:54:00
从规模扩张迈向收益回报 科创板50ETF迎来首次分红
2025年10月10日,科创板50ETF(588080)发布分红公告。根据公告,本次分红方案为每10份基金份额派发现金红利0
2025-10-10 23:06:00