• 我的订阅
  • 科技

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

类别:科技 发布时间:2024-12-11 20:12:00 来源:卓越科技

当地时间12月5日,OpenAI正式上线ChatGPT‍的o1和o1-Pro两个新的AI模型。其中o1模型实际上大家之前已经用过了,只是那时候还叫o1-preview,仅开放了o1模型的部分功能,如今新版本去掉了preview,也意味着o1模型的满血版终于正式上线。

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

图源:雷科技

从简单的测试来看,满血版的o1模型已经支持图片和文件上传,而此前是只能进行文字输入,也就是新增了多模态理解,不过网页搜索功能仍未上线,这点倒是让人感到遗憾。

对于o1满血版的提升,OpenAI的CEO奥特曼用一个简单的柱状图给出了对比:可以看到o1在数学推理和编程领域的表现要明显优于o1-preview,提升幅度在50%左右,而在科研领域的测试里,o1相对于o1-preview的表现就提升有限了。

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

图源:OpenAI

考虑到o1模型不需要额外加钱就能使用,对于有需求的用户来说还是很超值的,只是OpenAI这次醉翁之意不在酒,相较于免费升级的o1,全新的o1-pro才是重头戏。不过,想要用上o1-pro,得订阅新的200美元套餐才能优先使用,这也是目前AI领域中针对个人用户的最昂贵订阅方案。

从OpenAI给出的性能对比图来看,o1-pro在o1的基础上确实有所精进,但是提升幅度并不大,对于普通用户来说,o1模型就完全可以满足日常使用了,压根没有必要为了o1-pro订阅200美元的套餐。

当然,200美元套餐提供的不只是o1-pro,还有无限制使用o1模型和高级语音功能的权限(o1-pro不在此列,估计使用次数仍有上限),如果你觉得o1的提问额度完全不够用,那么200美元的套餐就是个人用户的唯一选择了。

既然有了新的模型,那么肯定是要来测试一下的。雷科技此次测试主要还是针对o1满血版的多模态能力,同时也请来了两位国产AI友情参赛(kimi和文心一言)。o1满血版实测体验并非「无敌」

o1模型的强项在于数学等方面的高级推理,那么就先从擅长的地方开始,一道并不算困难的数学计算题:

假设一个公司生产某种商品,生产成本与产量的关系为C(x)=3x^2-2x+5(单位:万元),其中x是产量(单位:千件)。市场售价与产量的关系为P(x)=50-0.5x(单位:万元/千件)。

1.求该公司生产x千件商品时的总利润函数L(x)。

2.确定该公司应生产多少千件商品以实现最大利润,并计算最大利润是多少。

首先看看国产AI的回答:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

kimi

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

文心一言

国产AI都给出了相同的答案:188.14万元,那么再来看看ChatGPT-o1的。

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

o1

o1模型给出的答案也是188.14万元,与问题本身的标准答案一致,三个AI都通过了测试。不过大家从回答的截图里,其实也能看出不同,o1模型展示了大量的推算过程,更方便用户检查推理的过程是否正确。

这也与o1模型的主要用途有关,本质上o1模型上为科研等用途设计的,所以在展示答案的时候会更注重于推理过程及正确性,而非只输出正确的答案。

接下来我们试试直接用图片进行提问,可以让我们输入一些比较抽象的数学题,比如一道来自小学四年级的奥林匹克竞赛题:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

还是惯例先看看国产AI的回答:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

kimi

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

文心一言

两个国产AI分别给出了A和B的选项,其中kimi的推理过程非常长,直接把这道小学奥数题以高等数学的方式进行了解析。

下面看看o1模型的回答:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

o1

o1模型给出的答案也是B,那么是否说明kimi算错了?答案并不是,这道题的正确答案其实是A,换言之o1和文心一言都算错了。文心一言因为没有给出详细推理过程,所以无法看出是在哪一步算错了,而o1模型显然是在分析图片时,错误的判断了图形的集合数量,最终导致答案推理错误。

在这个问题上,其实就可以看出AI大模型在处理类似的图形问题时,解题的思路是不同的,文心一言和o1都试图通过直接找出图片的规律来计算答案,也就是类似于人类解题时的思路,而kimi则是直接将图形等式转化为方程式,然后进行计算。

从效率来说,o1和文心一言的推理方式肯定是更节省算力的,但是如果分析拆解能力没有跟上,那么就会像这次一样得出错误的答案,而kimi的推理过程虽然会耗费更多的算力,但是也保证了答案的准确度。

站在企业角度来看,为了提高推理效率并降低推理成本,采用图形推理方案自然是最佳选择。但是考虑到o1本身的高级模型属性,以及OpenAI给出的科研助手定位,如果还为了节省算力而给出错误的答案,恐怕就难以说服用户了。

下面再来看看编程方面的表现,题目并不算难:

我想制作一个软件,这个软件可以每个小时检查一次电脑的网络连接状态,如果网络连接中断就重启电脑,如果网络连接正常就保持现状

两个国产AI都很快就给出了答案:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

kimi

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

文心一言

因为要求很简单,简单测试后虚拟机都提示成功运行。不过,可以看到两个国产AI的回答有些许不同,kimi在代码中用灰色字体进行了注释,而文心一言则是通过额外的注意事项进行提醒,并且还提醒要安装运行库,并给出了更多的编程建议。

那么o1模型呢?答案如下:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

o1

从o1模型的回答来看,它是分三个部分完成的回答,首先给出实现思路,然后给出示范代码并进行注释,最后再对代码的编写过程进行分析,同时提供了测试思路和备选方案,算是集中了两个AI各自的优势,对于初学者来说,o1模型的体验或许会更好一些。

从生产力的角度来说,o1模型在特定领域的表现确实出色,但是国产AI的表现也不算差,其中kimi更是让人感到惊喜,是唯一答对全部测试题目的AI。

测试到这里,本来可以告一段落了,不过我还想看看在日常领域,o1模型的表现和普通模型又会有什么区别呢?

所以,我又出了一道附加题,从网络上搜索了一个草莓馅饼的照片,然后询问AI如何制作照片里的甜点。

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

kimi

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

文心一言

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

o1

三个AI都很轻松识别出了甜点的类型,并且给出了相似的配方,不过o1模型的回答则是详细到了每一个步骤的操作方式和注意事项,相对来说国产AI的步骤说明就简单很多了。如果是有一定烘培经验的人,国产AI的菜谱是够用了,但是对于一个新手来说,o1模型的菜谱成功率显然会高很多。AI的下一步是学会真正的「思考」

总体来看,o1模型在回答的细致度等方面确实有着明显的优势,在一些需要查看推理过程或者得到更详细回答的场景中体验会好很多。但是从答案的准确度来看,o1对比目前的国产AI其实也没有多少优势,表现还不如kimi。

而且国产AI也可以通过追问等方式,得到更详细的回答和推理过程,o1模型在多数场景下其实都没有明显的优势,比如我在日常使用ChatGPT时,很多时候ChatGPT-4o就可以满足需求,只有极少数情况下会用到o1模型。

作为一个ChatGPT的长期用户,我认为o1模型其实更适合科研人员及金融分析师等职业,他们在日常工作中会用到大量数学工具并进行多次推理。此时,o1模型那经过针对性训练的多步骤推理流程,在解决这些问题时表现会比普通AI好不少。

至于o1-pro,其实从我查询到的其他用户测试结果来看,回答的质量与o1模型并没有太大区别,两者的差距主要是o1-pro可以调用更多的算力,反复验算答案的正确性,并且尝试给出更详细的推理过程。

实际上AI大模型发展到现在的阶段,其实又开始出现细分化的苗头,在此之前不少AI企业都希望去打造一个大而全的多模态模型,但是却发现成本很高且效果并不算好,诸如「幻觉」等问题一直难以解决。

而ChatGPT-o1无疑给出了另一个解法,在算力足够的情况下,可以让AI先对问题进行一次深度的「思考」,再根据思考的结果去进行推算。你可以这么去理解,o1是先尝试分析问题本身,再根据分析结果去解决问题,而普通AI则是直接对问题进行关键词拆解,然后根据算法调用对应的数据并组合输出,这种方式虽然回应速度快,但是回答的准确度却难以保证,特别是面对一些复杂的问题时。

所以,我们可以看到kimi和文心一言其实也在通过不同的方式去让AI学会「思考」,而不是根据算法和数据强行组合答案。kimi的表现更是给我留下了深刻的印象,作为数学测试环节唯一回答全对的选手,无需付费就可以使用,性价比和体验都拉满了。

老实说,如果不是为了方便查询外文资料和关注AI的最前沿,ChatGPT的20美刀订阅性价比确实不高,免费的kimi和提供多种智能体及官方工具,更具有泛用性的文心一言都是更具性价比的选择。#ChatGPT#

25年1月7日,CES(国际消费电子展)2025即将盛大开幕,雷科技报道团蓄势待发,即将飞赴美国·拉斯维加斯现场全程报道,敬请关注。

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-12 05:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

\
...大模型。MathGPT是否意味着“AI家教”成为可能?搜狐科技实测后发现MathGPT能够顺利完成小学试卷并且给出清晰的解答
2023-08-28 15:17:00
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问
2024-07-17 11:56:00
文心一言“点评”李彦宏发布会紧张原因:对AI掌握不充分,担心被误解作秀
...计算能力、推理能力等方面为大家带来文心一言的深度真实测评!中文理解能力1.“今朝牙里相,老重光,老地方,吾请侬切饭哦”,这句话是哪个地方方言,什么意思?文心一言回答:总结:文
2023-03-17 10:00:00
搜狐科技“实测”中外两款大模型:GPT-4写藏头诗失败,文心一言更懂中文?
...结果就已出现,更像是提前录制好的“DEMO”,而非现场实测。“不能说我们完全ready了,文心一言对标ChatGPT
2023-03-16 17:00:00
大模型“翻车”小学题?
...和13.8谁大?9家大模型,3家已翻车7月16日下午,南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luc
2024-07-18 16:39:00
搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”
...在混元大模型发布后拿到内测资格,第一时间对其进行了实测。 能模仿鲁迅、林黛玉,生成代码显示错误据了解,腾讯混元大模型目前仅在微信小程序上线,在小程序搜索“腾讯混元助手”能够
2023-09-15 13:35:00
文心一言发布百度市值蒸发200亿,外界称缺乏亮点,应用前景难超ChatGPT
...发布仅仅是一小步,更大的挑战还在后面。具备多模态,实测后或将暴露更多问题在发布会现场,李彦宏通过提前录制的视频演示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模
2023-03-17 10:00:00
实测升级后的文小言:吉卜力风周边一键生成,全新语音大模型、图片问答齐亮相
...尖模型能力,做出更强大、更简单的AI产品。” 搜狐科技实测显示,若切换至文心大模型并指定文心X1来解决问题,其优势在于灵活调用工具。以“设计吉卜力风的帆布包”为例,文心X1首
2025-03-31 20:04:00
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
...波,不知道大家如何顶住。耐心等待的时间里,我们先来实测一下。一手实测体验与 OpenAI o1 相同的是,根据问题的复杂程度,它也需要「思考」数十秒后再回答。虽然有些过程中的
2024-11-22 09:50:00
更多关于科技的资讯:
12月12日,2025浙江省新消费创新大赛资源对接活动在杭州举行,会上揭晓了本届大赛的获奖项目。聚焦新技术、新需求、新场景
2025-12-16 08:00:00
“与其扎在低价内卷里互相消耗,不如瞄准高端赛道奋力突围!”上完这堂课,杭商同学有了自己的新思考
王水福说,高端路上很辛苦,但高端路上不拥堵。全球约80%的新商用飞机上都有“西子造”,每年为全球提供约65万个零部件。 “与其扎在低价内卷里互相消耗
2025-12-16 08:00:00
陈勇摘要:企业文化是企业战略管理的重要支撑力量,其价值观、行为+准则等核心要素深刻影响企业战略的制定、实施与调整。契合企业发展需求的企业文化
2025-12-16 06:57:00
李玲摘要:随着珠宝行业的竞争加剧,服务质量在消费者购买决策中占据越来越重要的地位。本文结合珠宝行业特点及服务营销理论,构建了一套全面系统的营销服务质量评价指标体系
2025-12-16 06:57:00
冯智 华蓥市人民医院在安静的夜晚,耳边却持续萦绕着嗡嗡声、蝉鸣声或嘶嘶声,这种“无中生有”的声音困扰着不少人,这就是耳鸣
2025-12-16 06:57:00
AI时代下的日新月异正加速向更多领域蔓延,支付便是其中之一。对着手机说两句话,在10秒不到的时间里完成咖啡点单,这是杭州白领小露最近每天都在尝试的“新玩意儿”
2025-12-16 07:29:00
进入求职迷茫期,在社区的服务驿站,找到了职业赛道新方向,还解决了工作问题?没错!这两天,在汇金国际工作的张先生,一个月前离职正在考虑转变职业赛道
2025-12-16 07:29:00
金堰社区:党建赋能“她”力量,直播筑梦新斜塘
江南时报讯 为激活数字经济时代社区创业活力,助力居民尤其是女性群体拓宽就业创业路径,苏州工业园区斜塘街道妇联联合金堰社区党支部
2025-12-15 14:25:00
体育用品产业创新加速器获奖企业出炉,聚焦材料、物流、数字化三赛道
12月12日,在清华大学技术创新研究中心主办的全球开放式创新论坛期间,由安踏集团与璞跃中国联合发起的“体育用品产业创新加速器”(下称“加速器”)颁奖典礼在上海举行
2025-12-15 14:26:00
银泰百货绿色实践获认可,入选中国商业联合会2025年度创新案例
12 月 15 日,银泰百货的 “绿色商场” 建设实践通过评审,成功入选中国商业联合会2025年度绿色消费创新案例。此次一同入选的还有喜茶
2025-12-15 14:26:00
年终消费季再添一把火!“购在中国·2025山东家居焕新消费季暨“安居齐鲁 轻松焕新”活动”启动
鲁网12月15日讯年终消费市场迎来政策与科技双轮驱动的“强心剂”。2025年12月14日,由山东省智能家居协会主办,银座家居
2025-12-15 14:39:00
蚂蚁集团AQ升级为“蚂蚁阿福”:从医疗到健康 从AI工具到AI朋友
12月15日消息,蚂蚁集团宣布旗下AI健康应用AQ品牌升级为“蚂蚁阿福”,并发布App新版本,升级健康陪伴、健康问答、健康服务三大功能
2025-12-15 15:16:00
从品质定制到品牌闭环:中粮福掌柜以联名专供驱动供应端与餐饮端的协同进化
近日,中粮餐饮旗下专业餐厨品牌福掌柜与知名川菜品牌龙人居联名推出福掌柜非转基因压榨一级玉米胚芽油,在行业内引发了深度关注
2025-12-15 15:22:00
技术+生态+服务三向发力 聊城“惠循环”平台焕新惠民路径
鲁网12月15日讯(记者 泮晓阳)12月15日上午,聊城市政府新闻办公室召开“水城有约·惠享两节”2026聊城元旦春节促消费兴文旅主题新闻发布会
2025-12-15 15:54:00
瀚康荟(德州)健康科技有限公司刘勇:儒缘汇德州,大道砥初心
刘勇“富而好礼,利以义制;居敬而行简,以临其民。”当我第一次驻足于儒商研究会,孔孟故里的微光,便悄然照进了我四十年的商海生涯
2025-12-15 15:55:00