• 我的订阅
  • 科技

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

类别:科技 发布时间:2024-12-11 20:12:00 来源:卓越科技

当地时间12月5日,OpenAI正式上线ChatGPT‍的o1和o1-Pro两个新的AI模型。其中o1模型实际上大家之前已经用过了,只是那时候还叫o1-preview,仅开放了o1模型的部分功能,如今新版本去掉了preview,也意味着o1模型的满血版终于正式上线。

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

图源:雷科技

从简单的测试来看,满血版的o1模型已经支持图片和文件上传,而此前是只能进行文字输入,也就是新增了多模态理解,不过网页搜索功能仍未上线,这点倒是让人感到遗憾。

对于o1满血版的提升,OpenAI的CEO奥特曼用一个简单的柱状图给出了对比:可以看到o1在数学推理和编程领域的表现要明显优于o1-preview,提升幅度在50%左右,而在科研领域的测试里,o1相对于o1-preview的表现就提升有限了。

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

图源:OpenAI

考虑到o1模型不需要额外加钱就能使用,对于有需求的用户来说还是很超值的,只是OpenAI这次醉翁之意不在酒,相较于免费升级的o1,全新的o1-pro才是重头戏。不过,想要用上o1-pro,得订阅新的200美元套餐才能优先使用,这也是目前AI领域中针对个人用户的最昂贵订阅方案。

从OpenAI给出的性能对比图来看,o1-pro在o1的基础上确实有所精进,但是提升幅度并不大,对于普通用户来说,o1模型就完全可以满足日常使用了,压根没有必要为了o1-pro订阅200美元的套餐。

当然,200美元套餐提供的不只是o1-pro,还有无限制使用o1模型和高级语音功能的权限(o1-pro不在此列,估计使用次数仍有上限),如果你觉得o1的提问额度完全不够用,那么200美元的套餐就是个人用户的唯一选择了。

既然有了新的模型,那么肯定是要来测试一下的。雷科技此次测试主要还是针对o1满血版的多模态能力,同时也请来了两位国产AI友情参赛(kimi和文心一言)。o1满血版实测体验并非「无敌」

o1模型的强项在于数学等方面的高级推理,那么就先从擅长的地方开始,一道并不算困难的数学计算题:

假设一个公司生产某种商品,生产成本与产量的关系为C(x)=3x^2-2x+5(单位:万元),其中x是产量(单位:千件)。市场售价与产量的关系为P(x)=50-0.5x(单位:万元/千件)。

1.求该公司生产x千件商品时的总利润函数L(x)。

2.确定该公司应生产多少千件商品以实现最大利润,并计算最大利润是多少。

首先看看国产AI的回答:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

kimi

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

文心一言

国产AI都给出了相同的答案:188.14万元,那么再来看看ChatGPT-o1的。

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

o1

o1模型给出的答案也是188.14万元,与问题本身的标准答案一致,三个AI都通过了测试。不过大家从回答的截图里,其实也能看出不同,o1模型展示了大量的推算过程,更方便用户检查推理的过程是否正确。

这也与o1模型的主要用途有关,本质上o1模型上为科研等用途设计的,所以在展示答案的时候会更注重于推理过程及正确性,而非只输出正确的答案。

接下来我们试试直接用图片进行提问,可以让我们输入一些比较抽象的数学题,比如一道来自小学四年级的奥林匹克竞赛题:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

还是惯例先看看国产AI的回答:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

kimi

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

文心一言

两个国产AI分别给出了A和B的选项,其中kimi的推理过程非常长,直接把这道小学奥数题以高等数学的方式进行了解析。

下面看看o1模型的回答:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

o1

o1模型给出的答案也是B,那么是否说明kimi算错了?答案并不是,这道题的正确答案其实是A,换言之o1和文心一言都算错了。文心一言因为没有给出详细推理过程,所以无法看出是在哪一步算错了,而o1模型显然是在分析图片时,错误的判断了图形的集合数量,最终导致答案推理错误。

在这个问题上,其实就可以看出AI大模型在处理类似的图形问题时,解题的思路是不同的,文心一言和o1都试图通过直接找出图片的规律来计算答案,也就是类似于人类解题时的思路,而kimi则是直接将图形等式转化为方程式,然后进行计算。

从效率来说,o1和文心一言的推理方式肯定是更节省算力的,但是如果分析拆解能力没有跟上,那么就会像这次一样得出错误的答案,而kimi的推理过程虽然会耗费更多的算力,但是也保证了答案的准确度。

站在企业角度来看,为了提高推理效率并降低推理成本,采用图形推理方案自然是最佳选择。但是考虑到o1本身的高级模型属性,以及OpenAI给出的科研助手定位,如果还为了节省算力而给出错误的答案,恐怕就难以说服用户了。

下面再来看看编程方面的表现,题目并不算难:

我想制作一个软件,这个软件可以每个小时检查一次电脑的网络连接状态,如果网络连接中断就重启电脑,如果网络连接正常就保持现状

两个国产AI都很快就给出了答案:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

kimi

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

文心一言

因为要求很简单,简单测试后虚拟机都提示成功运行。不过,可以看到两个国产AI的回答有些许不同,kimi在代码中用灰色字体进行了注释,而文心一言则是通过额外的注意事项进行提醒,并且还提醒要安装运行库,并给出了更多的编程建议。

那么o1模型呢?答案如下:

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

o1

从o1模型的回答来看,它是分三个部分完成的回答,首先给出实现思路,然后给出示范代码并进行注释,最后再对代码的编写过程进行分析,同时提供了测试思路和备选方案,算是集中了两个AI各自的优势,对于初学者来说,o1模型的体验或许会更好一些。

从生产力的角度来说,o1模型在特定领域的表现确实出色,但是国产AI的表现也不算差,其中kimi更是让人感到惊喜,是唯一答对全部测试题目的AI。

测试到这里,本来可以告一段落了,不过我还想看看在日常领域,o1模型的表现和普通模型又会有什么区别呢?

所以,我又出了一道附加题,从网络上搜索了一个草莓馅饼的照片,然后询问AI如何制作照片里的甜点。

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

kimi

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

文心一言

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

o1

三个AI都很轻松识别出了甜点的类型,并且给出了相似的配方,不过o1模型的回答则是详细到了每一个步骤的操作方式和注意事项,相对来说国产AI的步骤说明就简单很多了。如果是有一定烘培经验的人,国产AI的菜谱是够用了,但是对于一个新手来说,o1模型的菜谱成功率显然会高很多。AI的下一步是学会真正的「思考」

总体来看,o1模型在回答的细致度等方面确实有着明显的优势,在一些需要查看推理过程或者得到更详细回答的场景中体验会好很多。但是从答案的准确度来看,o1对比目前的国产AI其实也没有多少优势,表现还不如kimi。

而且国产AI也可以通过追问等方式,得到更详细的回答和推理过程,o1模型在多数场景下其实都没有明显的优势,比如我在日常使用ChatGPT时,很多时候ChatGPT-4o就可以满足需求,只有极少数情况下会用到o1模型。

作为一个ChatGPT的长期用户,我认为o1模型其实更适合科研人员及金融分析师等职业,他们在日常工作中会用到大量数学工具并进行多次推理。此时,o1模型那经过针对性训练的多步骤推理流程,在解决这些问题时表现会比普通AI好不少。

至于o1-pro,其实从我查询到的其他用户测试结果来看,回答的质量与o1模型并没有太大区别,两者的差距主要是o1-pro可以调用更多的算力,反复验算答案的正确性,并且尝试给出更详细的推理过程。

实际上AI大模型发展到现在的阶段,其实又开始出现细分化的苗头,在此之前不少AI企业都希望去打造一个大而全的多模态模型,但是却发现成本很高且效果并不算好,诸如「幻觉」等问题一直难以解决。

而ChatGPT-o1无疑给出了另一个解法,在算力足够的情况下,可以让AI先对问题进行一次深度的「思考」,再根据思考的结果去进行推算。你可以这么去理解,o1是先尝试分析问题本身,再根据分析结果去解决问题,而普通AI则是直接对问题进行关键词拆解,然后根据算法调用对应的数据并组合输出,这种方式虽然回应速度快,但是回答的准确度却难以保证,特别是面对一些复杂的问题时。

所以,我们可以看到kimi和文心一言其实也在通过不同的方式去让AI学会「思考」,而不是根据算法和数据强行组合答案。kimi的表现更是给我留下了深刻的印象,作为数学测试环节唯一回答全对的选手,无需付费就可以使用,性价比和体验都拉满了。

老实说,如果不是为了方便查询外文资料和关注AI的最前沿,ChatGPT的20美刀订阅性价比确实不高,免费的kimi和提供多种智能体及官方工具,更具有泛用性的文心一言都是更具性价比的选择。#ChatGPT#

25年1月7日,CES(国际消费电子展)2025即将盛大开幕,雷科技报道团蓄势待发,即将飞赴美国·拉斯维加斯现场全程报道,敬请关注。

ChatGPT o1满血版上线!实测中它竟然败给了国产AI?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-12 05:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

\
...大模型。MathGPT是否意味着“AI家教”成为可能?搜狐科技实测后发现MathGPT能够顺利完成小学试卷并且给出清晰的解答
2023-08-28 15:17:00
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问
2024-07-17 11:56:00
文心一言“点评”李彦宏发布会紧张原因:对AI掌握不充分,担心被误解作秀
...计算能力、推理能力等方面为大家带来文心一言的深度真实测评!中文理解能力1.“今朝牙里相,老重光,老地方,吾请侬切饭哦”,这句话是哪个地方方言,什么意思?文心一言回答:总结:文
2023-03-17 10:00:00
搜狐科技“实测”中外两款大模型:GPT-4写藏头诗失败,文心一言更懂中文?
...结果就已出现,更像是提前录制好的“DEMO”,而非现场实测。“不能说我们完全ready了,文心一言对标ChatGPT
2023-03-16 17:00:00
大模型“翻车”小学题?
...和13.8谁大?9家大模型,3家已翻车7月16日下午,南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luc
2024-07-18 16:39:00
搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”
...在混元大模型发布后拿到内测资格,第一时间对其进行了实测。 能模仿鲁迅、林黛玉,生成代码显示错误据了解,腾讯混元大模型目前仅在微信小程序上线,在小程序搜索“腾讯混元助手”能够
2023-09-15 13:35:00
文心一言发布百度市值蒸发200亿,外界称缺乏亮点,应用前景难超ChatGPT
...发布仅仅是一小步,更大的挑战还在后面。具备多模态,实测后或将暴露更多问题在发布会现场,李彦宏通过提前录制的视频演示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模
2023-03-17 10:00:00
实测升级后的文小言:吉卜力风周边一键生成,全新语音大模型、图片问答齐亮相
...尖模型能力,做出更强大、更简单的AI产品。” 搜狐科技实测显示,若切换至文心大模型并指定文心X1来解决问题,其优势在于灵活调用工具。以“设计吉卜力风的帆布包”为例,文心X1首
2025-03-31 20:04:00
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
...波,不知道大家如何顶住。耐心等待的时间里,我们先来实测一下。一手实测体验与 OpenAI o1 相同的是,根据问题的复杂程度,它也需要「思考」数十秒后再回答。虽然有些过程中的
2024-11-22 09:50:00
更多关于科技的资讯:
双主题活动+三重深度体验,金鸡湖教育集团科技节展现赋能成长新路径
江南时报讯 当知识课堂与前沿科技相遇,当学校携手行业大咖跨界联动,金鸡湖教育集团的科技节彻底点燃了整个校园。两大主题活动
2026-01-16 17:06:00
刘典(学者)2025年春天,《杭州模式:DeepSeek与中国算谷》出版了。对我而言,一本书写完了,从来不是结束,而是带着这些思考
2026-01-16 16:56:00
时间枝头 生活向新
这些关于“具体生活”的探索与坚守,既是过往一年的珍贵注脚,更铺就了通往新岁的温暖底色。 吴卓平回顾过去这一年,杭州的文化
2026-01-16 16:56:00
苏州黄埭镇新型电力电子OPC创新社区启动
江南时报讯1月15日,位于苏州市相城区黄埭镇的新型电力电子OPC创新社区正式启动。作为相城区的工业重镇,黄埭镇拥有深厚的制造业底蕴和完善的产业链配套
2026-01-16 16:56:00
千问App大规模功能上新,实现一句话找真题、讲难题
1月15日,千问App实现大规模功能上新,支持用一句话实现超过400项任务。其中,学习领域的“办事力”显著增强,用户只需一句话即可找卷子
2026-01-16 14:00:00
Z世代购物车|排队两小时!“年轻人的十字绣”为何火热?
中新经纬1月16日电 (王玉玲)一种名为“拼豆”的手工像素画在社交平台上持续火热。在小红书上,话题“我染上了拼豆”浏览量近28亿次
2026-01-16 14:23:00
赋能全民数字素养:AI学联社在杭正式启航 助推人工智能能力平权
随着生成式人工智能(AIGC)在全球范围内触发生产力变革,如何让AI技术从“实验室”走入“百姓家”,成为数字经济高质量发展的关键命题
2026-01-16 14:53:00
健康消费成新春主流,龙角散“健康新年糖”引领年货新趋势
农历新年临近,年货采购逐渐进入高潮。与以往追求包装喜庆、口味传统的年货选择不同,一股“健康化”风潮正悄然改变着春节消费市场
2026-01-16 15:27:00
可操控格斗机器人对战!2026安庆AI机器人科技展将展出百余件AI机器人
大皖新闻讯讯 1月16日,记者从2026安庆AI机器人科技展发布会上获悉,为展示我国在AI机器人科技领域所取得的成就
2026-01-16 15:29:00
“智齿智能客服”完成生成式人工智能服务登记
近日,北京市互联网信息办公室(网信办)发布了《北京市生成式人工智能服务已登记信息公告( 12 月 26 日)》,公告显示
2026-01-16 15:29:00
鲁网1月16日讯在临沂市兰山区枣园镇中心小学的美术教室内,孩子们正通过高清智能大屏,与几十公里外城区的专业美术教师同步学习绘画
2026-01-16 15:30:00
阿斯利康连续十六年登榜\
2026 年 1 月 15 日,全球权威杰出雇主调研机构( Top Employers Institute )正式揭晓"中国 2026 年度杰出雇主"榜单
2026-01-16 15:31:00
迪拓倍斯荣获“国产十佳音箱品牌”与“会议系统优选解决方案”
近日,专业音视频传输公司,迪拓倍斯(DITOPBEST)凭借其卓越的产品性能、稳定的系统解决方案及广泛的市场应用口碑,成功获评“国产十佳音箱品牌”及“会议系统优选解决方案”两项荣誉
2026-01-16 16:03:00
从高端垄断到品质普惠:米兰纳699元/㎡破局中古风家装市场断层
当中古风从设计圈的小众审美,快速演变为25-45岁主流装修人群的“共识之选”时,一个尖锐的矛盾正在浮现:消费者的审美觉醒
2026-01-16 16:04:00
三联家电“2026年货节”盛大开启!国补叠加多重优惠!
鲁网1月16日讯岁末将至,年味渐浓,家电换新成为不少家庭筹备新年的重要环节。1月16日至2月16日,三联家电正式启动“2026年货节”大型促销活动
2026-01-16 11:24:00