• 我的订阅
  • 科技

OpenAI 再成“榜一大哥”:o1-preview AI 模型驾驭数学等任务

类别:科技 发布时间:2024-09-21 09:33:00 来源:IT之家

IT之家 9 月 20 日消息,科技媒体 The Decoder 昨日(9 月 19 日)发布博文,报道称在聊天机器人竞技场(Chatbot Arena)上,OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。

聊天机器人竞技场简介

聊天机器人竞技场是一个比较人工智能模型的平台,它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。

结果

结果显示,o1-preview 和 o1-mini 尤其在数学任务、复杂提示和编程方面表现出色。

OpenAI 再成“榜一大哥”:o1-preview AI 模型驾驭数学等任务

Lmsys 提供的数学模型优势图表清楚地显示,o1-preview 和 o1-mini 的得分超过 1360 分,远高于其他模型的表现。IT之家附上相关截图如下:

OpenAI 再成“榜一大哥”:o1-preview AI 模型驾驭数学等任务

OpenAI 再成“榜一大哥”:o1-preview AI 模型驾驭数学等任务

OpenAI 再成“榜一大哥”:o1-preview AI 模型驾驭数学等任务

O1 的目标是为人工智能推理设定一个通用新标准,即在回答前“思考”" 更长时间。

然而,O1 模型并非在所有方面都优于 GPT-4o。许多任务并不需要复杂的逻辑推理,有时 GPT-4o 的反应更快。

注意事项

o1-preview 和 o1-mini 的票数远低于 GPT-4o 或 Anthropic's Claude 3.5 等成熟模型,每个模型都只有不到 3000 条评论,这样小的样本量可能无法准确代表实际结果,限制结果的意义。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-21 11:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

微软华人团队发布全新基准AGIEval,专为人类考试而生
...在有点小儿科了,有些任务的性能都甩了人类一截。通用人工智能(AGI)的一个重要特点是模型具有处理人类水平任务的泛化能力,而依赖于人工数据集的传统基准测试并不能准确表示人类的能
2023-05-13 21:28:00
好未来自研数学大模型MathGPT开启内测 用AI实现因材施教
...新了一个具有代表性和挑战性的数学任务评测集,供全球人工智能专家、数学爱好者体验和测评。田密介绍,希望让MathGPT在数学教育领域发挥更大作用,好未来愿意把基于大规模、高质量
2023-08-24 19:02:00
人工智能已经可以解决复杂的数学问题了,还有哪些工作无法被取代
...数据进行训练,以能够自然地理解和生成自然语言文本的人工智能模型。这些模型可以用于自然语言处理任务,如文本分类、文本生成、语言翻译、问题回答和摘要生成等。最近几年,由于深度学习
2023-02-24 18:22:00
...分,数学全不及格”的消息登上“热搜”。消息出自上海人工智能实验室旗下司南评测体系OpenCompass对7个开源大模型进行的高考语
2024-06-26 07:26:00
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...国公司的进步速度太快了!在推理中自我反思、纠正上海人工智能实验室(上海AI实验室)今年7月发布的书生·浦语2.5已经实现了开源模型中领先的推理能力
2024-11-29 09:27:00
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...至少在某些条件下,o3模型可以接近实现AGI。AGI是“通用人工智能”(artificial general intelligence)的缩写
2024-12-21 17:02:00
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...周末,摩根大通 CEO 杰米・戴蒙(Jamie Dimon)表示,由于人工智能技术,未来几代人每周可以只工作三天半
2024-11-28 10:00:00
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队
2024-06-25 09:45:00
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
封面新闻记者 马晓玉 边雪2022年底的人工智能的热潮是OpenAI的ChatGPT带来的,而2023年底,谷歌带着它的Gemini高调杀回人工智能圈
2023-12-07 16:15:00
更多关于科技的资讯:
工信部公布产才融合应用场景19个典型案例 软件谷入选国家级名单,南京唯一南报网讯(通讯员林园园记者于洁尘)10月28日
2025-11-03 07:37:00
平价社区超市“跑马圈地”,半年连开20家 超盒算NB在南京一天开4店南报网讯(记者张希)10月31日,盒马旗下硬折扣超市品牌超盒算NB在南京4店同开
2025-11-03 07:38:00
今日关注数字21.9%关键词新动能前三季度,全市基础设施投资同比增长4.2%,其中本年新开工项目投资同比增长21.9%
2025-11-03 07:38:00
新闻纵深·解码钢铁大模型|铁水智慧运输 “火眼金睛”定级
天柱钢铁进行全新智能改造升级铁水智慧运输 “火眼金睛”定级阅读提示铁水运输不再需要司机和道岔工,全程无人驾驶;废钢验质不再依赖人工爬车
2025-11-03 07:54:00
在生成式AI搜索浪潮席卷而来的2025年,选择一名合格的GEO服务商,已成为企业营销决策者的核心课题。然而,市场喧嚣背后
2025-11-02 17:33:00
中新经纬11月1日电 题:零首付租赁,机器人“普惠时代”来了作者 王喜文 北京华夏工联网智能技术研究院院长近期,智元机器人联合飞阔科技
2025-11-02 10:54:00
中新经纬11月1日电 (袁媛)近期,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》(以下简称《建议》)发布
2025-11-02 10:58:00
鸿蒙电脑版微信强势升级:40+项功能释放办公社交新势能
作为超10亿人使用的国民级社交应用,微信深度适配鸿蒙电脑并不断进行版本更新。本次更新,鸿蒙电脑版微信一次性推出40+项实用功能
2025-11-02 14:26:00
正雅齿科与士卓曼集团宣布建立战略合作伙伴关系。此次合作将整合两家集团的核心优势,以更高的效率和速度推动全球口腔健康市场的增长
2025-11-02 14:26:00
京东服饰联合天纺标发布《新舒适内衣》团体标准 共建行业品质新生态
10月31日,由京东服饰与天纺标检测认证股份有限公司联合主办的“中国内衣行业高品质供应链峰会暨京东服饰&天纺标联合发布会”在天津成功举办
2025-11-02 14:26:00
华为擎云 W515y登顶自主创新性能榜 引领自主创新终端从可用迈向好用
在全球科技格局深刻演变、国际形势日趋复杂的背景下,自主创新产业正加速从可用向好用的真替真用阶段迈进。这不仅是技术发展的必然要求
2025-11-02 14:28:00
赛力斯2025前三季净利润超53亿元 盈利能力持续增强
10月30日,赛力斯披露了2025年三季报,以亮眼的经营表现和持续攀升的交付数据,再次印证其在中国新能源豪华车市场的领跑地位
2025-11-02 14:29:00
雄安人工智能算力调度平台正式上线运行
中国雄安官网11月1日电近日,雄安人工智能算力调度平台在雄安城市计算中心正式部署完成并投入运行,标志着雄安新区在构建集约高效
2025-11-02 18:03:00
中国轻奢美护品牌黎科世亮相巴黎设计周,以生物科技融合感官美学
近日,中国轻奢美护品牌SENSLUX(黎科世)凭借其融合生物科技与感官美学的独特理念,在2025年9月举办的巴黎设计周中国创新馆中精彩亮相
2025-11-02 21:50:00
AI盛宴启幕!“科大讯飞1024科博展”燃动合肥
大皖新闻讯 11月2日,第八届世界声博会暨2025科大讯飞1024全球开发者节科博展在合肥体育中心盛大启幕。从萌趣幼教机器人到智能健康助手
2025-11-02 22:42:00