• 我的订阅
  • 科技

openai推出mle-bench新基准

类别:科技 发布时间:2024-10-12 20:06:00 来源:浅语科技

10月12日消息,科技媒体TheDecoder昨日(10月11日)发布博文,报道称OpenAI公司推出MLE-bench新基准,旨在评估AI智能体在开发机器学习解决方案方面的能力。

该基准包括75个Kaggle竞赛,旨在衡量自主AI系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。

IT之家注:Kaggle是一个非常受欢迎的平台,专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛,包括数据预测、图像分类、自然语言处理等,适合不同技能水平的参与者。

在Kaggle的进阶系统中,“Novice”(新手)、“Contributor”(贡献者)、“Expert”(专家)、“Master”(大师)和"Grandmaster"(特级大师)是不同的绩效层级,用于衡量和识别数据科学家在Kaggle平台上的技能水平和成就。

openai推出mle-bench新基准

许多任务具有现实世界的应用,例如预测COVID-19mRNA疫苗降解或解码古代卷轴等。

openai推出mle-bench新基准

MLE-bench专注于两个关键领域:

选择具有挑战性的任务:这些任务代表了当前机器学习的发展水平。

比较AI与人类的表现:通过对比,评估AI在特定任务中的能力。

OpenAI在MLE-bench上测试了多个AI模型和智能体框架,使用AIDE框架的o1-preview模型表现最佳,在16.9%的比赛中至少获得了一枚铜牌,该结果超越了Anthropic的Claude3.5Sonnet。

获得5金即可评上"Grandmaster"特级大师,而o1-preview模型在MLE-bench测试中获得了7枚金牌。

openai推出mle-bench新基准

openai推出mle-bench新基准

OpenAI承认MLE-bench也有局限性,并未涵盖AI研究与开发的所有方面,主要集中在具有明确问题和简单评估指标的任务上。

MLE-bench基准现已在GitHub上发布,OpenAI希望通过这一工具,推动AI在机器学习领域的进一步发展。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-12 23:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...g up 显著推动了大语言模型(LLMs)研究的发展,展示了在自然语言处理(NLP)中推理和泛化能力的显著进步。为了理解多模态信息
2024-06-21 09:52:00
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...轨迹显得尤为重要。如今,具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术,其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中,具
2024-07-29 09:39:00
限定120分钟科研挑战,o1和Claude表现超越人类
...并且都有权限使用所需的计算资源,如GPU。然后,AI通过自然语言处理和编程能力来执行任务,而人类专家则通过编码和实验来完成任务。执行结束后,每个环境都有一个评分函数,用于衡量
2024-11-26 09:46:00
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...Visual Question Answering, VQA)任务要求模型根据输入的图像和自然语言问题生成自由形式的回答
2024-06-29 09:37:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...eview 的受欢迎程度远远高于 GPT-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例
2024-09-13 16:42:00
什么是AGI?人工智能的未来
...应用在了各个领域,比如:机器视觉(CV)、语音识别(ASR)、自然语言处理(NLP)。但将AI能力应用到各种场景细分的不利后果是:我们现在依然需要程序员或者数据分析师才能实现
2024-03-19 06:00:00
机器帮你写代码:meta推出ai编程工具codellama
...域免费开放。图源PexelsMeta指出,CodeLlama能够根据代码核自然语言提示/要求生成你想要的代码和有关代码的自然语言
2023-08-24 23:18:00
Pika爆火,但AI视频还没到「GPT时刻」;首个GPT-4驱动的人形机器人;微软小模型击败大模型丨AI新零售早报
...T-4控制的多样性。研究依赖于思维链和零样本学习,允许自然语言直接转换为机器人动作。(来源:“量子位”微信公众号)《微软小模型击败大模型:27亿参数,手机就能跑》微软发布了一
2023-12-14 09:34:00
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...隆大学硕士生贾雪莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖
2024-08-02 09:40:00
更多关于科技的资讯: