我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

openai推出mle-bench新基准

类别：科技发布时间：2024-10-12 20:06:00 来源：浅语科技

10月12日消息，科技媒体TheDecoder昨日（10月11日）发布博文，报道称OpenAI公司推出MLE-bench新基准，旨在评估AI智能体在开发机器学习解决方案方面的能力。

该基准包括75个Kaggle竞赛，旨在衡量自主AI系统在机器学习工程中的进展。这些竞赛涵盖了多个领域，包括自然语言处理、计算机视觉和信号处理等等。

IT之家注：Kaggle是一个非常受欢迎的平台，专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛，包括数据预测、图像分类、自然语言处理等，适合不同技能水平的参与者。

在Kaggle的进阶系统中，“Novice”（新手）、“Contributor”（贡献者）、“Expert”（专家）、“Master”（大师）和"Grandmaster"（特级大师）是不同的绩效层级，用于衡量和识别数据科学家在Kaggle平台上的技能水平和成就。

许多任务具有现实世界的应用，例如预测COVID-19mRNA疫苗降解或解码古代卷轴等。

MLE-bench专注于两个关键领域：

选择具有挑战性的任务：这些任务代表了当前机器学习的发展水平。

比较AI与人类的表现：通过对比，评估AI在特定任务中的能力。

OpenAI在MLE-bench上测试了多个AI模型和智能体框架，使用AIDE框架的o1-preview模型表现最佳，在16.9%的比赛中至少获得了一枚铜牌，该结果超越了Anthropic的Claude3.5Sonnet。

获得5金即可评上"Grandmaster"特级大师，而o1-preview模型在MLE-bench测试中获得了7枚金牌。

OpenAI承认MLE-bench也有局限性，并未涵盖AI研究与开发的所有方面，主要集中在具有明确问题和简单评估指标的任务上。

MLE-bench基准现已在GitHub上发布，OpenAI希望通过这一工具，推动AI在机器学习领域的进一步发展。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-10-12 23:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于基准,机器,任务,学习,基准,自然语言的资讯：

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...g up 显著推动了大语言模型（LLMs）研究的发展，展示了在自然语言处理（NLP）中推理和泛化能力的显著进步。为了理解多模态信息

2024-06-21 09:52:00

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...轨迹显得尤为重要。如今，具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术，其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中，具

2024-07-29 09:39:00

限定120分钟科研挑战，o1和Claude表现超越人类

...并且都有权限使用所需的计算资源，如GPU。然后，AI通过自然语言处理和编程能力来执行任务，而人类专家则通过编码和实验来完成任务。执行结束后，每个环境都有一个评分函数，用于衡量

2024-11-26 09:46:00

Bengio团队提出多模态新基准，直指Claude 3.5和

...Visual Question Answering, VQA）任务要求模型根据输入的图像和自然语言问题生成自由形式的回答

2024-06-29 09:37:00

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...eview 的受欢迎程度远远高于 GPT-4o。然而，o1-preview 在某些自然语言任务上并不受欢迎，这表明它并不适合所有用例

2024-09-13 16:42:00

什么是AGI？人工智能的未来

...应用在了各个领域，比如：机器视觉(CV)、语音识别(ASR)、自然语言处理(NLP)。但将AI能力应用到各种场景细分的不利后果是：我们现在依然需要程序员或者数据分析师才能实现

2024-03-19 06:00:00

机器帮你写代码：meta推出ai编程工具codellama

...域免费开放。图源PexelsMeta指出，CodeLlama能够根据代码核自然语言提示/要求生成你想要的代码和有关代码的自然语言

2023-08-24 23:18:00

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...隆大学硕士生贾雪莹。虽然大规模语言模型（LLM）在许多自然语言处理任务中表现优异，但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现，现有的方法主要依赖

2024-08-02 09:40:00

Pika爆火，但AI视频还没到「GPT时刻」；首个GPT-4

...T-4控制的多样性。研究依赖于思维链和零样本学习，允许自然语言直接转换为机器人动作。（来源：“量子位”微信公众号）《微软小模型击败大模型：27亿参数，手机就能跑》微软发布了一

2023-12-14 09:34:00

更多关于科技的资讯：

中国科大实现碳化硅改性双空位色心的电荷态调控

大皖新闻讯 2月21日，大皖新闻记者从中国科学技术大学获悉，该校郭光灿院士团队在碳化硅改性双空位色心电荷态调控的研究中取得了新进展

2026-02-21 16:48:00

戛纳世界人工智能大会探讨“音乐人工智能”

中国青年报客户端讯（中青报·中青网记者蒋肖斌）2026戛纳世界人工智能大会（WAICF 2026），近日在法国戛纳举办

2026-02-21 12:10:00

杭州一家高科技创业公司员工每人领一个陪伴机器人回家过年

春节去各地见见世面长长“脑子”这个春节，大多数打工人都卸下KPI返乡团聚。杭州一家名为镭萌科技的创业公司，却有一群特殊的“员工”在忙着长“脑子”

2026-02-21 08:11:00

一批高价值专利项目集中发布助力“开门红”

建设一流创新生态激发创新投资需求杭州日报讯日前，浙江（杭州）知识产权创新产业园内，一场旨在连接技术与资本的专利产业化投融资专项对接活动火热举行

2026-02-21 08:11:00

经济大省挑大梁 | 春节“不打烊” 开足马力生产忙

新春佳节，浙江不少企业春节“不打烊”，抢订单、赶交付、跑海外，把年过在了车间里和海外展台前。走进宁波这家科技企业，工作人员正紧盯屏幕

2026-02-20 15:04:00

乐购新春购津城好物沉浸式感受津城喜庆氛围扫码阅读手机版

春风策马来津城贺新年

2026-02-20 16:42:00

新品新体验新场景首店开了又开了

马年春节，杭城消费市场持续升温。一批全国首店、浙江首店、杭州首店密集登陆湖滨、武林、钱江新城、奥体等核心商圈，覆盖潮玩

2026-02-20 07:31:00

焕新升级智能家电受欢迎

大年初三，杭州苏宁易购庆春路店暖意融融。大厅里“焕新幸福年”的红色标语格外醒目。店内客流平稳，多为全家同行的家庭顾客，虽不似年前拥挤

2026-02-20 08:01:00

春节后还会有9.9元的咖啡吗？

“库迪咖啡竟然涨价了，9.9元的咖啡以后还能闭眼冲吗？”春节前最后一个工作日，东北姑娘小乔中午赶到杭州火车东站，准备坐高铁回老家

2026-02-20 08:01:00

潮声丨从“Made in”到“Design by”，浙江品牌

新春，义乌老板们已经忙碌起来。这几天，24家义乌企业亮相2026年美国拉斯维加斯服装服饰及面料展，带着新品抢订单、拓市场

2026-02-19 16:24:00

新春走基层｜“解码”潮玩盲盒：Z世代用情绪消费点亮团圆年

中青报·中青网记者沈杰群余冰玥李怡蒙见习记者蒋欣雨95后北京职员王之怡在新加坡休假时，特意去了环球影城附近的泡泡玛特，店内挤满了年轻人

2026-02-19 12:05:00

春节不放假这家小巨人企业订单爆满

大年初一，匆匆赶到湖州的生产基地，给春节坚持留守在生产一线的一百多名员工发完新春红包后，金羽新能董事长兼总经理黄杜斌又拿起了手机

2026-02-19 08:20:00

人民日报评阿里千问：从“猜你喜欢”到“懂你需要”，AI真正走

以下为报道原文：从“猜你喜欢”到“懂你需要” 人工智能加速“嵌入”日常生活人民日报记者谷业凯“帮我订春节假期南京到三亚的往返机票

2026-02-18 17:52:00

重要突破！中国科大发现新型有序物态——理想非晶体

大皖新闻讯 2月18日，大皖新闻记者从中国科学技术大学获悉，该校童华教授、徐宁教授及其合作者在非晶物态理论研究中取得重要突破

2026-02-18 17:53:00

新的一年，骉腾万里

新岁启程，马蹄声疾。骉（biāo），《说文解字》解读为“众马也”。单从字形便觉气势如虹，三马叠加，并辔而行。从一马当先

2026-02-18 14:39:00

头条订阅服务

openai推出mle-bench新基准