我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
10月12日消息,科技媒体TheDecoder昨日(10月11日)发布博文,报道称OpenAI公司推出MLE-bench新基准,旨在评估AI智能体在开发机器学习解决方案方面的能力。
该基准包括75个Kaggle竞赛,旨在衡量自主AI系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。
IT之家注:Kaggle是一个非常受欢迎的平台,专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛,包括数据预测、图像分类、自然语言处理等,适合不同技能水平的参与者。
在Kaggle的进阶系统中,“Novice”(新手)、“Contributor”(贡献者)、“Expert”(专家)、“Master”(大师)和"Grandmaster"(特级大师)是不同的绩效层级,用于衡量和识别数据科学家在Kaggle平台上的技能水平和成就。
许多任务具有现实世界的应用,例如预测COVID-19mRNA疫苗降解或解码古代卷轴等。
MLE-bench专注于两个关键领域:
选择具有挑战性的任务:这些任务代表了当前机器学习的发展水平。
比较AI与人类的表现:通过对比,评估AI在特定任务中的能力。
OpenAI在MLE-bench上测试了多个AI模型和智能体框架,使用AIDE框架的o1-preview模型表现最佳,在16.9%的比赛中至少获得了一枚铜牌,该结果超越了Anthropic的Claude3.5Sonnet。
获得5金即可评上"Grandmaster"特级大师,而o1-preview模型在MLE-bench测试中获得了7枚金牌。
OpenAI承认MLE-bench也有局限性,并未涵盖AI研究与开发的所有方面,主要集中在具有明确问题和简单评估指标的任务上。
MLE-bench基准现已在GitHub上发布,OpenAI希望通过这一工具,推动AI在机器学习领域的进一步发展。
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2024-10-12 23:45:02
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: