• 我的订阅
  • 科技

openai发布多语言大规模多任务语言理解

类别:科技 发布时间:2024-09-24 22:07:00 来源:浅语科技

9月24日消息,科技媒体marktechpost昨日(9月23日)发布博文,报道称OpenAI在HuggingFace上发布了多语言大规模多任务语言理解(MMMLU)数据集。

背景

随着语言模型日益强大,评估其在不同语言、认知和文化背景下的能力已成为当务之急。

OpenAI决定推出MMMLU数据集,通过提供强大的多语言和多任务数据集,来评估大型语言模型(LLMs)在各种任务中的性能,从而应对这一挑战。

MMMLU数据集简介

MMMLU数据集包含一系列问题,涵盖各种主题、学科领域和语言。其结构旨在评估模型在不同研究领域中需要常识、推理、解决问题和理解能力的任务中的表现。

openai发布多语言大规模多任务语言理解

MMMLU的创建反映了OpenAI对测量模型实际能力的关注,尤其是在NLP研究中代表性不足的语言,纳入多种语言可确保模型在使用英语时有效,并能胜任全球使用的其他语言。

MMMLU数据集核心

涵盖范围广

MMMLU数据集是同类基准中最广泛的基准之一,涵盖了从高中问题到高级专业和学术知识的多种任务。

研究人员和开发人员在利用MMMLU数据集过程中,可以调用不同难度的问题,测试大预言模型在人文、科学和技术主题下的表现。

更考验深层认知

这些问题都经过精心策划,以确保对模型的测试不局限于表面理解,而是深入研究更深层次的认知能力,包括批判性推理、解释和跨领域解决问题的能力。

多语言支持

MMMLU数据集的另一个值得注意的特点是它的多语言范围,支持简体中文。该数据集支持多种语言,可以进行跨语言的综合评估。

openai发布多语言大规模多任务语言理解

然而,以英语数据训练的模型在使用其他语言时往往需要帮助来保持准确性和连贯性。MMMLU数据集提供了一个框架,用于测试传统上在NLP研究中代表性不足的语言模型,从而弥补了这一差距。

MMMLU数据集意义

MMMLU的发布解决了人工智能界的几个相关挑战。它提供了一种更具多样性和文化包容性的方法来评估模型,确保它们在高资源和低资源语言中都能表现出色。

MMMLU的多任务特性突破了现有基准的界限,它可以评估同一模型在不同任务中的表现,从类似琐事的事实回忆到复杂的推理和问题解决。这样就能更细致地了解模型在不同领域的优缺点。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-25 00:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
... MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。大规模多语医疗语料(MMedC)构建在构建数据集方面,研究团队收集了一份多语言医疗语料库
2024-09-30 09:51:00
Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源
...100种语言语音翻译的需求。因此,Meta为200种语言构建了大规模多语言和模态文本嵌入空间SONAR,能快速搜索具有相似性的多种语言
2023-08-24 11:03:00
腾讯ailab发现了chatgpt的又一个短板
...性:ChatGPT是基于GPT-3开发的模型,GPT-3在涵盖各种领域的大规模数据集进行上训练,因此,在特定领域的表现
2023-02-14 15:51:00
AI翻译界杀手诞生!阿里国际翻译大模型吊打谷歌和GPT-4
...种识别、多维度数据质量评估,由此,就获得了高质量、大规模多语言数据。与此同时,通过利用多语言MoE、参数扩展方法,从而保证主导语言(如中英)性能不下降的情况下,提升了其他语种
2024-10-17 09:49:00
“百模大战”,国产 GPT 大全
...yan.baidu.com/welcome通义千问“通义千问”是阿里云推出的超大规模的语言模型,功能包括多轮对话、文案创作
2023-05-07 20:34:00
...其中,北京大学王选计算机研究所建成了中华精品字库。大规模构建语言资源体系。建成了世界最大规模语言资源库和中国语言资源知识图谱,多模态集成120多种语言和方言资源。大领域布局大
2025-03-31 17:51:00
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
...于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力与潜力。一直以来,想要完整建模在线购
2024-11-21 09:45:00
...监事会成员。 36氪了解到,reInventAI已经开始训练第一个大规模的语言模型,预计在2024年年初发布。reInventAI相信
2023-07-13 12:59:00
最新美国国家人工智能科学院院士介绍
...来自牛津大学,专注于机器学习和数据挖掘,尤其在处理大规模数据集方面取得了显著成果。 SophiaWang,来自哈佛大学,致力于自然语言处理与机器翻译的研究,提高了多语言之间
2024-03-24 08:39:00
更多关于科技的资讯:
国产热成像品牌实力榜解析
曾几何时,红外热成像江湖是FLIR、雷神等海外巨擘的专属领地,技术壁垒与市场垄断如同铜墙铁壁。但如今,国产力量强势崛起
2026-01-15 17:21:00
智启创业新篇 共筑产业高地——2026年青岛市AI创业生态大会举办 单人AI创业家(OPIE)平台同步上线
鲁网1月15日讯(记者 薛同春 通讯员 赵红)1月15日,2026年青岛市AI创业生态大会暨单人AI创业家(OPIE)平台上线发布会在青岛国际会议中心隆重举行
2026-01-15 17:22:00
当一场场标榜“山姆线上直播”“无需会员费”“全国配送”的带货狂欢在网络直播间轮番上演时,消费的便捷似乎触手可及。然而,喧嚣背后隐藏着另一重真相
2026-01-15 17:58:00
在智能化浪潮席卷各行业的今天,如何正确理解并应用人工智能,成为转型的关键。针对这一热点话题,贵州省人工智能机器视觉产研中心算法专家
2026-01-15 18:34:00
海外网1月15日电 据美国《新闻周刊》网站报道,由于销售状况不佳和债务情况恶化,美国高端百货零售企业萨克斯环球于当地时间14日宣布申请破产
2026-01-15 19:39:00
纵览名师讲堂 | 关注中考动向,聚焦高频考点一尺规作图与图形剪拼解题策略
石家庄市第九中学齐迎霞老师主讲中考数学高频考点——尺规作图与图形剪拼解题策略
2026-01-15 16:19:00
纵览原创|盒马指数171远超一线城市均值!石家庄新零售火爆的背后
记者 李春炜1月13日傍晚六点半,石家庄勒泰中心负一层的盒马鲜生门店内,选购新鲜果蔬、烘焙点心的顾客络绎不绝,收银台前排起长队
2026-01-15 16:21:00
海尔巴基斯坦发布冰箱新品 夯实高端引领地位
当地时间1月8日,海尔巴基斯坦经销商峰会在拉合尔成功举办。会上,海尔冰箱正式推出27款全系彩屏变频新品,包括Vista风冷系列以及全面升级的TM660系列
2026-01-15 16:13:00
曾经百元一颗,如今打三四折也卖不动,网红年宵花,过了风口要“昙花一现”?
“今年我一颗荷兰进口朱顶红种球都没进,去年囤的七八万颗卖不动,仓库还堆着不少尾货。”在浙江深耕种球贸易数十年的赵先生这样对记者说
2026-01-15 14:57:00
2025年,“商业航天”无疑是中国经济领域最热的关键词之一。这股热潮的兴起并非偶然,而是多重因素共同催化的结果——“商业航天”被写入国家“十五五”规划
2026-01-15 11:33:00
大河网讯(记者 赵檬 王怡潇 )蜜雪冰城开到美国好莱坞,锅圈食汇解决家庭聚餐新需求……河南食品企业越来越“潮”,频频打造全国爆款
2026-01-15 12:03:00
1月13日,“又一省份取消12345热线语音导航”的话题登上社交平台热搜。辽宁省营商环境建设领导小组办公室印发了《2026年优化政务环境行动方案》
2026-01-15 13:25:00
千问App全面接入支付宝,上线AI付款
1月15日,千问App宣布全面接入淘宝闪购和支付宝AI付,实现一句话点外卖。用户只需在千问的聊天框里自然说话,如“帮我点杯奶茶”或“帮我点两杯咖啡”
2026-01-15 13:33:00
千问App接入淘宝、闪购,测试AI购物功能
1月15日,千问App宣布全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,在全球首次实现点外卖、买东西、订机票等AI购物功能
2026-01-15 11:00:00