• 我的订阅
  • 科技

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

类别:科技 发布时间:2024-11-21 09:45:00 来源:量子位

谁是在线购物领域最强大模型?也有评测基准了。

基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——

联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力与潜力。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

一直以来,想要完整建模在线购物相当复杂,主要痛点是:

多任务性:在线购物中存在多样的实体(例如商品、属性、评论、查询关键词等)、关系(例如关键字和商品的匹配度,商品和商品之间的兼容性、互补性)和用户行为(浏览、查询、和购买)。

对这些实体、关系和行为和联合建模与理解构成一个复杂的多任务(multi-task)学习问题。

少样本性:在线购物平台会不断面临新用户、新商品、新商品品类等带来的冷启动(cold-start)场景。在冷启动场景下,在线购物平台需要解决少样本(few-shot)学习问题。

不过,诸如GPT,T5,LLaMA等的大语言模型(LLM)已经展现出了强大的多任务和少样本学习能力,因而有潜力在在线购物领域中得到广泛应用。

而为了进一步找出最强、最具潜力的LLM,测试基准Shopping MMLU应运而生——

与现有数据集相比,Shopping MMLU覆盖了更多的能力(四项)和任务(57个)。

同时,基于Shopping MMLU,亚马逊举办了KDD Cup 2024数据挖掘竞赛,吸引了全球超过500支队伍参赛。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

广泛的能力和任务覆盖

为了全面、充分评估大语言模型在在线购物领域中的能力,研究首先分析了在线购物领域的独特性:

特定领域的短文本:在线购物中存在大量的特定领域名词,例如品牌、产品名、产品线等。此外,这些特定领域名词往往出现于短文本中,例如查询关键词、属性名-值对等。因此,在缺乏上下文的短文本中理解特定领域名词,是在线购物领域的一个独特挑战。 商品的隐含知识:大部分商品都隐含特定的知识,例如AirPods使用蓝牙连接,不需要转接线;碳纤维制品一般重量很轻等。如何准确理解不同商品隐含的知识并且进行推理,是在线购物领域的另一个独特挑战。 异质且隐式的用户行为:在线购物平台上存在多种多样的用户行为,例如浏览、查询、加购物车、购买等。这些行为大部分都不以语言表达,因此如何全面理解这些异质的用户行为,是在线购物所必须解决的问题。 多语言任务:在线购物平台往往在不止一个地区运营,因此需要模型能同时理解多种语言描述下的商品和用户问题。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

基于以上分析,研究构造了Shopping MMLU,覆盖四项在线购物能力,共计57个任务:

在线购物概念理解 在线购物知识推理 用户行为理解 多语言能力

下表可见,Shopping MMLU相比现有数据集覆盖了更多的能力和任务。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

能力和任务构成如下图所示。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

Shopping MMLU大部分由真实的亚马逊在线购物数据构造,并且经过人工检验,尽可能排除低质量数据,例如标注错误,缺乏必要信息等。

部分问题示例如下。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
多样任务真实数据,大模型在线购物基准Shopping MMLU开源

主流大语言模型成绩单

研究选取了共27个主流大语言模型进行实验分析,其中包括:

闭源模型(Claude-3, Claude-2, GPT) 开源通用领域模型(LLaMA2、LLaMA3、QWen、Mistral) 开源特定领域模型(eCeLLM,经过在线购物领域数据进行微调)

实验结果如下表所示。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

研究发现,虽然闭源模型仍然处于领先(例如Claude-3 Sonnet整体排名第一),但开源模型已经能够赶上闭源模型的性能(例如QWen和LLaMA3)。

此外,特定领域模型eCeLLM并未在同参数量级下取得最好成绩,说明Shopping MMLU是一个有相当难度的评测基准,无法通过简单的微调取得好成绩。

如何打造在线购物领域大模型

基于Shopping MMLU,研究分析常用的大模型增强手段,进一步探究如何打造强大的在线购物领域大模型。

首先,如下图所示,模型在不同能力和任务上的得分高度正相关。这说明了在线购物领域的不同任务之间存在共同的知识,可以使用大语言模型进行整体性的建模和能力提升。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

其次,如下图所示,模型的Shopping MMLU得分和模型在通用大模型基准测试的得分(Open LLM Leaderboard)同样高度相关。

另外,随着同一个模型家族内模型增大,其Shopping MMLU得分同样增加。

这表明大语言模型的通用能力可以很好地迁移到在线购物领域中,构造特定领域大模型的基础是强大的通用能力。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

随后,研究分析了微调对模型在Shopping MMLU得分的影响。

通用领域的微调一般对模型在Shopping MMLU上有提升。不过,这一结论也与基础模型的能力,微调的数据质量等因素存在关系。

例如,在LLaMA2-70B上,研究观察到经过微调的LLaMA2-70B-chat得分低于LLaMA2-70B,而在LLaMA3-70B上没有观察到这一现象。

可能的原因是,相对较小的微调数据使得LLaMA2-70B过拟合,导致通用能力的部分丢失,进而导致Shopping MMLU上得分下降。

反之,LLaMA3使用了更高质量的微调数据,所以能够保留通用能力,同时增强模型回答问题的能力,得到更高的分数。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

特定领域微调(如eCeLLM)并未能在Shopping MMLU上取得最高得分。

为了探究其中原因,研究测试了eCeLLM与其基础模型在通用能力上的对比。结果表明,经过特定领域微调的eCeLLM相比其基础模型的通用能力一般有所下降。

这可能是导致eCeLLM未能取得最高得分的原因,也同时强调了通用能力对于对特定领域的重要性。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

总结

Shopping MMLU是一个针对大语言模型和在线购物领域设计的评测指标。其包含广泛的任务和能力覆盖(4项重要能力,共计57个任务),可以全面评估大语言模型在在线购物领域的能力和潜力。

Shopping MMLU基于亚马逊的真实购物数据打造,经过人工筛选,保证数据质量。基于Shopping MMLU,研究展开了大量实验分析,为这一领域后续的研究和实际应用提供了有价值的结论。

目前,Shopping MMLU以及其对应的资源全部开源并将持续维护,方便研究人员和开发者进行深入探索和应用。

Shopping MMLU的数据以及对应评测代码已经于GitHub公开。

同时,为了构造开放、开源的评测体系,研究基于Shopping MMLU建立了一个排行榜。

官方表示,Shopping MMLU欢迎新模型加入排行榜,如果有兴趣的话可以于GitHub上与Shopping MMLU维护者进行联系。

多样任务真实数据,大模型在线购物基准Shopping MMLU开源

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-21 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型能代替你刷知乎、打炉石传说、解谜“海龟汤”吗?清华、伯克利的科学家一口气测评了这25个LLM
...的推理和决策能力。研究人员利用Webshop——一个模拟的在线购物环境——来评估语言智能体。该测试环境显示网页的文本观测信息以及智能体可用的操作。智能体可以自由地探索网站并通
2023-08-18 12:00:00
中免海南智慧零售全域数字化加速
...、数字化、高效化,积极开展报表建设工作,并加强智能模型的支撑,让智能报表为企业的经营、管理提供强大的数据支撑,驱动企业业绩持续增长。比如,在数据看板统一标准方面,通过可视化技
2024-05-20 03:21:00
李飞飞最新报告:美去年AI领域私人投资是中国近9倍,中国仍是美最大竞争对手
...行性能正在不断提高,例如可以自主完成现实任务,包括在线购物和协助研究等。3.负责任的人工智能AI Index的最新研究显示
2024-04-17 10:00:00
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
...的能力从0.705提高到0.938ScreenSpot评估ScreenSpot数据集是一个基准测试数据集,包含了来自移动设备(iOS
2024-10-28 09:51:00
春风快马,京东云猛追阿里云
...七位作者。Transformer论文提出新的架构,被认为奠定了大模型发展的基础。几年沉寂后,大模型在22年底刮起了一阵“龙卷风”,直到现在。然而在开场的演讲中,黄仁勋首先谈到
2024-03-29 10:00:00
硅谷巨头内部文件泄露:67种用ChatGPT“打工”的方式首次曝光
...了提到用法之外,该文件还讨论了如何把 ChatGPT 等大语言模型工具结合到亚马逊自家的产品中。例如,有团队成员建议创建为亚马逊商店创建一个对话界面,引导用户在线购买产品,当
2023-06-16 16:47:00
美国今年“黑五”购物周近几年“最便宜”
...李建国摄)据美国劳工统计局提供的数据,玩具、游戏和模型等商品的价格自2020年以来首次下调,运动用品价格也自2018年以来首次下调。路透社说,考虑到美国联邦储备委员会先前猛烈
2023-11-30 00:06:00
积木易搭携鞋业3D数字化整体解决方案亮相第二十四届鞋博会,助力鞋业迈入3D互动体验营销时代
...应时而动,引入3D互动沉浸式体验营销方式,通过鞋子3D模型立体交互展示、AR试穿等沉浸式互动体验功能,大大提升消费者的消费体验,提升品牌整体竞争力。想要进行鞋子3D互动营销展
2023-04-20 16:00:00
像使用购物软件一样下单!国内首个算力互联公共服务平台发布
...从而降低我们获取算力资源的门槛,能够帮助人工智能大模型企业创新发展。工业和信息化部提出了“先互联、再成网、同步建市场”的算力互联互通推进思路。目前,我国已经规划建设了181条
2024-07-12 09:30:00
更多关于科技的资讯:
像导游一样的前台、会直播的销售 去酒店上班,也要懂自媒体运营
今年,杭州的酒店屡上热搜,先是酒店外摆卖美食,再是40元打包酒店自助餐……那些“第一个吃螃蟹”的酒店借着流量火了一波,证实了酒店在公域耕耘的重要性
2025-12-29 08:42:00
解码当下流行文化:腾讯QQ流行文化观察(2025)
卷首语从通讯工具到数字生活空间当我们在2025年审视QQ,看到的早已不是一个简单的即时通讯应用。它更像一座自然形成的数字城市
2025-12-29 08:43:00
“数据合规与保护专业能力评价”首次考试圆满举行
2025年12月27日,由中国计算机行业协会主办的“数据合规与保护专业能力评价”首次考试顺利举行,作为国内第一个数据合规领域的标准化能力评价考试
2025-12-29 09:13:00
中新经纬12月29日电 据韩联社报道,韩国电商巨头酷澎(Coupang)创始人、其美国母公司酷澎Inc.董事会主席金范锡(音)12月28日就近期引起广泛关注的用户信息外泄事件首次公开致歉
2025-12-29 10:16:00
2025年,兴业银行石家庄分行以“安愉人生”养老金融服务品牌为核心,围绕“生态构建、服务升级、安全守护”三大维度发力,全方位推进养老金融高质量发展
2025-12-29 10:29:00
做用户信赖的智家服务守护者——记泰安联通岱岳分公司夏张营业部王景峰
鲁网12月29日讯泰安联通岱岳夏张营业部智家工程师王景峰,坚守装维服务一线,以精益求精的服务态度、扎实过硬的专业能力,成为用户口中“信得过
2025-12-29 11:02:00
预计年产值20亿元!杭州新开工项目,2028年投用!
近日,杭州赋厨人工智能产业发展有限公司新建AI+智能厨电研发及生产项目正式开工建设。据悉,该项目位于杭州富春湾新城,总投资10亿元
2025-12-29 08:11:00
RUA RUA PANDA大熊猫主题全球巡展伦敦站期间,来自德国、法国、荷兰的粉丝专程“打飞的”到Bamboo Zoo快闪店抢购侦探熊猫
2025-12-29 07:40:00
中新经纬12月27日电 据“网信中国”微信号,27日,国家互联网信息办公室起草了《人工智能拟人化互动服务管理暂行办法(征求意见稿)》
2025-12-28 09:18:00
杭州发放10000张无门槛停车券!今天开抢
好消息:2025年12月28日至2026年1月3日,连续7天,“杭州停车”微信小程序将每天放出停车优惠券,总计10000张
2025-12-28 11:45:00
以安全智造引领行业高质量发展
坐落于青岛胶州市上合示范区的海尔上合冰箱互联一工厂,是海尔自创立以来在全球投资最大、智能化程度最高、产业链配套最完整、生态体系最健全的安全生产标杆项目
2025-12-28 15:05:00
永辉南京首家胖东来模式新店落户江宁宝龙,万达茂店焕新压轴开业
岁末钟声渐近,金陵城中,两处商业地标正悄然点亮品质生活的新图景。12月29日,永辉超市南京江宁宝龙广场店将盛大开业,这是永辉在南京全新开设的首家胖东来模式门店
2025-12-28 21:29:00
AIGC视听产业人才新生态大会在京举办
中国青年报客户端讯(中青报·中青网记者余冰玥)12月27日,2025首创郎园AIGC视听产业人才新生态大会在北京举办。面对AI创作人才日益年轻化
2025-12-28 21:31:00
国际热核聚变实验堆ITER计划校正场线圈采购包任务在合肥竣工交付
大皖新闻讯 12月28日,由中国科学院合肥物质科学研究院等离子体物理研究所(以下简称合肥物质院等离子体所)承担的国际热核聚变实验堆ITER计划校正场线圈采购包圆满完成全部的制造任务
2025-12-28 15:14:00
江南时报讯 12月27日,以“智赋江苏,聚势腾飞”为主题的2025江苏省人工智能产业发展大会在南京举行。大会设置江苏“人工智能+”创新成果展区
2025-12-28 21:23:00