• 我的订阅
  • 科技

腾讯ailab发现了chatgpt的又一个短板

类别:科技 发布时间:2023-02-14 15:51:00 来源:浅语科技

ChatGPT一出,学界、工业界无不惊为天人。一位研究机构的资深研究员就对AI科技评论说过:“ChatGPT出来,直接给我们整不会了——生成做的比我们好就不说了,NLP(自然语言处理)能力还比我们强不少。”

微软注资百亿美元,谷歌则如临大敌,ChatGPT在科技圈里掀起的巨浪,仍是现在进行时。

但是,ChatGPT并非“万能钥匙”——大模型在某些专业领域的准确度,仍然无法超越其他垂类产品。

近日,腾讯AILab就通过实验证明,在机器翻译领域,ChatGPT在某些情况下,能力弱于其他商业翻译产品。

腾讯ailab发现了chatgpt的又一个短板

论文地址:https://arxiv.org/pdf/2301.08745v1.pdf

1、ChatGPT是个好翻译吗?

腾讯AILab的调查文指出:

首先,在高资源环境——如欧洲语言上——ChatGPT的表现与商业翻译产品(如谷歌翻译、DeepLTranslate)相比具有竞争力,但是,在低资源环境明显落后,如古代语言;

其次,在翻译的鲁棒性上,ChatGPT在生物医学摘要、或Reddit评论方面表现不如商业翻译产品,但是在口语方面也许会是一个很好的翻译工具。

为了更好地理解ChatGPT的翻译能力,腾讯AILab从以下三个方面开展实验:

提示词(Prompt)翻译:

ChatGPT是一个大型语言模型,在翻译时需有提示词(Prompt)作为引导才能引导系统进行翻译。所以,提示词的风格会影响翻译输出的质量。例如,在多语言机器翻译模型中,如何将两种语言信息联系起来非常重要,这通常是通过附加语言标记来解决。

多语言翻译:

ChatGPT是一个处理各种NLP任务并涵盖不同语言的单一模型,可以被视为一个统一的多语言机器翻译模型。因此,ChatGPT在资源差异(如高与低)和语系差异(如欧洲与亚洲)上的表现是该实验所探讨的重点之一。

翻译鲁棒性:

ChatGPT是基于GPT-3开发的模型,GPT-3在涵盖各种领域的大规模数据集进行上训练,因此,在特定领域的表现,是这次研究者们的重点之一。

提示词翻译

为了设计触发ChatGPT机器翻译能力的提示词,腾讯AILab团队向ChatGPT提出以下prompt:

提供十个可以让你翻译的简明提示或模版

并获得图1中的结果:

腾讯ailab发现了chatgpt的又一个短板

图1:ChatGPT推荐的10个可引发其进行机器翻译的prompt

生成的提示语看起来很合理,但是都有相似的格式,研究人员将它们总结成三个候选prompt(如图2),其中[SRC]和[TGT]分别代表翻译的源语言和目标语言。

另外,研究人员在Tp2中增加了一个额外命令,要求ChatGPT不要在翻译的句子上加双引号(在原始格式中经常发生)。

尽管如此,ChatGPT依旧不稳定,如会将同一批次的多行句子翻译成单行。

腾讯ailab发现了chatgpt的又一个短板

图2:候选翻译提示

研究人员将三种不同的候选prompt与Flores-101的测试集在汉译英任务中的表现进行比较,图3显示了ChatGPT和其他三个翻译软件的结果。

虽然ChatGPT提供了相当好的翻译,但它仍然落后于基线至少5.0个BLEU点。

关于三个候选prompt,Tp3在所有指标方面表现的最好,因此在这篇论文中,研究者默认使用Tp3。

腾讯ailab发现了chatgpt的又一个短板

图3:在中译英翻译任务中ChatGPT使用不同提示语的翻译表现对比

多语言翻译

腾讯AILab选择了四种语言来评估ChatGPT在多语言翻译中的能力,包括德语(De)、英语(En)、罗马尼亚语(Ro)和中文(Zh),这些语言在研究和竞赛中都被普遍采用。

前三种语言同来自拉丁语系,而后一种则来自中文语系。

研究人员测试了任意两种语言间的翻译表现,共涉及12次翻译。

资源差异

通过实验发现,在同语系中不同语言也存在资源差异。在机器翻译中,德英互译通常被认为是一个高资源任务,有超过1000万条语料,罗马尼亚语与英语间互译语料要少得多。

如图4所示,ChatGPT在德译英和英译德上,与谷歌翻译和DeepL可以分庭抗礼;而在罗马尼亚语译英,和英译罗马尼亚语方面,则要明显落后。

具体来说,ChatGPT在英译罗马尼亚语上获得的BLEU分数比谷歌翻译低了46.4%。

腾讯ailab发现了chatgpt的又一个短板

图4:ChatGPT在多语言翻译中的表现

研究者认为,英语和罗马尼亚语之间的单一语言数据的巨大资源差异,限制了罗马尼亚语的语言建模能力,这部分解释了将英语翻译成罗马尼亚语表现差的原因。

相反,罗马尼亚语译成英语可以受益于强大的英语建模能力,使平行数据的资源缺口可以得到一定程度的补偿。

语系

同时,研究人员也考虑了语系的影响。

通常认为,对于机器翻译,不同语系之间的翻译通常比同一语系间翻译更难。

研究人员发现,德英互译、汉英互译,或者德汉互译在文化和书写方式上存在差异。

另外可以发现,在这几种翻译中,ChatGPT和几款商业翻译软件间差距较大,研究者认为,这是因为在同一语系中知识转移比在不同语系间要好,对于既是低资源又来自不同语系的语言来说(如罗马尼亚语和汉语的互译),这种差距会进一步扩大。

由于ChatGPT在一个模型中处理不同的任务,低资源的翻译任务不仅与高资源的翻译任务竞争,而且还与其他NLP任务竞争模型容量,这说明其性能表现欠佳。

翻译鲁棒性

腾讯AILab进一步评估了ChatGPT在WMT19Bio和WMT20Rob2和Rob3测试集上的翻译鲁棒性,这些测试集引入了领域偏见和潜在的噪声数据。

例如WMT19Bio测试集是由Medline摘要组成的,这需要特定领域的知识处理,WMT20Rob2是来自Reddit的评论,可能包含各种错误,如拼写错误、单词遗漏、插入重复、语法错误、破坏性语言,和网络俚语等。

图5列出了BLEU分数,显然ChatGPT在WMT19Bio和WMT20Rob2测试集上的表现不如谷歌翻译和DeepLTranslate。

腾讯ailab发现了chatgpt的又一个短板

图5:ChatGPT在翻译鲁棒性方面的表现

原因可能在于,像谷歌翻译这样的商业翻译产品往往需要不断提高其翻译特定领域(如生物医学)或噪音句子的能力,因为它们是现实世界的应用,需要对分布之外的数据有更好地概括性,ChatGPT不太能够完成这一点。

不过,一个有趣的发现是,ChatGPT在包含众包语音识别语料的WMT20Rob3测试集上大大超过了谷歌翻译和DeepLTranslate。

这表明,ChatGPT本质上是一个人工智能对话工具,能够比商业翻译软件生成更自然的口语(见图6)。

腾讯ailab发现了chatgpt的又一个短板

图6:来自WMT20鲁棒集set3的例子

2、ChatGPT应如何扬长避短?

从该研究可知,高举高打的ChatGPT每训练一次就耗费大量算力资源,但也不能在全领域尽善尽美。

所以,一些人开始思考,是否应该“摒弃”大模型思路,转而去做“精耕细作”的小模型。

腾讯AILab在ChatGPT“测评”中提到,罗马尼亚语与英语互译,相较德英互译存在较大差距,原因在于:巨大资源差异,限制了罗马尼亚语的语言建模能力,也恰恰证明,AI学习能力常常受到低资源的掣肘。

但也有资深学者认为,尽管现时ChatGPT仍存在不少不足之处,但仍然对研究者和创业者有着不少启示。

以ChatGPT为代表的AI3.0走的是跟过去AI浪潮不一样的路,即更落地、更接近真实世界,在工业应用上,更直接,更落地,从学术研究到工业落地的路径也变得更短、更快。

未来,“helpful,truthful,harmless”的AI系统会成为现实。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-02-14 17:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

罗马尼亚“林氏”一家的中国情缘(海客话中国)
...家一样。”三个孩子林娜、林安和林莉的中文名字结合了罗马尼亚语发音和梅丽丹对她们的期待,“林”则来源于王维的名句“深林人不知,明月来相照”。梅丽丹还为孩子们制定了精细的“家庭中
2023-10-16 06:33:00
阅读日 | 诺奖女作家赫塔·米勒:写作是一种沉默的行动
...勒更为敏感的,是语言。15岁那年,米勒进城后开始学习罗马尼亚语,起初非常吃力。半年后,一切突然改变了,“我似乎什么都没干,所有人行道、机关的窗口、电车、商店里的货品,我一下子
2023-10-25 14:24:00
欧媒到访北京汽车越野车工厂,探秘中国新质生产力发展
...代表,以及中央广播电视总台欧洲拉美地区语言节目中心罗马尼亚语、克罗地亚语网红工作室主播参访北京,打卡北京科技创新标杆企业、文化地标建筑,了解北京城市建设发展现状,感受北京国际
2024-04-10 14:47:00
免费IDM软件序列号2023许可证密钥Internet Download Manager
...德语、意大利语、日语、挪威语、马其顿语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语和泰语。可定制的界面您可以从 IDM 主窗口中的一系列按钮、列和订单中进行选择。工具栏有
2023-01-04 08:00:00
记者:孔帕尼奥明天将上中文课,他是学习型人才
...习型家庭。之前孔帕尼奥在罗马尼亚踢球,半年的时间,罗马尼亚语他基本都能听懂,也会说好多,哥们儿确实是个每到一地从语言开始深度嵌入的学习型人才。孔帕尼奥本赛季代表天津津门虎出场
2024-04-13 18:49:00
...菲律宾语、日语、乌克兰语、希腊语、捷克语、芬兰语、罗马尼亚语、丹麦语、保加利亚语、马来语、斯洛伐克语、克罗地亚语、高级阿拉伯语和泰米尔语等,英语、波兰语、德语、西班牙语、法语
2023-08-24 20:31:00
挪威作家约恩·福瑟摘得2023年诺贝尔文学奖桂冠
...搬上全球各地的舞台。约恩·福瑟的作品被翻译成阿尔巴尼亚语、希伯来语、加泰罗尼亚语、波斯语、萨米语、斯洛文尼亚语、藏语及其他40多种语言。他曾经获得多项殊荣,包括获得斯堪的纳维
2023-10-05 23:12:00
Internet Download Manager2023和谐版下载器补丁包
...文,立陶宛文,马其顿文,挪威文,波兰文,葡萄牙语,罗马尼亚语,俄语,塞尔维亚语,斯洛伐克语,斯洛文尼亚语,西班牙语
2023-01-05 05:00:00
...译家白罗米谈道,解决翻译中国文学的难点,首先要去买罗马尼亚语词典,巩固对自己母语的掌握,“得继续学习,得继续看书,这个很重要。”无独有偶,《人民文学》主编徐则臣也提到他对母语
2025-07-22 07:37:00
更多关于科技的资讯:
中新经纬1月15日电 据“深圳市消费者委员会”微信号消息,近期,深圳市消委会开展儿童洞洞鞋比较试验,从线上、线下随机购买15款样品
2026-01-15 21:00:00
做完近视手术后,到底能不能看手机、电脑?划重点:可以看,但要讲“时机”和“方法”,盲目用眼可能会影响恢复哦!首先要明白
2026-01-15 22:13:00
依托自主研发的金融科技平台与线上化系统支撑,昆山农商银行成功推出“贵金属线上业务”及专属财富管理小程序,突破传统贵金属业务的地域与时间限制
2026-01-15 22:40:00
最高补贴1500元!家电、数码全都有,这份“省钱指南”请收好
大河网讯 近日,郑州航空港区正式启动2026年消费品以旧换新补贴活动,覆盖汽车、家电、数码智能产品三大领域,通过真金白银的补贴
2026-01-15 21:17:00
消费选择的力量:OATLY携手各界伙伴共建可持续生态
作为全球前沿和领先的燕麦奶公司,OATLY在创立30多年的时间里,始终倡导健康与可持续的生活理念,持续开发优质燕麦产品
2026-01-15 21:29:00
赋能卓展新材料产业链升级,万事达以一体化方案打造高标准智造厂房
在制造业高质量发展的背景下,高标准工业空间成为企业提升竞争力的关键。近日,万事达集团(以下简称“万事达”)与山东卓展新材料有限公司(以下简称“卓展新材料”)正式达成合作
2026-01-15 21:29:00
国产热成像品牌实力榜解析
曾几何时,红外热成像江湖是FLIR、雷神等海外巨擘的专属领地,技术壁垒与市场垄断如同铜墙铁壁。但如今,国产力量强势崛起
2026-01-15 17:21:00
智启创业新篇 共筑产业高地——2026年青岛市AI创业生态大会举办 单人AI创业家(OPIE)平台同步上线
鲁网1月15日讯(记者 薛同春 通讯员 赵红)1月15日,2026年青岛市AI创业生态大会暨单人AI创业家(OPIE)平台上线发布会在青岛国际会议中心隆重举行
2026-01-15 17:22:00
当一场场标榜“山姆线上直播”“无需会员费”“全国配送”的带货狂欢在网络直播间轮番上演时,消费的便捷似乎触手可及。然而,喧嚣背后隐藏着另一重真相
2026-01-15 17:58:00
在智能化浪潮席卷各行业的今天,如何正确理解并应用人工智能,成为转型的关键。针对这一热点话题,贵州省人工智能机器视觉产研中心算法专家
2026-01-15 18:34:00
海外网1月15日电 据美国《新闻周刊》网站报道,由于销售状况不佳和债务情况恶化,美国高端百货零售企业萨克斯环球于当地时间14日宣布申请破产
2026-01-15 19:39:00
纵览名师讲堂 | 关注中考动向,聚焦高频考点一尺规作图与图形剪拼解题策略
石家庄市第九中学齐迎霞老师主讲中考数学高频考点——尺规作图与图形剪拼解题策略
2026-01-15 16:19:00
纵览原创|盒马指数171远超一线城市均值!石家庄新零售火爆的背后
记者 李春炜1月13日傍晚六点半,石家庄勒泰中心负一层的盒马鲜生门店内,选购新鲜果蔬、烘焙点心的顾客络绎不绝,收银台前排起长队
2026-01-15 16:21:00
海尔巴基斯坦发布冰箱新品 夯实高端引领地位
当地时间1月8日,海尔巴基斯坦经销商峰会在拉合尔成功举办。会上,海尔冰箱正式推出27款全系彩屏变频新品,包括Vista风冷系列以及全面升级的TM660系列
2026-01-15 16:13:00