• 我的订阅
  • 科技

研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

类别:科技 发布时间:2024-02-04 17:00:00 来源:中关村在线

2024-02-04 10:57:47 作者:姚立伟

研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

2月4日消息,研究人员发现网络上的大量内容都经过机器翻译(MT)的处理,且翻译质量普遍较低。这一现象引发了对训练大型语言模型时数据来源考量的重要性的关注。

研究团队开发了一项名为“多维cc矩阵”(MWccMatrix)的庞大资源来更深入地理解机器翻译内容的特征。该资源包含90种语言中64亿个独特的句子,并包括各种翻译元组,即相互之间进行翻译的一组句子。

研究结果显示,大部分网络内容都被翻译成多种语言,主要通过机器翻译完成。这种现象不仅仅在资源相对较少的语言的翻译中存在,而且这些语言的所有网络内容中也占很大一部分。

研究人员还注意到,在广告等目的的驱使下,被翻译成多种语言的内容可能存在选择性偏差。他们得出的结论是:“虽然在过去十年里机器翻译技术取得了显著进步,但仍然无法达到人类水平的质量标准。多年来,使用当时可用的机器翻译系统将机器翻译内容添加到网络上,因此网络上大部分机器翻译内容按现代标准来看可能质量很低。这可能会导致LLM模型产生更多‘幻觉’ ,而选择偏差表明即使不考虑机器翻译错误,数据质量也可能较低。数据质量对于LLM训练至关重要,其中高质量语料库如书籍和维基百科文章通常会进行多次向上采样。” 返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-04 18:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...能对话年——生成式人工智能工具开启了一个充满希望和陷阱的新世界》的文章,作者是斯蒂芬·奥尔内斯。文章摘编如下:2023年初,大型语言模型风靡全球。可以说,聊天生成预训练转换器
2023-12-30 07:56:00
...地感受到未来已来。新技术的发展,有时会伴随着悖论和陷阱。面对AI市场这片蓝海,人工智能带来的六大陷阱需要引起高度警惕。一、数据安全陷阱:你的“AI朋友”能守口如瓶吗在科幻电影
2024-06-16 21:12:00
腾讯自研混元大模型亮相,将通过腾讯云对外开放
...型降低了30%至50%;通过强化学习的方法,让模型学会识别陷阱问题;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,让大模型能够像人一样结合实际的应用场景
2023-09-07 13:57:00
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广
2024-09-30 09:51:00
自然语言处理:大模型理论与实践
今天分享的是:自然语言处理:大模型理论与实践报告共计:450页《自然语言处理:大模型理论与实践》系统介绍了大模型技术在自然语言处理中的理论与实践。核心观点1. 语言模型基础- 介
2024-10-23 20:38:00
生成式AI的抄袭输出问题值得关注(附图片)
...中均包含“screencap”。 (图片来源:IEEE Spectrum)大语言模型(LLM)在多大程度上“记住”了其训练输入内容是一直以来广受关注的问题
2024-01-11 06:45:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任
2024-11-23 09:43:00
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻
2024-08-19 13:49:00
“80后死亡率高”疑似是AI造谣,AI已经开始胡说八道了
...少三个案例,在现实中均不存在。《监视资本主义:智能陷阱》剧照2024年11月,在美国德克萨斯州的一场法律诉讼中,律师布兰登·蒙克引用了AI生成的虚假案例,被法院发现并罚款20
2025-03-11 05:56:00
更多关于科技的资讯:
三位核心人物的真诚分享,道尽燕教授 13 年健康深耕的温度与底气
10月20日19:30,燕教授《一“张”邀请函》第六季天津蓟州站在官方视频号如期开播,一场以“一“张”邀请函”为主题的深度访谈
2025-10-23 08:15:00
Soul App Q3生态安全报告:AI筑防线,共建安全可靠连接空间
随着移动互联网的普及与社交应用深度融入日常生活,社交平台已成为公众表达观点、建立连接的重要渠道。然而,随之而来的虚假信息传播
2025-10-23 08:15:00
厦门网讯(厦门日报记者 李晓平)近日,省工信厅公布第九批省级制造业单项冠军企业名单,15家厦企上榜,占全省31.2%。包括此次公布的名单
2025-10-23 08:43:00
深耕SUV越野赛道,山东新大陆跻身全球轮胎影响力品牌
齐鲁晚报·齐鲁壹点 高松山东新大陆橡胶科技有限公司成立于2012年,位于临沂市沂水县庐山工业园,是一家以研发、生产、销售高性能半钢子午胎为主的高新技术企业
2025-10-23 11:37:00
小米汽车SOS 1秒接通?高管辟谣:该内容完全失实
10月22日,小米汽车副总裁李肖爽发文:针对近期网传 “小米汽车SOS 1秒接通 不含排队时间”等相关内容,为了避免误传
2025-10-23 11:38:00
天猫双11闪购服务再升级:上线“爆火好店”超时20分钟享免单
2025天猫双11已于10月20日晚正式开售,首次参与双11大促的淘宝闪购今日官宣再加码:全面上线“爆火好店”频道,并推出“超时20分钟免单”服务
2025-10-23 11:38:00
京东001号“国民好车”最高出价超7800万元 京东回应此次异常高价成交事件
10月22日14时,京东001号“国民好车”在京东拍卖平台正式开拍,至18时结束时,最终价格为7819.3399万元,京东用户@j*p竞拍成功
2025-10-23 11:38:00
参小妹海参官宣倪萍为品牌代言人,新工厂同步剪彩开启秋冬滋补新篇
金秋十月,正值秋冬滋补季启动节点,生鲜电商领域知名海参品牌 “参小妹海参”于大连保税区工厂,正式官宣国民级主持人倪萍出任品牌代言人
2025-10-23 11:47:00
苹果入局F1直播:生态渗透与体育转播的范式革命
当苹果与F1的红色标识在屏幕上并置,一场关于体育转播、数字生态与用户体验的深层变革已然开启。2026年起,苹果将以7.5亿美元的价格拿下F1美国地区独家转播权
2025-10-23 12:17:00
科技有温度!及象教育以数字方案弥合银发群体艺术学习的“数字鸿沟”
在人口老龄化与数字科技浪潮交织的今天,如何满足日益庞大的银发群体对精神文化生活的更高追求,已成为社会各界广泛关注的重要议题
2025-10-23 11:47:00
画里有话|充电宝容量岂能“充水”
今年8月,消费者王先生在淘宝某品牌官方旗舰店购买了一款电芯容量为10000毫安的充电宝,背面小字标示的额定容量仅有6000毫安
2025-10-23 08:37:00
厦门网讯(厦门日报记者 杨霞瑜)“AI凑单比价”“AI万能搜”“AI帮我挑”……今年“双11”大促已经开始,AI在电商平台中被广泛使用
2025-10-23 08:42:00
荣耀与比亚迪达成深度战略合作 共绘智慧出行\
10月21日,荣耀与比亚迪在深圳签署战略合作协议。双方将依托荣耀车联解决方案与比亚迪 DiLink的全新一代智慧生态,以"人"为核心
2025-10-23 08:46:00
Fanttik官宣成为NBA休斯顿火箭队官方合作伙伴,以创新和品质突破行业边界
10月16日,创新工具品牌Fanttik官宣成为NBA休斯顿火箭队官方合作伙伴。此次合作基于双方理念的高度契合,Fanttik以“高性能
2025-10-23 09:16:00
宁波银行南京分行携手高德地图共筑南京餐饮数字化增长新生态
10月22日,高德到店助力餐饮行业经营发展(南京专场)活动在南京圆满落幕。该活动由宁波银行南京分行与高德地图联合主办,吸引众多餐饮企业家代表参与
2025-10-23 09:44:00