• 我的订阅
  • 科技

研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

类别:科技 发布时间:2024-02-04 17:00:00 来源:中关村在线

2024-02-04 10:57:47 作者:姚立伟

研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

2月4日消息,研究人员发现网络上的大量内容都经过机器翻译(MT)的处理,且翻译质量普遍较低。这一现象引发了对训练大型语言模型时数据来源考量的重要性的关注。

研究团队开发了一项名为“多维cc矩阵”(MWccMatrix)的庞大资源来更深入地理解机器翻译内容的特征。该资源包含90种语言中64亿个独特的句子,并包括各种翻译元组,即相互之间进行翻译的一组句子。

研究结果显示,大部分网络内容都被翻译成多种语言,主要通过机器翻译完成。这种现象不仅仅在资源相对较少的语言的翻译中存在,而且这些语言的所有网络内容中也占很大一部分。

研究人员还注意到,在广告等目的的驱使下,被翻译成多种语言的内容可能存在选择性偏差。他们得出的结论是:“虽然在过去十年里机器翻译技术取得了显著进步,但仍然无法达到人类水平的质量标准。多年来,使用当时可用的机器翻译系统将机器翻译内容添加到网络上,因此网络上大部分机器翻译内容按现代标准来看可能质量很低。这可能会导致LLM模型产生更多‘幻觉’ ,而选择偏差表明即使不考虑机器翻译错误,数据质量也可能较低。数据质量对于LLM训练至关重要,其中高质量语料库如书籍和维基百科文章通常会进行多次向上采样。” 返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-04 18:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...能对话年——生成式人工智能工具开启了一个充满希望和陷阱的新世界》的文章,作者是斯蒂芬·奥尔内斯。文章摘编如下:2023年初,大型语言模型风靡全球。可以说,聊天生成预训练转换器
2023-12-30 07:56:00
...地感受到未来已来。新技术的发展,有时会伴随着悖论和陷阱。面对AI市场这片蓝海,人工智能带来的六大陷阱需要引起高度警惕。一、数据安全陷阱:你的“AI朋友”能守口如瓶吗在科幻电影
2024-06-16 21:12:00
腾讯自研混元大模型亮相,将通过腾讯云对外开放
...型降低了30%至50%;通过强化学习的方法,让模型学会识别陷阱问题;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,让大模型能够像人一样结合实际的应用场景
2023-09-07 13:57:00
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广
2024-09-30 09:51:00
自然语言处理:大模型理论与实践
今天分享的是:自然语言处理:大模型理论与实践报告共计:450页《自然语言处理:大模型理论与实践》系统介绍了大模型技术在自然语言处理中的理论与实践。核心观点1. 语言模型基础- 介
2024-10-23 20:38:00
生成式AI的抄袭输出问题值得关注(附图片)
...中均包含“screencap”。 (图片来源:IEEE Spectrum)大语言模型(LLM)在多大程度上“记住”了其训练输入内容是一直以来广受关注的问题
2024-01-11 06:45:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任
2024-11-23 09:43:00
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻
2024-08-19 13:49:00
“80后死亡率高”疑似是AI造谣,AI已经开始胡说八道了
...少三个案例,在现实中均不存在。《监视资本主义:智能陷阱》剧照2024年11月,在美国德克萨斯州的一场法律诉讼中,律师布兰登·蒙克引用了AI生成的虚假案例,被法院发现并罚款20
2025-03-11 05:56:00
更多关于科技的资讯:
鹭江观察 | 人工智能+ 厦门加出了什么?
客商体验厦门绽优科技的AI+VR产品。厦门美图大楼展厅演示AI产品。(本组图/厦门日报记者 林铭鸿 摄)●2024年,厦门位列中国人工智能城市排行榜前10●截至去年底
2025-09-16 08:18:00
德资企业威卡荣获2025“大苏州雇主品牌一等奖”及“最具发展潜力奖”
9月12日,2025 "大苏州雇主品牌大赛" 颁奖盛典在苏州广电总台落幕。德资企业威卡中国凭借卓越的雇主形象、优秀的企业文化和突出的商业表现
2025-09-16 08:34:00
记者走基层|“邯郸造”掘进钻车 北极圈矿场上岗
9月15日,河北宏远液压机械有限公司装配车间内,技术人员对智能掘进钻车进行出厂前调试。河北日报记者 陈正摄“臂展伸缩正常
2025-09-16 08:52:00
近期,预制菜话题备受消费者关注。各方讨论背后,是消费者对于知情权的关切以及对提高餐饮质量的诉求。这场讨论也促使餐饮从业者思考
2025-09-16 09:02:00
穿警服直播带货引争议,“嘎子哥”道歉,云南警方已介入
近日,辽宁的李先生向记者反映称,他在观看“嘎子谢孟伟”的直播时发现,其身着人民警察制式服装带货,于是向事发地所属的云南警方报了警
2025-09-16 10:08:00
从便捷化到多功能 户外的“家”正重塑露营体验
本报记者 赵 曦 □ 黄芷凌近日,国务院办公厅印发的《关于释放体育消费潜力进一步推进体育产业高质量发展的意见》提出,制定新一轮户外运动产业发展规划
2025-09-16 11:11:00
最近一段时间,关于钢琴销量的话题又引起了一波热度。行业龙头珠江钢琴发布的2025年一季报显示,其营收为1.24亿元,同比下降42
2025-09-16 11:11:00
中国企业牵头养老具身智能、智慧养殖首个国际标准制定
近日,IEEE SA(电气电子工程师学会标准协会)官网显示,由马上消费牵头主导的IEEE国际标准P3707《养老领域具身人工智能应用框架标准》和P3708《智慧家禽平台应用规范标准》正式获批立项
2025-09-16 11:11:00
苹果今日正式推出iOS 26正式版
苹果官网显示,iOS 26 正式版于9月16日推出。值得一提的是,仅 iPhone 11 及以上机型才支持升级 iOS 26 系统
2025-09-16 11:20:00
山东移动以AI赋能连锁商企 打造智慧客流分析系统
客流管理是零售竞争的核心,直接决定门店效益与企业精准营销水平。随着消费方式转型,智能化、数据化已成为高质量发展的必然趋势
2025-09-16 11:20:00
“三只羊”嘴哥复播在线人数超10万,客服回应大小杨哥复播进展:暂未接到通知
9月15日晚,“三只羊”旗下乔妹、老K、嘴哥等多名主播复播。其中,嘴哥直播间人气火爆,在线人数超10万。此外,三只羊客服对记者回应大小杨哥复播进展
2025-09-16 11:22:00
1688推出“超级工厂全球版” 建立跨境服务能力量化标准
9月16日,阿里巴巴旗下源头厂货拿货平台1688在广州举办“AI跨境·国货出海”平台对接会,并发布全新商家会员产品“超级工厂全球版”
2025-09-17 04:37:00
查博士深化校企合作 携手南京交通职业技术学院共筑二手车人才“蓄水池”
9月8日,由查博士与南京交通职业技术学院联合举办的“二手车校企合作订单班”开班仪式顺利举行。此次合作是双方深化产教融合
2025-09-16 13:09:00
安顺绿色算力通过直连网络链路持续输出 “光速高铁”高效畅达大湾区
深夜,安顺经开区南智云谷数据中心内,一排排服务器静默矗立,蓝色指示灯如呼吸般不间断闪烁。工程师邓尚勋紧盯监控大屏——“安顺—广州”直连网络链路单向时延18
2025-09-16 13:10:00
网安周开幕|绿盟大模型能力再获权威肯定,持续推动AI与网络安全深度融合
9月15日,2025年国家网络安全宣传周的开幕式及一系列重要活动在云南昆明举办。其中,开幕式现场,12387网络安全事件报告平台正式启动
2025-09-16 13:11:00