• 我的订阅
  • 科技

研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

类别:科技 发布时间:2024-02-04 17:00:00 来源:中关村在线

2024-02-04 10:57:47 作者:姚立伟

研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

2月4日消息,研究人员发现网络上的大量内容都经过机器翻译(MT)的处理,且翻译质量普遍较低。这一现象引发了对训练大型语言模型时数据来源考量的重要性的关注。

研究团队开发了一项名为“多维cc矩阵”(MWccMatrix)的庞大资源来更深入地理解机器翻译内容的特征。该资源包含90种语言中64亿个独特的句子,并包括各种翻译元组,即相互之间进行翻译的一组句子。

研究结果显示,大部分网络内容都被翻译成多种语言,主要通过机器翻译完成。这种现象不仅仅在资源相对较少的语言的翻译中存在,而且这些语言的所有网络内容中也占很大一部分。

研究人员还注意到,在广告等目的的驱使下,被翻译成多种语言的内容可能存在选择性偏差。他们得出的结论是:“虽然在过去十年里机器翻译技术取得了显著进步,但仍然无法达到人类水平的质量标准。多年来,使用当时可用的机器翻译系统将机器翻译内容添加到网络上,因此网络上大部分机器翻译内容按现代标准来看可能质量很低。这可能会导致LLM模型产生更多‘幻觉’ ,而选择偏差表明即使不考虑机器翻译错误,数据质量也可能较低。数据质量对于LLM训练至关重要,其中高质量语料库如书籍和维基百科文章通常会进行多次向上采样。” 返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-04 18:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...能对话年——生成式人工智能工具开启了一个充满希望和陷阱的新世界》的文章,作者是斯蒂芬·奥尔内斯。文章摘编如下:2023年初,大型语言模型风靡全球。可以说,聊天生成预训练转换器
2023-12-30 07:56:00
...地感受到未来已来。新技术的发展,有时会伴随着悖论和陷阱。面对AI市场这片蓝海,人工智能带来的六大陷阱需要引起高度警惕。一、数据安全陷阱:你的“AI朋友”能守口如瓶吗在科幻电影
2024-06-16 21:12:00
...严与心理健康;(六)通过算法操纵、信息误导、设置情感陷阱等方式,诱导用户作出不合理决策;(七)诱导、套取涉密敏感信息;(八)其他违反法律、行政法规和国家有关规定的情形。征求意
2025-12-28 09:18:00
腾讯自研混元大模型亮相,将通过腾讯云对外开放
...型降低了30%至50%;通过强化学习的方法,让模型学会识别陷阱问题;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,让大模型能够像人一样结合实际的应用场景
2023-09-07 13:57:00
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广
2024-09-30 09:51:00
自然语言处理:大模型理论与实践
今天分享的是:自然语言处理:大模型理论与实践报告共计:450页《自然语言处理:大模型理论与实践》系统介绍了大模型技术在自然语言处理中的理论与实践。核心观点1. 语言模型基础- 介
2024-10-23 20:38:00
生成式AI的抄袭输出问题值得关注(附图片)
...中均包含“screencap”。 (图片来源:IEEE Spectrum)大语言模型(LLM)在多大程度上“记住”了其训练输入内容是一直以来广受关注的问题
2024-01-11 06:45:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任
2024-11-23 09:43:00
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻
2024-08-19 13:49:00
更多关于科技的资讯:
武文博 柳州工学院随着科学技术的迅猛发展,人工智能(AI)技术在各个领域的应用日益广泛,尤其在电子信息与自动化系统设计中
2026-01-24 00:03:00
常胜 徐州九鼎机电总厂目前,智能制造已经成为推动制造业高质量发展的重要引擎。智能制造技术为人类社会的生产生活带来前所未有的变革与创新发展
2026-01-24 00:03:00
科学循证引领抗衰新方向 斐萃研究院赋能30+ 40+女性精准抗衰
1月17日,2026国际前沿抗衰老及代谢研究学术交流会暨斐萃科学抗衰研究院成立大会在广州顺利举办。本次大会汇聚产学研医权威力量
2026-01-23 20:36:00
喜茶低调盘点2025年度小事 差异化战略成效显著
鲁网1月23日讯1月23日,喜茶在官方微博上发布了2025年度“小事记”,盘点了过去一年在差异化产品和品牌方面的关键“小事”
2026-01-23 20:38:00
仁怀:国补红利精准释放 消费市场迎开年“开门红”
多彩贵州网讯2026年消费品以旧换新国补政策于1月10日全面落地,中央625亿元超长期特别国债资金的强力加持,叠加商家精准承接的配套优惠与服务升级
2026-01-23 20:37:00
中国消费者报北京讯(记者桑雪骐)近日,追觅科技正式官宣成为中央广播电视总台2026年春节联欢晚会智能科技生态战略合作伙伴
2026-01-23 17:16:00
飞利浦旋护新9系Ultra高端款剃须刀新意限定版首发上市
新春将至,大家都希望以最好的状态和面容迎接新年,新春礼赠更要送到“面子上”。每份精心挑选的礼物都承载着对亲密关系的珍视
2026-01-23 17:09:00
鲁网1月23日讯“小时候爸妈送我上新东方,长大了我送爸妈去新东方。”这句调侃在社交媒体迅速走红。2026年1月21日,新东方创始人俞敏洪宣布开办“退休俱乐部”
2026-01-23 14:47:00
为了一杯更新鲜的咖啡,瑞幸开启了云南咖啡豆 “铁路专列”
近日,一列名为“瑞幸号”的铁路专列,满载22个集装箱、共682吨来自云南产区的当季咖啡豆,跨越2834公里,从云南普洱稳稳抵达福建厦门
2026-01-23 15:06:00
千灯企业技术中心获省级荣誉!
近日,江苏省工业和信息化厅公示了2025年省级企业技术中心拟认定名单,千灯镇企业昆山欣谷微电子材料有限公司、昆山鑫诚五金科技有限公司
2026-01-23 15:13:00
苏州高新区管委会与宁波银行签订战略合作协议 共同举办“产融聚力 共创未来”人工智能行业对接会
1月21日,苏州高新区管委会与宁波银行签订战略合作协议,并共同举办“产融聚力 共创未来”人工智能行业对接会。活动汇聚科创企业
2026-01-23 16:28:00
中国消费者报南宁讯(桂广雯 记者顾艳伟)1月23日,记者从广西壮族自治区市场监管局获悉,在该局的指导下,玉林市市场监管部门紧密围绕香料产业发展需求
2026-01-23 16:45:00
南方电网兴义普安供电局2026年配电电缆专业技能培训圆满收官
1月22日至23日,南方电网兴义普安供电局在云盘变实训场成功举办2026年配电电缆专业技能培训,来自配网综合班的配电专业人员参加了为期两天的集中培训
2026-01-23 16:50:00
锦江酒店(中国区)正式发布“锦鲲”协同办公平台,以 AI 驱动万店效率升级
“让AI去做它擅长的事,让人去做更有温度的事,提供更有温度的服务。”1月22日,锦江酒店(中国区)与飞书在深圳正式举行签约仪式
2026-01-23 15:40:00
“十五五”开局看河北|玉锋集团把玉米价值链越拉越长
从一粒粮到38种产品玉锋集团把玉米价值链越拉越长1月16日,宁晋县玉锋实业集团有限公司员工在生产车间巡检。 河北日报记者 赵永辉摄从2026年第一天起
2026-01-23 08:12:00