• 我的订阅
  • 头条热搜
研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱
2024-02-04 10:57:47 作者:姚立伟2月4日消息,研究人员发现网络上的大量内容都经过机器翻译(MT)的处理,且翻译质量普遍较低。这一现象引发了对训练大型语言模型时数据来源考量的重要性的关注。研究团队开发了一项名为“...……更多
...能对话年——生成式人工智能工具开启了一个充满希望和陷阱的新世界》的文章,作者是斯蒂芬·奥尔内斯。文章摘编如下:2023年初,大型语言模型风靡全球。可以说,聊天生成预训练转换器(ChatGPT)领导了这场革命。交互式聊天...……更多
...地感受到未来已来。新技术的发展,有时会伴随着悖论和陷阱。面对AI市场这片蓝海,人工智能带来的六大陷阱需要引起高度警惕。一、数据安全陷阱:你的“AI朋友”能守口如瓶吗在科幻电影中,因为数据泄露带来的安全隐忧...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
自然语言处理:大模型理论与实践
今天分享的是:自然语言处理:大模型理论与实践报告共计:450页《自然语言处理:大模型理论与实践》系统介绍了大模型技术在自然语言处理中的理论与实践。核心观点1. 语言模型基础- 介绍独热表示、分布式表示等文本表示...……更多
生成式AI的抄袭输出问题值得关注(附图片)
...中均包含“screencap”。 (图片来源:IEEE Spectrum)大语言模型(LLM)在多大程度上“记住”了其训练输入内容是一直以来广受关注的问题。而最近的实证研究表明,大语言模型在某些情况下的确可以重现或者生成只包含细小差别...……更多
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合...……更多
Nature封面:AI训AI 越训越傻
...等学校机构的研究人员最新发现,使用合成数据训练,大模型可能会崩溃。其研究成果被选为最新的Nature封面。直接一个:GARBAGE OUT!要知道,现在绝大部分科技公司的大模型都在用合成数据来缓解“数据荒”。这下无疑是整个...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。随着多类型大模型的飞速发展,全球 AI 已经进入到了多模交互时代。2024 年 5 月,OpenAI 推出了全新的多模...……更多
百川智能发布baichuan3稳定语言模型
1月29日,百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多
ChatGPT席卷全球,内容产业最先被革命?
...挥生成式人工智能(Generative AI)作用,以及基于预训练模型技术的文学创作辅助算法领域进行探索。这一次,双方将AIGC技术扩展至了漫画、动画、视频等IP衍生业务领域的新型内容生产方式上,并将共建AIGC技术在文学创作领域...……更多
...理世界,也是我们特别看中的一个前瞻性方向。3.甜蜜的陷阱「暗涌」:回头看,为什么中国的“AI四小龙”和大厂AI lab集体错过了ChatGPT?宋春雨:像商汤、旷视这样的企业,很多被现实逼迫去做系统集成,错失了生成式AI这一...……更多
...根据差异进行识别?AI检测工具如何应对越来越聪明的大模型?带着这些问题,记者采访了有关专家。AI创作套路化明显“虽然大模型在不断发展迭代,但到目前为止,AIGC与人类的创作在用词用语、逻辑语法等方面依旧存在明显...……更多
...及其他初创公司提供的类似工具,都整合了人工智能语言模型。但如果没有互联网上免费获取的海量文本,这些聪明的机器人作家将无法问世。如今,网页内容再次成为争夺的焦点。这种情况自早期搜索引擎之争以来就没有出现...……更多
...出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”。该研究显示,原始内容会在AI数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。生成式AI...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...、张钊为、汪明志、钟伊凡等。团队就强化学习方法及大模型的后训练对齐技术开展了一系列重要工作,包括 Aligner(NeurIPS 2024 Oral)、ProgressGym(NeurIPS 2024 Spotlight)以及 Safe-RLHF(ICLR 2024 Spotlight)等系列……更多
AI大模型,进入攻防阶段
...愈演愈烈,如今网上正在涌现出不少针对AI大模型设置的陷阱,他们的做法是通过插入特殊数据,破坏AI的数据库,使其产生完全错误的回答。最终迫使开发者回滚相关数据版本,并主动避开产生错误数据的网站,以达到保护自...……更多
AI领域将面临数据墙:高质量语言数据枯竭 可能减缓训练进展
...联网高质量数据枯竭,AI领域面临“数据墙”。对于AI大模型公司来说,现在的挑战是找到新的数据源或可持续的替代品。据权威研究公司Epoch AI的前瞻性分析,至2028年,互联网上的所有高质量文本数据或将被悉数采撷,而机器...……更多
共赢生成式AI时代
...更前沿、更有价值的业务场景。第二是选择合理的工具和模型。生成AI无比强大,但模型和工具的选择也很多,企业需要根据业务和场景选择最适合的模型和工具,因为没有一个模型能够适用于所有场景。第三是数据战略。选择合适...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研...……更多
商汤如何玩转大模型+大算力?详解“日日新SenseNova”大模型体系的关键招
出品 | 搜狐科技作者 | 梁昌均在ChatGPT引发的大模型和生成式AI热潮下,国内AI公司商汤科技也秀出自家肌肉。在4月10日下午的技术交流日上,商汤正式发布“日日新SenseNova”大模型体系。这一大模型体系的名称取自《礼记·大学...……更多
为什么喜剧演员不用AI?原因在于OpenAI阻止大模型产出冒犯型内容
...的有用性。他们发现,尽管 OpenAI 和谷歌的流行人工智能模型在简单的任务上很有效,比如构建独白或制作粗略的初稿,但它们很难制作出原创、刺激或有趣的内容。本月早些时候,他们在巴西里约举行的 ACM FAccT 会议上介绍了...……更多
AI PC是噱头还是更快的马车?
...说需要一辆更快的马车。” “更快的马车”是一种消费陷阱,认为AI手机、AIPC只是噱头的人们可能只是基于惯例认为自己暂时不需要更新马车。更深层次的,是大众对AI的落地有一些误解,表现为两种极端:一种极端是认为那...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...ama 1的研发人员所做的事情。我所说的「不要陷入Chinchilla陷阱」就是这个意思。模型架构相比Llama 2, Llama 3的架构没有太多变化,但是在扩展数据的规模和质量方面,我们作出了很多努力,数据集从2T token增加到15T token。 架构...……更多
ChatGPT大流行的思考-解析篇
...对话,这是为什么?可以从以下两个维度来解答:(1)模型的本质区别首先我们要了解的是chatGPT是采用了LLM模型构建的对话机器人(large Language Model);一般的语言模型处理任务的类型大致分为两种类型:中间任务及最终任务...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...Alignment。3. 黄灿:厦门大学数学系副教授随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...点在于,Llama 3.2成为羊驼家族中,首个支持多模态能力的模型。Connect大会上,新出炉的Llama 3.2包含了小型(11B)和中型(90B)两种版本的主要视觉模型。正如Meta所说,这两款模型能够直接替代,相对应的文本模型,而且在图像...……更多
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。目前官网上已经更新了48个视频demo,在这...……更多
纽约大学教授 Nature 发文:为了科学界的未来
免费的ChatGPT用的是很爽,但这种闭源的语言模型最大的缺点就是不开源,外界根本无法了解背后的训练数据以及是否会泄露用户隐私等问题,也引发了后续工业界、学术界联合开源了LLaMA等一系列羊驼模型。最近Nature世界观栏...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
更多关于科技的资讯:
电梯曳引机润滑油更换周期揭秘——守护电梯心脏,从定期换油开始
电梯作为现代建筑的垂直交通工具,其核心部件曳引机的正常运行至关重要。而润滑油则是曳引机保养的关键,定期更换润滑油能有效延长电梯使用寿命
2024-11-12 13:23:00
三星二代3nm良品率只有可怜的20%!一代也还不合格
快科技11月12日消息,这几年,三星代工一直不顺利,要么进展延期,要么性能不达标,宣传上天的最新3nm更是步履坎坷,一直在为良品率发愁
2024-11-12 13:47:00
得物App入选诚信案例,10万正品样品库夯实高品质消费
近日,以“加强企业诚信建设赋能经济社会发展”为主题的“2024年全国企业诚信建设大会”在烟台市召开。此次大会由中国企业联合会
2024-11-12 14:05:00
高质量发展看山西国企:“华阳造”钠电煤矿应急电源顺利通过省级评审
11月9日,经山西省能源局、省应急管理厅、国家矿山安全监察局山西局组织专家鉴定评审,“华阳造”钠离子电池煤矿应急电源产品性能优异
2024-11-12 14:22:00
vivo申请PhoneGPT商标
vivo申请iQOOPhoneGPT商标天眼查知识产权信息显示,近日,维沃移动通信有限公司申请注册多枚“vivoPhoneGPT”“iQOOPhoneGPT”商标
2024-11-12 14:22:00
第七届中国国际进口博览会(以下简称“进博会”)盛况空前,超过400项代表性新产品、新技术和新服务悉数亮相,不仅展示了全球范围内的最新趋势
2024-11-12 14:23:00
亚马逊市场的机遇与挑战
亚马逊作为全球最大的在线零售平台,一直是电商创业者和品牌商的必争之地,随着越来越多的卖家涌入,关于亚马逊市场是否饱和、是否仍值得投入的讨论愈发热烈
2024-11-12 14:43:00
林埭镇消防日:查知科技引领,火灾预警应急演练成功举办
在全国消防宣传日这一具有特殊意义的日子里,查知科技以高度的社会责任感和专业精神,携手平湖市林埭镇人民政府,于11月9日成功举办了“厂中厂”火灾预警应急演练
2024-11-12 14:45:00
雷军恭喜比亚迪:祝贺仰望U9纽北取得的成绩
快科技11月12日消息,比亚迪仰望销售事业部总经理胡晓庆宣布:仰望U9本年度测试已经完成,但纽北的故事仍在继续。胡晓庆表示
2024-11-12 14:47:00
蛋白含量比鸡蛋高 膳食纤维比燕麦优秀!这种食材被严重忽视了
如果你有减肥、健身经历,那么,有一种食物你或多或少会有些了解,那就是藜麦。在轻食或沙拉里,藜麦一般以主食的角色出现。它有何特点和营养优势
2024-11-12 14:47:00
所有厂商的最强对手!赵明称期待和华为Mate 70碰撞
快科技11月12日消息,在直播活动中,荣耀CEO赵明谈及华为Mate70与荣耀的竞争。赵明表示,荣耀Magic7作为“初生牛犊”
2024-11-12 14:47:00
济南东部新地标!济高·世茂芯环中心芯意启幕!
鲁网11月12日讯在当今时代,商业综合体不再仅仅是一个购物和娱乐的场所,它已经成为城市文化和精神生活的重要组成部分。非标商业项目
2024-11-12 14:48:00
国网朝阳供电公司荣获2024年能源北斗创新应用竞赛“优秀案例奖”
本文转自:人民网-辽宁频道11月6日至7日,由中国卫星导航定位协会、中国能源研究会联合主办的2024年(第四届)能源北斗与时空智能创新技术应用大会在广州召开
2024-11-12 14:49:00
NMN双十一排名捷报:美国W+端粒塔荣耀登顶,众多品牌齐放异
在这个全民狂欢的双十一购物节,NMN(β-烟酰胺单核苷酸)市场迎来了前所未有的热潮。在众多消费者的热切期待中,各大NMN品牌纷纷亮出实力
2024-11-12 14:51:00
本文转自:人民网人民网记者 乔业琼有的人频频“剁手”,满载而归;有的人保持“理性”,货比三家、谨慎下单。“双十一”,如同一场消费者的购物盛宴
2024-11-12 14:51:00