• 我的订阅
  • 头条热搜
研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱
2024-02-04 10:57:47 作者:姚立伟2月4日消息,研究人员发现网络上的大量内容都经过机器翻译(MT)的处理,且翻译质量普遍较低。这一现象引发了对训练大型语言模型时数据来源考量的重要性的关注。研究团队开发了一项名为“...……更多
...能对话年——生成式人工智能工具开启了一个充满希望和陷阱的新世界》的文章,作者是斯蒂芬·奥尔内斯。文章摘编如下:2023年初,大型语言模型风靡全球。可以说,聊天生成预训练转换器(ChatGPT)领导了这场革命。交互式聊天...……更多
...地感受到未来已来。新技术的发展,有时会伴随着悖论和陷阱。面对AI市场这片蓝海,人工智能带来的六大陷阱需要引起高度警惕。一、数据安全陷阱:你的“AI朋友”能守口如瓶吗在科幻电影中,因为数据泄露带来的安全隐忧...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
自然语言处理:大模型理论与实践
今天分享的是:自然语言处理:大模型理论与实践报告共计:450页《自然语言处理:大模型理论与实践》系统介绍了大模型技术在自然语言处理中的理论与实践。核心观点1. 语言模型基础- 介绍独热表示、分布式表示等文本表示...……更多
生成式AI的抄袭输出问题值得关注(附图片)
...中均包含“screencap”。 (图片来源:IEEE Spectrum)大语言模型(LLM)在多大程度上“记住”了其训练输入内容是一直以来广受关注的问题。而最近的实证研究表明,大语言模型在某些情况下的确可以重现或者生成只包含细小差别...……更多
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合...……更多
Nature封面:AI训AI 越训越傻
...等学校机构的研究人员最新发现,使用合成数据训练,大模型可能会崩溃。其研究成果被选为最新的Nature封面。直接一个:GARBAGE OUT!要知道,现在绝大部分科技公司的大模型都在用合成数据来缓解“数据荒”。这下无疑是整个...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。随着多类型大模型的飞速发展,全球 AI 已经进入到了多模交互时代。2024 年 5 月,OpenAI 推出了全新的多模...……更多
百川智能发布baichuan3稳定语言模型
1月29日,百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多
...理世界,也是我们特别看中的一个前瞻性方向。3.甜蜜的陷阱「暗涌」:回头看,为什么中国的“AI四小龙”和大厂AI lab集体错过了ChatGPT?宋春雨:像商汤、旷视这样的企业,很多被现实逼迫去做系统集成,错失了生成式AI这一...……更多
...根据差异进行识别?AI检测工具如何应对越来越聪明的大模型?带着这些问题,记者采访了有关专家。AI创作套路化明显“虽然大模型在不断发展迭代,但到目前为止,AIGC与人类的创作在用词用语、逻辑语法等方面依旧存在明显...……更多
...出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”。该研究显示,原始内容会在AI数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。生成式AI...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...、张钊为、汪明志、钟伊凡等。团队就强化学习方法及大模型的后训练对齐技术开展了一系列重要工作,包括 Aligner(NeurIPS 2024 Oral)、ProgressGym(NeurIPS 2024 Spotlight)以及 Safe-RLHF(ICLR 2024 Spotlight)等系列……更多
AI大模型,进入攻防阶段
...愈演愈烈,如今网上正在涌现出不少针对AI大模型设置的陷阱,他们的做法是通过插入特殊数据,破坏AI的数据库,使其产生完全错误的回答。最终迫使开发者回滚相关数据版本,并主动避开产生错误数据的网站,以达到保护自...……更多
AI领域将面临数据墙:高质量语言数据枯竭 可能减缓训练进展
...联网高质量数据枯竭,AI领域面临“数据墙”。对于AI大模型公司来说,现在的挑战是找到新的数据源或可持续的替代品。据权威研究公司Epoch AI的前瞻性分析,至2028年,互联网上的所有高质量文本数据或将被悉数采撷,而机器...……更多
共赢生成式AI时代
...更前沿、更有价值的业务场景。第二是选择合理的工具和模型。生成AI无比强大,但模型和工具的选择也很多,企业需要根据业务和场景选择最适合的模型和工具,因为没有一个模型能够适用于所有场景。第三是数据战略。选择合适...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研...……更多
为什么喜剧演员不用AI?原因在于OpenAI阻止大模型产出冒犯型内容
...的有用性。他们发现,尽管 OpenAI 和谷歌的流行人工智能模型在简单的任务上很有效,比如构建独白或制作粗略的初稿,但它们很难制作出原创、刺激或有趣的内容。本月早些时候,他们在巴西里约举行的 ACM FAccT 会议上介绍了...……更多
AI PC是噱头还是更快的马车?
...说需要一辆更快的马车。” “更快的马车”是一种消费陷阱,认为AI手机、AIPC只是噱头的人们可能只是基于惯例认为自己暂时不需要更新马车。更深层次的,是大众对AI的落地有一些误解,表现为两种极端:一种极端是认为那...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...ama 1的研发人员所做的事情。我所说的「不要陷入Chinchilla陷阱」就是这个意思。模型架构相比Llama 2, Llama 3的架构没有太多变化,但是在扩展数据的规模和质量方面,我们作出了很多努力,数据集从2T token增加到15T token。 架构...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...Alignment。3. 黄灿:厦门大学数学系副教授随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...点在于,Llama 3.2成为羊驼家族中,首个支持多模态能力的模型。Connect大会上,新出炉的Llama 3.2包含了小型(11B)和中型(90B)两种版本的主要视觉模型。正如Meta所说,这两款模型能够直接替代,相对应的文本模型,而且在图像...……更多
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。目前官网上已经更新了48个视频demo,在这...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
【新智元导读】UrbanGPT是一种创新的时空大型语言模型,它通过结合时空依赖编码器和指令微调技术,展现出在多种城市任务中卓越的泛化能力和预测精度。这项技术突破了传统模型对大量标记数据的依赖,即使在数据稀缺的情...……更多
...,就交给专业的工程师去做,科普部分不再赘述。大语言模型vs中医药2016年,AlphaGo在围棋比赛对战世界围棋冠军李世石,结果以AlphaGo的胜利告终。这场比赛标志着人工智能在复杂决策和创造性领域的突破。2022年,OpenAI的大语言...……更多
大模型到了该「验收」的时候
...惠真正大众的时间,来得更早了一些。2024年9月,整个大模型产业,来到了一个微妙的时间窗口。一方面,是海外AI明星项目的接连“换血”与“卖身”。Runway深陷“删库跑路”风波;Stability AI在管理层大换血后再传资金链断裂...……更多
LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已放弃
...达到人类水平。他还透露,现在Meta基本已经放弃纯语言模型,因为,仅通过文本训练,永远不会达到接近人类水平的智能。除此之外,他还谈到当前大模型的局限性、以目标驱动的AI架构,包括利用世界模型进行推理和规划,最...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀...……更多
更多关于科技的资讯:
马化腾内部透露:把广告当内容来看待 看好未来AI带给广告的提升空间
快科技1月13日消息,据媒体报道,腾讯在今天下午召开了2024年度员工大会。在大会现场,腾讯公司董事会主席兼首席执行官马化腾发表了重要讲话
2025-01-13 18:53:00
放手让车自己去停:华为泊车代驾全球首个机场商用试点发布
快科技1月13日消息,华为乾崑智能汽车解决方案官方官宣,华为乾崑智驾ADS 3.0泊车代驾(VPD)在深圳宝安国际机场正式启动首个商用试点
2025-01-13 18:53:00
曝iPhone 17 Air堪称“实验机”!设计大改为可折叠iPhone铺路
快科技1月13日消息,马克·古尔曼最新曝光了苹果2025年计划,将推出一款全新的iPhone 17 Air,这款设备在设计上有所突破
2025-01-13 18:53:00
黄子韬回应持续掉粉:没抽中就取关会很伤心
1月13日消息,据媒体报道,艺人黄子韬在直播间送出30台车,其中10辆捐给妇女儿童基金会。直播送车后,黄子韬掉粉超百万
2025-01-13 18:53:00
英特尔CES又发新品 14代酷睿/酷睿Ultra怎么搭配主板
英特尔最近几年先后发布了12、13、14代酷睿,去年又带来了酷睿Ultra 200S系列处理器,而在今年又在CES上发布酷睿Ultra 200S系列的非K版本和B860/H810芯片组
2025-01-13 18:53:00
华恒隆科技固废检测:智能化与绿色化的深度融合
在环境保护和资源循环利用日益受到重视的今天,固废检测成为了确保工业废弃物合规处理、资源高效回收的关键环节。华恒隆,作为固废检测领域的先行者
2025-01-13 18:59:00
华恒隆科技铁矿石快速筛查系统:铁矿石筛查的核心引擎
在铁矿石资源日益紧张的今天,高效、准确地识别与分类铁矿石对于资源的高效利用和环境保护至关重要。华恒隆,作为矿石检测技术的领航者
2025-01-13 19:05:00
推动科普连接赋能 业内聚焦创新人才贯通式培养
本文转自:人民网人民网北京1月13日电 (记者孙阳)近年来,整合产学研多方优势资源,着力打造协同规范的科学素质建设生态
2025-01-13 19:13:00
路人在日本被火车撞或反遭铁路公司索赔:最高可达数百万
1月13日消息,媒体报道,近日在日本兵库县,两名中国女游客在铁路道口等红绿灯时遭列车撞击,一名当场身亡,另一名送医后也不幸身亡
2025-01-13 19:23:00
公园观赏鱼大量死亡 一男子被刑拘:嫉妒同行 投放杀虫剂
快科技1月13日消息,日前,重庆一公园观赏鱼大量死亡引发关注。网友晒出的画面显示,公园原本生机勃勃的湖面如今却成了一片死寂
2025-01-13 19:23:00
腾讯2024海外游戏大调整 马化腾点评:非常争气 海外业务已接近国内一半
快科技1月13日消息,今日下午,腾讯召开了以“凝心聚力”为主题的2024年度员工大会。会上,腾讯公司董事会主席兼首席执行官马化腾发表了重要讲话
2025-01-13 19:23:00
本月13日,拉卡拉支付股份有限公司(300773.SZ,以下简称“拉卡拉”)宣布斥资2.5亿+战略入股天财商龙,双方签署框架协议
2025-01-13 19:31:00
机器人灵巧手“肌腱”,谁在布局?关注恒辉安防、南山智尚
特斯拉灵巧手的驱控方案已经基本定型,用腱绳实现三级传动连接模组和末端手指,克服了重量与灵活性的问题。 根据“中国机器人网”
2025-01-13 19:45:00
三轮全责撞宾利被代位追偿引热议 网友:应借鉴美国的“无过错制度”
快科技1月13日消息,据报道,近日,浙江衢州,一位卖猪肉的老人开三轮车逆行下山,撞上了正常行驶的宾利欧陆GT轿车。事后
2025-01-13 19:53:00
周鸿祎AI短剧女一号演员亮相:气质美女演女王陛下
快科技1月13日消息,今晚,周鸿祎在最新视频中揭晓了海选胜出的女王陛下。此前,他宣布将拍摄一部约60集的穿越题材短剧,女主角是一位女皇帝
2025-01-13 19:53:00