• 我的订阅
  • 头条热搜
...一篇计算机科学论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”。该研究显示,原始内容会在AI数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模...……更多
...解除Word Embedding与lmhead共享参数,有效提升模型稳定性和训练效果,并基于精细化的CheckPoint效果验证,进行动态的数据配比优化调整,大幅提升模型训练效果。海量高质量数据是保证大模型效果的基础,TeleChat-12B将7B版本1.5T训练...……更多
科大讯飞联手华为首次攻克全国产算力下推理模型训练难关
...讯飞星火坚持走全国产化路线。尽管在全国产算力平台上训练深度推理模型遭遇了诸多挑战,但科大讯飞携手华为,成功攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题,最终成功训练出我国首个基于全...……更多
本文转自:中国科学报南开大学等让人工智能模型训练提速10倍以上本报讯(通讯员高雨桐 记者陈彬)南开大学、南开国际先进研究院(深圳福田)教授程明明团队发布了一项国际联合研究成果MDT,与人工智能文字生成视频大...……更多
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...机系获得博士学位,在加速推理、可控生成、基础架构、训练策略等方面已发表十余篇顶会论文。首席科学家为清华大学计算机系人工智能实验室主任、智源研究院首席科学家朱军。可以说,2023年是国内大语言模型狂飙的元年...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL, CMMLU, MMLU, GSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。 Skywork-13B-Math模型经过专门的数学能力强化训练,在GSM8K等数据集上取得了同等规模模...……更多
圆桌|生成式AI时代,大模型数据安全如何保障?
...主任黄民烈如是说道。他认为,生成式人工智能可以通过训练去组合,去生成新的内容,这些内容可能在过去的语料里根本没出现过,但它依然是有害的。所以,即便把训练数据处理得很干净,在生成式人工智能时代依然会面临...……更多
AI翻译界杀手诞生!阿里国际翻译大模型吊打谷歌和GPT-4
...然是一个复杂领域。基于深度学习的机器翻译,虽然对于训练过的文本语料可以游刃有余,但对于和训练文本差异过大的文本,翻译能力就会大幅下降。除了训练数据的局限性之外,AI的上下文理解有限、也让不同语种的语言结...……更多
清华提出时间序列大模型:面向通用时序分析的生成式Transformer
...研究团队基于Transformer在大规模时间序列上进行生成式预训练,获得了任务通用的时序分析模型,展现出大模型特有的泛化性与可扩展性时间序列提供了数据随时间变化的视角,对于理解复杂系统、预测未来变化和制定决策规划...……更多
清华大学金融科技研究院副院长魏晨阳:大模型以超级助理的形式,会给千行百业带来降本增效的巨大机遇
...会限制大模型的应用效果和准确性。隐私方面,大模型的训练和应用过程中可能涉及用户的隐私信息及企业的敏感数据,需要采取措施保护用户隐私和企业数据安全。算力则是大模型训练的另一个刚需。对于应对措施及建议,魏...……更多
...离不开数据的支持,从和运动员自身相关的生理、运动、训练数据,到比赛赛事数据以及观众媒体信息。数据分析在体育行业的发展发挥重要作用。本文讨论了大数据背景下体育统计学的一些新思路和应用,以期大数据的应用在...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
...习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的HumanEval得分再多提升10个百分点,最高...……更多
硅谷手记|AI抄袭背后的硅谷“不光彩文化”
...研究团队发布名为Llama3-V的大模型,声称只要500美元的预训练成本,就能用它获得比肩GPT-4V等著名大模型的效果。这一消息在社交媒体和人工智能学术界被广泛转发。 但业内人士很快发现,该大模型涉嫌抄袭清华大学等机构发...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...种全新评测范式对于当前数据污染的鲁棒性。此前,由于训练数据的不透明,人们无法得知大模型在一些榜单上的成绩提升,是否是数据污染和题目泄露所带来的。而本次提出的全新评测范式,对于“背题”式的成绩提高有着极...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...发团队还发布了Time-300B数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强大性...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...2/GPT-3、T5等基于大规模无标注数据自监督学习的大规模预训练算法。这些算法模型均在大数据支持下拥有较大规模模型参数,具备较强的通用能力,可完成多场景任务,显著降低学习成本、提高学习效率。2020至2022年,迎来了模...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作主要集中在单次或批量编辑上,由于灾难性的知识遗忘和模型性能的下降,这些方法在终身编...……更多
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
...效果。通过广泛的实验评估,RecDiff在提高推荐准确性、训练效率以及去噪效果方面均表现出色。研究方法基于图协同过滤的编码器受到简化图神经网络(GNN)成功应用的启发,图那对在社交去噪框架中采用了轻量级图卷积网络...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...新步伐基于腾讯混元的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力。同时,各大模型研发团队均可基于腾讯混元模型进行研究与创新,加速...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...7B模型,不仅效果与Llama 3 8B相当,而且一次性开源了全部训练过程和资源。要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:许多声称开源的AI模型,实际上在数据和训练方法上并不透明,无法满足真正的科学研究需求。 ...……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...上做出大突破。与DALL・E一样,两点依旧是CLIP模型,除了训练数据庞大,CLIP基于Transformer对图像块建模,并采用对比学习训练,最终帮助DALL・E2取得了不错的生成效果。下图是DALL・E2根据“一只戴着贝雷帽、穿黑色高领毛衣的柴...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
一个5月份完成训练的大模型,无法对《黑神话·悟空》游戏内容相关问题给出准确回答。这是大模型的老毛病了。因为《黑神话》8月才上市,训练数据里没有它的相关知识。众所周知,大模型的训练和微调会消耗大量计算资源...……更多
容联云入选IDC生成式AI图谱,多个案例被评典型应用
...的尝试基于pre-training大模型的自动语料扩展、小样本数据训练、分布式机器学习、强化学习,利用模型能力的数据聚类、智能纠错、主题抽取、知识图谱、文档生成等很多智能化任务的研究。在智能化应用的模型训练方面采用了...……更多
ai绘画侵权实锤,扩散模型可能记住你的照片
...绘画侵权,实锤了!最新研究表明,扩散模型会牢牢记住训练集中的样本,并在生成时“依葫芦画瓢”。也就是说,像StableDiffusion生成的AI画作里,每一笔背后都可能隐藏着一次侵权事件。不仅如此,经过研究对比,扩散模型从...……更多
Llama3.1根本卖不动!业内人士:开源模型成本反而更高
...的开源和软件开源有本质区别——开源模型因其并未开放训练源代码、预训练和精调数据等影响模型效果的关键信息,所以无法像开源软件一样,靠社区开发者一起参与来提升效果和性能,而基座模型的训练只能掌握在厂商自己...……更多
李飞飞团队“50美元”复现DeepSeek R1?真相是…
s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上,可谓依然是开源的胜利。作者 | 黄心怡今日一则关于人工智能领域的新...……更多
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
...了首个全球大规模轨迹数据集 WorldTrace,并基于该数据集训练了首个世界轨迹基础大模型 UniTraj,为交通领域内构建通用时空智能提供了一种全新的思路。研究团队提出了轨迹基础模型的构建范式,旨在通过其模型架构设计和数...……更多
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...一。更惊喜的是,清华团队已将 RDT 的代码、模型,甚至训练它的双臂数据集彻底开源。他们坚信,开源 RDT 能极大加速机器人研发和产业化进程。 项目主页:https://rdt-robotics.github.io/rdt-robotics 论文链接:https://arxiv.org/pd……更多
LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI
...使用与架构和网络无关的分布式优化器,研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍!如果可以使用世界上所有的算力来训练AI模型,会怎么样?近日,凭借发布了开源的Hermes 3(基于Llama 3.1)而引起广泛关注的Nous ...……更多
...展现的能力尚不足以支持专业应用,其主要原因在于模型训练缺乏高质量可用的行业数据集。为解决大模型垂直领域训练数据稀缺与质量问题,推动大模型在千行百业的应用创新与发展,中国互联网协会、中国人工智能产业发展...……更多
更多关于社会的资讯:
东南网12月9日讯(本网记者 卢金福)今日上午,福建省委宣传部召开“在中国式现代化建设中奋勇争先 奋力谱写新征程新福建建设新篇章”系列主题新闻发布会(第三场)
2025-12-09 14:07:00
邀您执笔 共叙西延!“我的西延故事”征集活动开启
今年是中央红军长征胜利到达陕北90周年,同时也是国家“十四五”规划的收官之年。作为陕北革命老区首条高铁,西延高铁不仅是国家高速铁路网包(银)海通道的重要组成部分
2025-12-09 14:29:00
大皖新闻讯 身为驾校教练,竟然醉酒驾驶逾期未审、未购买交强险的教练车上路行驶,路遇交警查酒驾,还企图弃车逃跑。12月5日中午
2025-12-09 14:44:00
广西桂林一河段出现白色泡沫,官方通报
中国网12月9日讯据“桂林龙胜”公众号消息,桂林市龙胜生态环境局12月9日通报,12月8日7时30分许,该局接到龙脊镇人民政府报告和群众举报
2025-12-09 15:26:00
信任稀缺时代,轻喜到家如何实现与用户的“双向奔赴”?
“可以说管阿姨是个优秀的家政保姆,请公司给她以表扬和鼓励!” 这行质朴的文字,出自一位89岁长者——张奶奶亲笔写下的感谢信
2025-12-09 15:28:00
2025世界女性创业论坛暨颁奖典礼博鳌收官,绽放“她力量”
北京时间2025年11月27日-30日, 由世界夫人集团 (WORLD MADAM Group) 、30多家品牌机构与媒体机构联合支持的“世界夫人集团2025EMPOWERHER
2025-12-09 15:31:00
复旦大学国家文化创新研究中心亮相2025博鳌文化经济发展论坛
近日,由新华网、北京大学文化产业研究院、复旦大学国家文化创新研究中心共同主办的“2025博鳌文化经济发展论坛”在海南博鳌成功举办
2025-12-09 15:52:00
大皖新闻讯 生病请假,出勤考核扣分吗?小学体测成绩会计入体育中考总分吗?不会球类运动,现在报班还来得及吗?从昨天开始,家长圈里讨论最热烈的莫过于合肥市中考改革
2025-12-09 15:55:00
重庆警方通报网传“一温泉酒店更衣室疑似存在偷拍行为”:2人被刑拘
中国网12月9日讯 重庆市公安局沙坪坝分局12月9日通报,网传“一温泉酒店更衣室疑似存在偷拍行为”,警方迅速开展调查,并于12月9日上午7时许
2025-12-09 15:57:00
12月3日,“花式过冬 嗨游辽宁,辽宁学子游辽宁”主题校园推介活动走进大连外国语大学,以趣味互动、精彩展演与专属福利,为冬日校园注入暖意。【责任编辑:郭旭】
2025-12-09 16:29:00
当2万余个原创作品汇聚成4亿次全网传播热度,“我的铁路风景”故事汇的圆满收官,不仅定格了铁轨上的万千风景,更编织起一幅流动中国的鲜活画卷
2025-12-09 16:29:00
潮新闻讯 60元取卡针被炒是铂金300元回收?苹果官方:非铂金制成。卖家:我知道不是,但有人信有人买,咨询量暴增。门店库存告急。
2025-12-09 16:29:00
《宁好北岸》文创闪耀推介!北岸印象,江风回响!
为更好地挖掘、传承和弘扬南京江北地域文化,展现南京长江北岸的人文魅力与时代风采。12月6日,由南京《宁好北岸》编辑部主办
2025-12-09 16:46:00
长白时评评论员 李强学生没到校没请假,11通电话都被挂掉,老师冲到学生家里发现煤气泄漏,救下一家……11月20日清晨
2025-12-09 16:55:00
长白时评评论员 唐小兰12月3日,江苏苏州一女子坐地铁时,不小心将饮料洒在车厢里,她立刻蹲下清理,在自备纸巾用完后,又拿自己的围巾
2025-12-09 16:55:00