• 我的订阅
  • 科技

建设高质量数据集,让人工智能更聪明(新视点)

类别:科技 发布时间:2025-05-21 06:01:00 来源:人民资讯

本文转自:人民日报

什么是高质量数据集?简单来说,就是高价值、高密度、标准化的数据。

“数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过‘炼化’形成高质量数据集,才能助力大模型精准学习数据特征与规律,有效提升其对不同场景和任务的适应能力。”中国信息通信研究院副院长魏亮告诉记者,数据集的质量影响人工智能的“智商”,近期发布的深度求索系列模型训练中,大量使用了高质量推理数据集,凸显了高质量数据的重要性,“大模型与垂直领域深度融合,同样也需高质量数据集的支撑。”

建设高质量数据集,有关方面在积极行动。国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提出,“推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集”。第八届数字中国建设峰会上,国务院国资委发布首批10余个行业、30项央企人工智能行业高质量数据集,涵盖了电网调度AI负荷预测数据集、核电SPV设备健康诊断、运行异常及故障预测数据集、金融大模型数据集等。

“随着基础模型开源态势的形成,各方在算力和模型算法层面的差距正在不断收窄,数据要素价值更加凸显,已成为人工智能竞争的核心领域。”国务院国资委规划发展局副局长胡武婕表示,要推动行业高质量数据集加速汇聚共享,为人工智能产业提供充足“养分”,从而持续进行不同场景的训练优化,推动基础模型在千行百业落地应用。

目前,高质量数据集建设还存在不少挑战。魏亮说,一方面,行业大模型对数据的需求多样,不同行业部门对模型场景数据的需求各不相同,增加了数据处理和管理的复杂度。另一方面,在行业大模型的实际建设中,对于构建和采买的数据没有统一衡量标准,不同行业、不同数据源的数据完整性和准确性可能参差不齐,影响了大模型的训练效果和预测准确性,造成训练资源浪费。

4月30日,《高质量数据集建设指南(征求意见稿)》发布。全国数据标准化技术委员会提出,将强化标准引领,分三类建设高质量数据集:一类为“通识数据集”,包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用;一类为“行业通识数据集”,包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用;一类为“行业专识数据集”,包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。

国家数据局副局长夏冰表示,数据集的质效提升是人工智能赋能实体经济的“催化剂”,下一步,国家数据局将构建部际联通、央地协同的工作机制,推动高质量数据集标准体系研究,促进数据、技术、场景对接,构建多元协同的数据标注产业生态,夯实人工智能发展数据根基。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-05-21 08:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

本文转自:人民日报我国人工智能核心产业企业数量超过四千五百家运营商加快布局人工智能(新视点)本报记者 王 政《 人民日报 》( 2024年10月30日 第 18 版)一句话唤起应
2024-10-30 06:24:00
...制造加快发展。三维可视化仿真技术、大数据模型、局部人工智能应用在钢企逐步扩大应用,利用工业互联网技术实现智能化生产过程管控和智慧化企业运营管理的企业分别达到79.6%和57.
2024-09-04 07:13:00
...。2023年全国数据生产总量达32.85泽字节,同比增长22.44%,人工智能等数据驱动的技术创新加速突破,数据产业和服务向各行业领域广泛渗透,新产品、新模式、新业态持续涌现
2024-09-18 06:30:00
...》等2个项目入选广东省科技计划项目;获批参与《面向人工智能生成视听内容监管技术方法与机制研究》等4项2023年广电总局中长期计划项目;被广东省工业和信息化厅认定为2023年专
2024-05-23 21:01:00
...全球第一,产品应用于政务、金融等领域。置身科大讯飞人工智能体验馆,各种智能场景让人眼前一亮:讯飞工业听诊系统靠“听声”诊断设备异常、星火大模型已装车近6000万辆、智慧教育服
2024-05-29 07:42:00
...,产业规模接近3万亿元物联网应用不断拓展广度深度(新视点)本报记者 刘温馨《 人民日报 》( 2023年09月20日 第 18 版)河北廊坊临空经济区,每根灯杆、每个水表、每
2023-09-20 06:30:00
...民政府同意,近日,省人民政府办公厅印发《贵州省推动人工智能高质量发展行动方案(2025—2027年)》,全文如下:贵州省推动人工智能高质量发展行动方案(2025—2027年)
2025-01-08 01:00:00
AI数据服务助推人工智能行业高速发展
...,二十届中央财经委员会第一次会议召开,会上提出要把握人工智能等新科技革命浪潮,适应人与自然和谐共生的要求,保持并增强产业体系完备和配套能力强的优势,高效集聚全球创新要素,推进
2023-05-11 12:00:00
多措并举发展人工智能●推进算力资源优化配置●打造产业公共服务平台●强化资金要素保障●拓展应用场景落地●支持集聚区建设厦门网讯(厦门日报记者 林露虹 实习生 刘婉琳)近日,福建省数
2025-08-05 07:50:00
更多关于科技的资讯:
日前,在华锐动能科技(丽水)有限公司的样车试验场地,公司总经理陈锋和研发团队忙着调试新研发的山地滑板车,对样品车开展续航
2025-08-10 07:40:00
河北日报讯(记者刘英)8月8日,南方润泽科技数据中心封闭式基础设施证券投资基金(基金代码:180901)在深圳证券交易所正式上市
2025-08-10 07:47:00
迅路创新获得数千万元融资,推出定价超五万的高端智能E-cargo bike|36氪首发
作者 | 张子怡编辑 | 彭孝秋36氪获悉,E-cargo bike(载货电助力自行车)厂商迅路创新完成新一轮数千万元融资
2025-08-09 09:26:00
GPT-5快抢走打工人饭碗了
作者:宋思杭GPT-5,终于来了。北京时间8月8日凌晨1点,OpenAI CEO Sam Altman 没有爽约。在发布会前一天
2025-08-09 11:33:00
跻身第一方阵后,合肥还想要更多
作者:李 杭今年年初,DeepSeek的爆火点燃了AI产业与城市发展的新一轮讨论。一个共识逐渐清晰:抓住AI产业风口,城市便能迎来新的增长
2025-08-09 19:56:00
浙江日报讯 (记者 翁云骞 通讯员 邵滢) 最近,墨西哥电子元器件展突然被慈溪外贸企业热捧,参展企业从过去的三五家暴增到四五十家
2025-08-09 09:10:00
汇通达与头部公共云服务商达成全栈AI全面合作宁企牵手阿里云,共拓“AI+产业”新生态□南京日报/紫金山新闻记者张甜甜当AI浪潮涌向乡镇街头巷尾的小店
2025-08-09 09:56:00
江苏南京:“小视”不可小视,一双“慧眼”识世界
十年深耕人工智能视觉领域,让机器“看得懂、想得透、做得准”“小视”不可小视,一双“慧眼”识世界扫一扫,看视频□南京日报/紫金山新闻记者江芬芬站在南京生命科技小镇5号楼的落地窗前
2025-08-09 09:57:00
创新金融服务!交行青岛分行助力青岛“88购物嘉年华”
齐鲁晚报·齐鲁壹点记者 尚青龙消费是拉动经济增长的“主引擎”。8月8日,在2025年青岛“88购物嘉年华”启动之际,交通银行青岛分行以“活水”浇灌消费市场
2025-08-09 11:46:00
8月9日00时31分,“3、2、1,点火!”随着指令落下,熊熊烈焰喷涌而出,托举着捷龙三号运载火箭冲破海天之间的云雾。同一时间
2025-08-09 12:14:00
肥城市消费品以旧换新工作专题新闻发布会召开
新闻发布会现场(鲍文昭 供图)大众网记者 郝晓华 肥城报道近日,肥城市消费品以旧换新工作专题新闻发布会召开。肥城市商务局相关负责人员出席发布会
2025-08-09 15:43:00
国外客户多次登门求购 镇宁破碎机闯全球
“这个月来了三四波国外客商了,刚走的西班牙客户订了1000多万元的设备。”日前,在安顺市镇宁产业园,贵州启黔重工科技有限公司(以下简称“启黔重工”)负责人王大林一边忙着安排生产
2025-08-09 16:11:00
聊城市茌平区聚焦“创新人才”培养的核心命题,在初中物理教学中构建起“一核·三维·五阶”创新素养培育体系。该体系以创新素养为核心
2025-08-09 16:16:00