• 我的订阅
  • 科技

建设高质量数据集,让人工智能更聪明(新视点)

类别:科技 发布时间:2025-05-21 06:01:00 来源:人民资讯

本文转自:人民日报

什么是高质量数据集?简单来说,就是高价值、高密度、标准化的数据。

“数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过‘炼化’形成高质量数据集,才能助力大模型精准学习数据特征与规律,有效提升其对不同场景和任务的适应能力。”中国信息通信研究院副院长魏亮告诉记者,数据集的质量影响人工智能的“智商”,近期发布的深度求索系列模型训练中,大量使用了高质量推理数据集,凸显了高质量数据的重要性,“大模型与垂直领域深度融合,同样也需高质量数据集的支撑。”

建设高质量数据集,有关方面在积极行动。国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提出,“推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集”。第八届数字中国建设峰会上,国务院国资委发布首批10余个行业、30项央企人工智能行业高质量数据集,涵盖了电网调度AI负荷预测数据集、核电SPV设备健康诊断、运行异常及故障预测数据集、金融大模型数据集等。

“随着基础模型开源态势的形成,各方在算力和模型算法层面的差距正在不断收窄,数据要素价值更加凸显,已成为人工智能竞争的核心领域。”国务院国资委规划发展局副局长胡武婕表示,要推动行业高质量数据集加速汇聚共享,为人工智能产业提供充足“养分”,从而持续进行不同场景的训练优化,推动基础模型在千行百业落地应用。

目前,高质量数据集建设还存在不少挑战。魏亮说,一方面,行业大模型对数据的需求多样,不同行业部门对模型场景数据的需求各不相同,增加了数据处理和管理的复杂度。另一方面,在行业大模型的实际建设中,对于构建和采买的数据没有统一衡量标准,不同行业、不同数据源的数据完整性和准确性可能参差不齐,影响了大模型的训练效果和预测准确性,造成训练资源浪费。

4月30日,《高质量数据集建设指南(征求意见稿)》发布。全国数据标准化技术委员会提出,将强化标准引领,分三类建设高质量数据集:一类为“通识数据集”,包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用;一类为“行业通识数据集”,包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用;一类为“行业专识数据集”,包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。

国家数据局副局长夏冰表示,数据集的质效提升是人工智能赋能实体经济的“催化剂”,下一步,国家数据局将构建部际联通、央地协同的工作机制,推动高质量数据集标准体系研究,促进数据、技术、场景对接,构建多元协同的数据标注产业生态,夯实人工智能发展数据根基。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-05-21 08:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

本文转自:人民日报我国人工智能核心产业企业数量超过四千五百家运营商加快布局人工智能(新视点)本报记者 王 政《 人民日报 》( 2024年10月30日 第 18 版)一句话唤起应
2024-10-30 06:24:00
...制造加快发展。三维可视化仿真技术、大数据模型、局部人工智能应用在钢企逐步扩大应用,利用工业互联网技术实现智能化生产过程管控和智慧化企业运营管理的企业分别达到79.6%和57.
2024-09-04 07:13:00
...。2023年全国数据生产总量达32.85泽字节,同比增长22.44%,人工智能等数据驱动的技术创新加速突破,数据产业和服务向各行业领域广泛渗透,新产品、新模式、新业态持续涌现
2024-09-18 06:30:00
...》等2个项目入选广东省科技计划项目;获批参与《面向人工智能生成视听内容监管技术方法与机制研究》等4项2023年广电总局中长期计划项目;被广东省工业和信息化厅认定为2023年专
2024-05-23 21:01:00
...全球第一,产品应用于政务、金融等领域。置身科大讯飞人工智能体验馆,各种智能场景让人眼前一亮:讯飞工业听诊系统靠“听声”诊断设备异常、星火大模型已装车近6000万辆、智慧教育服
2024-05-29 07:42:00
...,产业规模接近3万亿元物联网应用不断拓展广度深度(新视点)本报记者 刘温馨《 人民日报 》( 2023年09月20日 第 18 版)河北廊坊临空经济区,每根灯杆、每个水表、每
2023-09-20 06:30:00
本文转自:人民日报本报记者  王云杉开通运营!近日,太原轨道交通1号线正式开通初期运营,与既有2号线形成“力”字轨道交通网络架构,太原地铁由此进入“换乘时代”。顺利贯通!2月25
2025-03-12 06:02:00
...民政府同意,近日,省人民政府办公厅印发《贵州省推动人工智能高质量发展行动方案(2025—2027年)》,全文如下:贵州省推动人工智能高质量发展行动方案(2025—2027年)
2025-01-08 01:00:00
本文转自:人民网本报记者 王云杉冬日的浙江杭州,阳光和煦。萧山区湘湖社区,56岁的居民孙玉红在给两岁的孙女读绘本,“现在社区里,室内也有小朋友游戏、阅读的地方。如果大人临时有事,
2023-12-20 07:48:00
更多关于科技的资讯:
邦德激光正式入驻Dream Park全球总部基地
近日,邦德激光总部员工全部迁入位于济南市历城区春晖路3999号的Dream Park全球总部基地,标志着公司发展进入全新阶段
2026-02-06 20:50:00
2026年WGS世界政府峰会 迪拜王储乘坐百度萝卜快跑无人车参会!
“解放双手、未来已来!”在体验完萝卜快跑全无人驾驶后,迪拜王储谢赫·哈姆丹主动在海外社交媒体上发文,赞叹这次“非常丝滑”的未来出行
2026-02-06 17:08:00
三联家电章丘首店世茂店盛大开业,一站式高端家电消费新升级
鲁网2月6日讯春启新程,盛境绽放!2月6日,扎根齐鲁四十一载的山东家电零售领军品牌三联家电,携章丘区域首店正式入驻章丘世茂广场
2026-02-06 17:12:00
造谣一张嘴,辟谣跑断腿。一段时间以来,网络“黑嘴”伤企现象时有发生,严重影响企业正常发展。现摘编山东青岛市网信办文章《守护营商网络净土
2026-02-06 17:46:00
蚂蚁集团发布《2025年消费者权益保护年报》:金融普惠教育系列行动覆盖2.4亿人次
中国消费者报报道(记者司宇萌)日前,蚂蚁集团正式发布《2025年消费者权益保护年报》(以下简称《年报》)。《年报》显示
2026-02-06 18:11:00
第四届储能大会将于5月22日至24日在南京举办
中国消费者报北京讯(记者吴博峰)2月5日,以“技术突围•生态协同”为主题、由江苏省储能行业协会联合行业媒体共同主办的CESC2026第四届储能大会暨储能及智能电网设备应用展览会媒体见面会在京举行
2026-02-06 18:11:00
聚焦国际优质内容 京东图书推动法国与英国经典作品销量与影响力双提升
当下,法国文学在中国阅读市场的热度持续攀升,相关数据显示2025对华出口额同比增长超过30%。作为引进与销售海外文化作品的渠道之一
2026-02-06 18:17:00
河钢集团张宣科技:聚力体系构建 推动智能制造向高端跃迁
河北新闻网讯(王杨、曹莹莹)曾经,以“氢冶炼”替代“碳冶炼”实现了行业突围。如今,产业向智造升级,河钢集团张宣科技又该如何续写传奇
2026-02-06 20:00:00
在全球制造业向高端化、智能化转型的浪潮中,激光技术作为核心支撑力量,正重塑产业发展格局。武汉华工激光工程有限责任公司(以下简称 “华工激光”)作为中国激光工业化应用的开创者与引领者
2026-02-06 15:27:00
国家超算互联网核心节点上线试运行,托举中国AI算力应用关键一跃!
2月5日,国家超算互联网应用技术大会暨核心节点上线试运行仪式在郑州隆重举行。发改委、科技部、工信部、国家数据局、国家自然科学基金委等单位莅临现场
2026-02-06 15:28:00
河北交投禄发集团徐水服务区升级改造换新颜 顾客出行体验再提升
视频摄制:周明哲河北新闻网讯(牟岚)2月4日,位于京港澳高速公路京石段121公里处的河北交投禄发集团所属徐水服务区升级改造后重新亮相
2026-02-06 15:29:00
随着银发经济从基础保障型供给向精神文化型消费升级,银发文教正在成为银发产业中最具潜力的细分赛道。与早期的兴趣培训不同,如今的银发文教已经覆盖文化素养
2026-02-06 15:39:00
近日,倍轻松推出的“早睡娃娃”系列以现象级热度席卷社交网络,成为年货消费市场的一抹亮色。1月23日至25日,全国巡展首站在深圳KKONE购物中心启动
2026-02-06 15:47:00
毛绒玩具产业是雄安新区容城县的特色优势产业。马年春节将至,位于容城县的中国(雄安新区)玩具总部基地内,上百款马年毛绒玩具扎堆上新
2026-02-06 13:57:00