• 我的订阅
  • 科技

建设高质量数据集,让人工智能更聪明(新视点)

类别:科技 发布时间:2025-05-21 06:01:00 来源:人民资讯

本文转自:人民日报

什么是高质量数据集?简单来说,就是高价值、高密度、标准化的数据。

“数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过‘炼化’形成高质量数据集,才能助力大模型精准学习数据特征与规律,有效提升其对不同场景和任务的适应能力。”中国信息通信研究院副院长魏亮告诉记者,数据集的质量影响人工智能的“智商”,近期发布的深度求索系列模型训练中,大量使用了高质量推理数据集,凸显了高质量数据的重要性,“大模型与垂直领域深度融合,同样也需高质量数据集的支撑。”

建设高质量数据集,有关方面在积极行动。国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提出,“推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集”。第八届数字中国建设峰会上,国务院国资委发布首批10余个行业、30项央企人工智能行业高质量数据集,涵盖了电网调度AI负荷预测数据集、核电SPV设备健康诊断、运行异常及故障预测数据集、金融大模型数据集等。

“随着基础模型开源态势的形成,各方在算力和模型算法层面的差距正在不断收窄,数据要素价值更加凸显,已成为人工智能竞争的核心领域。”国务院国资委规划发展局副局长胡武婕表示,要推动行业高质量数据集加速汇聚共享,为人工智能产业提供充足“养分”,从而持续进行不同场景的训练优化,推动基础模型在千行百业落地应用。

目前,高质量数据集建设还存在不少挑战。魏亮说,一方面,行业大模型对数据的需求多样,不同行业部门对模型场景数据的需求各不相同,增加了数据处理和管理的复杂度。另一方面,在行业大模型的实际建设中,对于构建和采买的数据没有统一衡量标准,不同行业、不同数据源的数据完整性和准确性可能参差不齐,影响了大模型的训练效果和预测准确性,造成训练资源浪费。

4月30日,《高质量数据集建设指南(征求意见稿)》发布。全国数据标准化技术委员会提出,将强化标准引领,分三类建设高质量数据集:一类为“通识数据集”,包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用;一类为“行业通识数据集”,包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用;一类为“行业专识数据集”,包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。

国家数据局副局长夏冰表示,数据集的质效提升是人工智能赋能实体经济的“催化剂”,下一步,国家数据局将构建部际联通、央地协同的工作机制,推动高质量数据集标准体系研究,促进数据、技术、场景对接,构建多元协同的数据标注产业生态,夯实人工智能发展数据根基。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-05-21 08:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

本文转自:人民日报我国人工智能核心产业企业数量超过四千五百家运营商加快布局人工智能(新视点)本报记者 王 政《 人民日报 》( 2024年10月30日 第 18 版)一句话唤起应
2024-10-30 06:24:00
...制造加快发展。三维可视化仿真技术、大数据模型、局部人工智能应用在钢企逐步扩大应用,利用工业互联网技术实现智能化生产过程管控和智慧化企业运营管理的企业分别达到79.6%和57.
2024-09-04 07:13:00
...。2023年全国数据生产总量达32.85泽字节,同比增长22.44%,人工智能等数据驱动的技术创新加速突破,数据产业和服务向各行业领域广泛渗透,新产品、新模式、新业态持续涌现
2024-09-18 06:30:00
...》等2个项目入选广东省科技计划项目;获批参与《面向人工智能生成视听内容监管技术方法与机制研究》等4项2023年广电总局中长期计划项目;被广东省工业和信息化厅认定为2023年专
2024-05-23 21:01:00
...全球第一,产品应用于政务、金融等领域。置身科大讯飞人工智能体验馆,各种智能场景让人眼前一亮:讯飞工业听诊系统靠“听声”诊断设备异常、星火大模型已装车近6000万辆、智慧教育服
2024-05-29 07:42:00
...,产业规模接近3万亿元物联网应用不断拓展广度深度(新视点)本报记者 刘温馨《 人民日报 》( 2023年09月20日 第 18 版)河北廊坊临空经济区,每根灯杆、每个水表、每
2023-09-20 06:30:00
...民政府同意,近日,省人民政府办公厅印发《贵州省推动人工智能高质量发展行动方案(2025—2027年)》,全文如下:贵州省推动人工智能高质量发展行动方案(2025—2027年)
2025-01-08 01:00:00
AI数据服务助推人工智能行业高速发展
...,二十届中央财经委员会第一次会议召开,会上提出要把握人工智能等新科技革命浪潮,适应人与自然和谐共生的要求,保持并增强产业体系完备和配套能力强的优势,高效集聚全球创新要素,推进
2023-05-11 12:00:00
多措并举发展人工智能●推进算力资源优化配置●打造产业公共服务平台●强化资金要素保障●拓展应用场景落地●支持集聚区建设厦门网讯(厦门日报记者 林露虹 实习生 刘婉琳)近日,福建省数
2025-08-05 07:50:00
更多关于科技的资讯:
匠心护航丨济宁移动圆满完成2025嘉祥圣德山野音乐节通信保障
鲁网10月20日讯10月18-19日,“共赴山野之约,让旋律在自然间共鸣”群星演唱会在嘉祥九顶山激情开唱,华语乐坛知名歌手轮番登台
2025-10-20 12:17:00
移动的 “智算样板间” 亮相青岛,施耐德电气破解算力基建难题
10月17日,一场穿行14城、总里程近2万公里的技术巡展抵达青岛。施耐德电气关键电源巡卡车化身 “数据中心行业的技术样板间”
2025-10-20 12:45:00
彰显多维综合实力,Hape重装亮相2025中国玩具展
10月15至17日,由中国玩具和婴童用品协会(简称中国玩协)主办的第二十三届CTE中国玩具展&潮玩展、第十八届CLE中国授权展
2025-10-20 13:19:00
富士胶片91年传承,始终深耕影像领域,在不同时代适时推出符合当下需求的产品.。影像的发展从未离开过"光",近日FUJIKINA 2025富士胶片影像周以"光的交响曲"为题拉开序幕
2025-10-20 13:19:00
安踏儿童足弓PRO跑鞋获国际设计金奖 以科技守护青少年足弓健康
安踏儿童旗下产品“足弓PRO跑鞋”凭借对儿童足弓健康成长的深刻洞察与科学的产品设计,荣获2025年缪斯设计奖(MUSE Design Awards)金奖
2025-10-20 13:49:00
厦门网讯(厦门日报记者 李晓平)日前,厦门市工业和信息化局组织开展人工智能政策资金申报工作,“真金白银”推进今年我市出台的《厦门市进一步推动人工智能产业发展若干措施》(以下简称《若干措施》)落地见效
2025-10-20 08:56:00
报告:研学旅游市场分化趋势明显 监管滞后发展
10月18日,“2025首届旅行服务大会暨交易展——‘跨界协作•链动未来’研学新生态思享会”在海南三亚保利国际会展中心举行
2025-10-20 09:30:00
西乡街道企业人才训练营走进北科瑞声探寻AI声纹新未来
10月16日,由西乡街道党群服务中心主办的“AI赋能·智汇西乡”企业人才训练营系列活动之北科瑞声参访学习在新一代产业园顺利举行
2025-10-20 09:48:00
姬源在数字化浪潮席卷全球的今天,一个特殊的群体正在悄然形成,他们就是阿尔法一代(GenerationAlpha)。这一代人正值智能手机
2025-10-20 10:49:00
2025微博V影响力大会揭晓9组大V荣誉,“尽兴分享”推动社会价值沉淀
10月18日,2025微博V影响力大会在北京・微博IN跨次元引力场隆重举行。作为微博主办的年度重磅平台级活动,此次大会以“尽兴分享
2025-10-20 10:49:00
新闻纵深·聚焦2025中国国际数字经济博览会|人工智能赋能产业升级“下半场”
阅读提示数字浪潮,奔涌而至。10月17日至19日,2025中国国际数字经济博览会在石家庄举办。这场综合性数字经济大会,不仅搭建起国际数字经济交流合作的高端平台
2025-10-20 07:35:00
聚焦2025中国国际数字经济博览会|数字“加料”,生活可以这么“潮”
10月17日,观众和下棋机器人对弈。河北日报记者 史晟全摄数字让生活更美好。2025中国国际数字经济博览会上,众多数智技术闪亮登场
2025-10-20 07:37:00
河北日报讯(记者宋平)10月19日,2025京津冀AI赋能教育新生态大会在石家庄举办。来自政府、高校、科研机构与企业的与会嘉宾
2025-10-20 07:42:00
青春华章丨制造业“数智化”,“脑力”岗位需求旺
南航双选会上来了237家制造业单位制造业“数智化”,“脑力”岗位需求旺□南京日报/紫金山新闻记者姜静实习生黄佳琪杨久久400多家用人单位中
2025-10-20 07:43:00