• 我的订阅
  • 科技

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

类别:科技 发布时间:2025-08-25 16:46:00 来源:大众报业·齐鲁壹点

齐鲁晚报·齐鲁壹点 夏侯凤超 摄影 张中

随着生成式人工智能的快速发展,高质量数据集作为训练和优化AI大模型的“养料”,已成为人工智能技术突破的核心竞争力。

8月25日,山东数字文化集团(以下简称山东数文集团)与人民网共建语料库合作签约暨项目推进会在济南举行,山东数文集团与人民网正式签约,共建全国首个主流文化语料库。什么是主流文化语料库?它的建设对数字文化产业发展有哪些意义?

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

必要性:

政策指引+竞争核心力

语料库建设成为行业必然选择

语料库作为人工智能模型训练的核心资源备受瞩目。

人工智能大模型有“三驾马车”:数据、算法和算力。而随着大模型技术的迅猛发展,在算法趋同、算力普惠的背景下,高质量数据集就成为了构建与训练大模型的基础性关键资源。

高质量数据集是指用于训练、验证和优化大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动的数据资源集合。如果没有一个语料库来训练 AI大模型,大模型就无法学习;语料库越丰富,AI大模型就会变得越熟练、越智能。因此,规模庞大、内容准确的语料库,是大模型能力涌现的基础。

高质量数据集作为人工智能核心资源的地位不断凸显。2025年2月,高质量数据集建设工作启动会在京召开,27个国家部委代表参加,会议落实“人工智能+”行动,推动高质量数据集建设,高效赋能行业发展。2025年3月24日,国家数据局局长刘烈宏在中国发展高层论坛2025年年会上表示,“国家数据局将充分调动社会各方力量,积极推动高质量数据集建设,持续增加数据供给。”“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里。”

国务院办公厅2025年1月印发的《关于推动文化高质量发展的若干经济政策》提出,“建设文化领域人工智能高质量数据集,支持文化领域大模型建设”;2025年6月,《山东省支持文化和科技深度融合协同创新的政策措施》明确,“支持文化大模型开源利用类融合创新项目,集聚版本资源、文献资源和算力资源等,建设文化领域人工智能高质量数据集和语料库,形成一批文化大模型产品和服务”。

一方面是政策方针的支持,另一方面是人工智能领域的核心竞争力,因此,语料库的建设势在必行,对于助力区域及垂类产业数字经济的高质量发展具有重要意义。

是什么:

山东提前布局语料库

为主流文化传承提供“燃料”

主流文化语料库由山东数字文化集团依托人民网、大众报业集团等党报党端党网长期建设发展形成的新闻、理论、评论、政策等权威媒体资源,以及省内文化单位、高校多年来积累的优质私域文化资源,系统性注入主流价值观,确保语料时刻与国家脉搏同频、与社会价值共振,打造成可供AI领域放心使用的“价值合规型”数据资源。经数据采集、清洗、预标注、标注、增强、校审等环节,通过“AI+人工”的方式,精心打磨而成。

主流文化语料库通过标准化的语料分类系统和专业的数据标注平台,解决了目前语料库普遍存在的格式不统一、质量不齐、标准差别等问题,助力各领域和垂类打造准确性、完整性、丰富性、一致性、时效性的高质量语料库,使语料库在场景应用上更加实用和便利。为解决通用大模型常因缺乏针对性语料而“水土不服”的问题,主流文化语料库可深入区域和垂直领域的具体场景,构建富含行业术语和场景化表达的精准语料资源,进一步增强AI的理解力,提升应用效能,加速AI技术与垂类领域的深度融合,驱动产业升级。

主流文化语料库一期重点聚焦山东优秀文化,目前已上线问答语料5万对、基础语料2000万篇,正在打造孔子学术研究、孔子画像等多个高质量数据集。后续计划分期分批建设覆盖广泛、内容丰富主流文化数据集,推动文化大模型的性能跃迁与我省数字文化产业高质量发展。

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

山东数字文化集团党委书记、董事长魏传强表示,“主流文化语料库的建设,是山东数文集团贯彻落实国家文化数字化战略、山东文化强省建设的必然要求,是文化与科技融合的具体举措,也是加快发展新型文化业态,实现文化建设数字化赋能、信息化转型的重要内容。”

怎么用:

从数据采集到使用

一站式操作平台

语料库建设的关键在于数据标注。在日前山东出台的《关于加快释放数据价值加力推进数字经济高质量发展的实施意见》中明确,加快数据标注产业发展,2027年年底前,省内建设5个成效明显、特色鲜明的数据标注基地。

文化数据标识如同为数据绘制一幅精细的“画像”,清晰注明其来源、特征和价值,从而成为我们在海量信息中快速定位的“导航地图”。山东数文集团充分发挥自有资源优势,依托在国家文化大数据体系标本库、基因库、素材库建设领域积累的深厚经验,以及在对多模态数据(视频、音频、图像、文本)进行处理、标识与关联整合的成熟技术成果,进一步推动文化大数据标识基地建设。

“山东数文集团自主研发打造山东文化数据标注平台,提供数据采集、清洗、预标注、标注、增强、审核等一站式全链路服务,支持问答、图片、视频、音频、文件、图谱等多类型数据标注。”山东数文集团技术总监宋耀介绍。标注过程遵循标准化流程。用户提交原始素材入库至统一数据源,完成数据采集与归集;后台剔除重复样本及低质量内容后,完成数据清洗与筛选;核心文本数据自动标注并解析文本语义,生成结构化问答对,通过AI增强功能自动实现问题泛化和答案多样性;在问答对生成后,人工进行精校和审核,以确保数据的完备性和准确性。

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

在建设孔子数智大模型的过程中,打造了孔子研究高质量数据集、孔子画像数据集两个数据集。在省委宣传部的指导和大力支持下,该数据集汇集了来自于山东省社科联、山东社会科学院、尼山世界儒学中心、孔子研究院、山东大学儒学高等研究院等权威文化机构和单位的海量数据。孔子研究高质量数据集构建过程中,归集了数千篇的专业文献与著作,20余名专家学者深度文本挖掘,抽丝剥茧,针对孔子相关观点抽取提炼生成问答对,反复审校溯源,确保数据精确、来源清晰。孔子画像数据集的建立中,专家学者对每幅画像进行了专业的内容标注,细致至画像的创作年代、背景用途、风格材质等,依据权威文献和已有的研究成果一件件溯源,从归集的5000多张不同历史时期、不同艺术风格的图片资料中,标注了上千张,以此构建来源清晰、标注规范、便于搜索和使用的专业数据集,为后续学术研究、文化应用等提供了基础,也为后续大模型生成画像提供了依据。

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

优势性:

数据处理全流程闭环

更加高效和高质

“山东文化数据标注平台构建了高效、无缝衔接的数据处理闭环,各操作流程兼顾用户导向与智能驱动,提供高度适配、便捷高效的体验。”宋耀介绍。

在上传素材、标注和校对等过程中,平台支持多维协作功能。比如上传过程中,同一数据集可邀请多人共同上传,标注过程也可实现协作处理,为了避免重复劳动,上传后的素材进行智能清洗,保证数据不重复;标注好的数据也会有注明,不会重复生成,以确保数据源唯一性及标注成果准确性。

在数据智能清洗流程中,系统可实现自动去重的功能。针对高度相似的素材,平台支持基于质量的智能筛选,自动剔除低质量样本,大幅提升处理效能与操作流畅度。比如同样的素材,如果存在分辨率低或带水印的,平台就会自动过滤,仅留下高质量数据。

数据校对过程中,平台在图谱类别专门打造了一套AI识别映射关系体系,区别于目前大多数平台模糊、广泛的关系呈现,这套体系可实现关系梳理一目了然。以历史名人为例,平台可自动识别其家庭、朋友、事业、作品、成就、评价、头衔等信息,完成关系归类,形成完整的结构化关系网,大大提高后期数据归集的效率。

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

此外,为了让大模型更“懂事”,平台配置了AI增强功能,此功能可实现同一问题的多种问法及语义一致的多样化答案。如标记的问题是“孔子的出生地是哪里”,AI增强功能可以智能扩展至“孔子在哪出生”“孔子出生地点”等问题,为后期大模型的应用提供了重要的参考。

数据在处理完毕后,平台还支持一键发布至目标大模型,发布后的大模型可立即基于该数据集进行微调或推理,实现模型能力即时更新与增强,赋能模型快速适配应用场景。

当前,我国正大力通过顶层设计推动语料资源开放共享,语料库建设的开源化趋势日益凸显。“山东文化数据标注平台面向全社会免费开放,为大模型开发中数据收集、清洗、标注和使用提供工具,也为AI算法提供必需语料资源。我们希望通过这个平台,开源共建主流文化语料库,形成包容、开放、有序、共享的AI语料新生态,达到1+1>2的效果。”魏传强表示,“下一步,山东数字文化集团还将推出山东文化数据交易平台,提供文化数据集交易服务,推动数据要素流通利用与数据资产变现。我们将持续贯彻落实国家文化数字化战略,坚决扛牢服务文化强省建设的使命担当,为深入推进中华优秀传统文化创造性转化、创新性发展贡献力量。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-08-26 05:45:13

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地
...。而摆在“中国ChatGPT”面前的问题,首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主,缺少中文特点、文化,难以满足关键行业应用选型和优化的
2023-05-18 18:00:00
人民网+贵州日报组CP!主流价值语料库上线倒计时
...网正式签约,将依托人民网优势资源,合作推进主流价值语料库(贵州)建设。“主流价值语料不仅是传统媒体行业数字化转型与智能化升级的‘新基建’,更是人工智能时代‘扫AI盲’的关键布
2025-07-18 16:49:00
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...右我们对世界的认识方式。 文化出海应包括数据出海,语料库是未来文化软实力如果仔细分析Sora生成内容的美学要素,就能够轻易发现,它的审美范式依旧是这一“犹他大学—好莱坞—皮
2024-04-10 10:41:00
AI价值对齐“五有”框架在世界人工智能大会发布
...举行。论坛围绕高质量语料数据如何高效供给赋能大模型产业发展,向市场传递专业化、链接型、前瞻性的语料生态设计理念。语料论坛现场。人民网记者 王初摄论坛上,人民网、人民日报社传播
2024-07-07 12:25:00
...”智能创作引擎、“人民审校”内容风控平台、主流价值语料库和“AI之眼”智能硬件等AI产品,取得良好反响。当前,广西日报传媒集团正全面推进自身系统性变革,牵头广西区市县三级媒体
2025-03-29 10:05:00
AI数据之战:大模型的“燃料”还能烧多久?
...、城市交通、消费零售、金融、影音等重点行业的大模型产业发展,库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院、上海工创中心、汇纳科技、万达信息、DGC数传集团、文远知行、
2024-07-09 17:41:00
上海:发力语料,建设“模都”
...、上海、深圳、杭州四地在人工智能领域深耕已久,正执产业发展之牛耳。上海的特点,是AI顶层设计有力,场景应用丰富,并在公共数据开源方面进行了长期大量的探索。从183家到348家
2024-07-06 13:16:00
APUS带你穿越千载重回故里,看AI眼中的《轩辕大帝》
...型训练的局限性十分明显。APUS基于对中国未来人工智能产业发展的认知,很早就开始积累红色语料库,进行价值观对齐,让APUS大模型的输出能够符合主流价值观,避免在模型能力调用中
2024-04-11 11:00:00
【长图】人民网与贵州日报共建主流价值语料库(贵州):这些核心信息你需要知道
图片部分元素由AI生成。贵州日报天眼新闻记者文字 袁蓠芊海报 陈亚兰 徐小迪编辑 何涛二审 杨韬三审 周文君
2025-07-19 03:14:00
更多关于科技的资讯:
邦德激光正式入驻Dream Park全球总部基地
近日,邦德激光总部员工全部迁入位于济南市历城区春晖路3999号的Dream Park全球总部基地,标志着公司发展进入全新阶段
2026-02-06 20:50:00
2026年WGS世界政府峰会 迪拜王储乘坐百度萝卜快跑无人车参会!
“解放双手、未来已来!”在体验完萝卜快跑全无人驾驶后,迪拜王储谢赫·哈姆丹主动在海外社交媒体上发文,赞叹这次“非常丝滑”的未来出行
2026-02-06 17:08:00
三联家电章丘首店世茂店盛大开业,一站式高端家电消费新升级
鲁网2月6日讯春启新程,盛境绽放!2月6日,扎根齐鲁四十一载的山东家电零售领军品牌三联家电,携章丘区域首店正式入驻章丘世茂广场
2026-02-06 17:12:00
造谣一张嘴,辟谣跑断腿。一段时间以来,网络“黑嘴”伤企现象时有发生,严重影响企业正常发展。现摘编山东青岛市网信办文章《守护营商网络净土
2026-02-06 17:46:00
蚂蚁集团发布《2025年消费者权益保护年报》:金融普惠教育系列行动覆盖2.4亿人次
中国消费者报报道(记者司宇萌)日前,蚂蚁集团正式发布《2025年消费者权益保护年报》(以下简称《年报》)。《年报》显示
2026-02-06 18:11:00
第四届储能大会将于5月22日至24日在南京举办
中国消费者报北京讯(记者吴博峰)2月5日,以“技术突围•生态协同”为主题、由江苏省储能行业协会联合行业媒体共同主办的CESC2026第四届储能大会暨储能及智能电网设备应用展览会媒体见面会在京举行
2026-02-06 18:11:00
聚焦国际优质内容 京东图书推动法国与英国经典作品销量与影响力双提升
当下,法国文学在中国阅读市场的热度持续攀升,相关数据显示2025对华出口额同比增长超过30%。作为引进与销售海外文化作品的渠道之一
2026-02-06 18:17:00
河钢集团张宣科技:聚力体系构建 推动智能制造向高端跃迁
河北新闻网讯(王杨、曹莹莹)曾经,以“氢冶炼”替代“碳冶炼”实现了行业突围。如今,产业向智造升级,河钢集团张宣科技又该如何续写传奇
2026-02-06 20:00:00
在全球制造业向高端化、智能化转型的浪潮中,激光技术作为核心支撑力量,正重塑产业发展格局。武汉华工激光工程有限责任公司(以下简称 “华工激光”)作为中国激光工业化应用的开创者与引领者
2026-02-06 15:27:00
国家超算互联网核心节点上线试运行,托举中国AI算力应用关键一跃!
2月5日,国家超算互联网应用技术大会暨核心节点上线试运行仪式在郑州隆重举行。发改委、科技部、工信部、国家数据局、国家自然科学基金委等单位莅临现场
2026-02-06 15:28:00
河北交投禄发集团徐水服务区升级改造换新颜 顾客出行体验再提升
视频摄制:周明哲河北新闻网讯(牟岚)2月4日,位于京港澳高速公路京石段121公里处的河北交投禄发集团所属徐水服务区升级改造后重新亮相
2026-02-06 15:29:00
随着银发经济从基础保障型供给向精神文化型消费升级,银发文教正在成为银发产业中最具潜力的细分赛道。与早期的兴趣培训不同,如今的银发文教已经覆盖文化素养
2026-02-06 15:39:00
近日,倍轻松推出的“早睡娃娃”系列以现象级热度席卷社交网络,成为年货消费市场的一抹亮色。1月23日至25日,全国巡展首站在深圳KKONE购物中心启动
2026-02-06 15:47:00
毛绒玩具产业是雄安新区容城县的特色优势产业。马年春节将至,位于容城县的中国(雄安新区)玩具总部基地内,上百款马年毛绒玩具扎堆上新
2026-02-06 13:57:00