• 我的订阅
  • 科技

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

类别:科技 发布时间:2025-08-25 16:46:00 来源:大众报业·齐鲁壹点

齐鲁晚报·齐鲁壹点 夏侯凤超 摄影 张中

随着生成式人工智能的快速发展,高质量数据集作为训练和优化AI大模型的“养料”,已成为人工智能技术突破的核心竞争力。

8月25日,山东数字文化集团(以下简称山东数文集团)与人民网共建语料库合作签约暨项目推进会在济南举行,山东数文集团与人民网正式签约,共建全国首个主流文化语料库。什么是主流文化语料库?它的建设对数字文化产业发展有哪些意义?

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

必要性:

政策指引+竞争核心力

语料库建设成为行业必然选择

语料库作为人工智能模型训练的核心资源备受瞩目。

人工智能大模型有“三驾马车”:数据、算法和算力。而随着大模型技术的迅猛发展,在算法趋同、算力普惠的背景下,高质量数据集就成为了构建与训练大模型的基础性关键资源。

高质量数据集是指用于训练、验证和优化大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动的数据资源集合。如果没有一个语料库来训练 AI大模型,大模型就无法学习;语料库越丰富,AI大模型就会变得越熟练、越智能。因此,规模庞大、内容准确的语料库,是大模型能力涌现的基础。

高质量数据集作为人工智能核心资源的地位不断凸显。2025年2月,高质量数据集建设工作启动会在京召开,27个国家部委代表参加,会议落实“人工智能+”行动,推动高质量数据集建设,高效赋能行业发展。2025年3月24日,国家数据局局长刘烈宏在中国发展高层论坛2025年年会上表示,“国家数据局将充分调动社会各方力量,积极推动高质量数据集建设,持续增加数据供给。”“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里。”

国务院办公厅2025年1月印发的《关于推动文化高质量发展的若干经济政策》提出,“建设文化领域人工智能高质量数据集,支持文化领域大模型建设”;2025年6月,《山东省支持文化和科技深度融合协同创新的政策措施》明确,“支持文化大模型开源利用类融合创新项目,集聚版本资源、文献资源和算力资源等,建设文化领域人工智能高质量数据集和语料库,形成一批文化大模型产品和服务”。

一方面是政策方针的支持,另一方面是人工智能领域的核心竞争力,因此,语料库的建设势在必行,对于助力区域及垂类产业数字经济的高质量发展具有重要意义。

是什么:

山东提前布局语料库

为主流文化传承提供“燃料”

主流文化语料库由山东数字文化集团依托人民网、大众报业集团等党报党端党网长期建设发展形成的新闻、理论、评论、政策等权威媒体资源,以及省内文化单位、高校多年来积累的优质私域文化资源,系统性注入主流价值观,确保语料时刻与国家脉搏同频、与社会价值共振,打造成可供AI领域放心使用的“价值合规型”数据资源。经数据采集、清洗、预标注、标注、增强、校审等环节,通过“AI+人工”的方式,精心打磨而成。

主流文化语料库通过标准化的语料分类系统和专业的数据标注平台,解决了目前语料库普遍存在的格式不统一、质量不齐、标准差别等问题,助力各领域和垂类打造准确性、完整性、丰富性、一致性、时效性的高质量语料库,使语料库在场景应用上更加实用和便利。为解决通用大模型常因缺乏针对性语料而“水土不服”的问题,主流文化语料库可深入区域和垂直领域的具体场景,构建富含行业术语和场景化表达的精准语料资源,进一步增强AI的理解力,提升应用效能,加速AI技术与垂类领域的深度融合,驱动产业升级。

主流文化语料库一期重点聚焦山东优秀文化,目前已上线问答语料5万对、基础语料2000万篇,正在打造孔子学术研究、孔子画像等多个高质量数据集。后续计划分期分批建设覆盖广泛、内容丰富主流文化数据集,推动文化大模型的性能跃迁与我省数字文化产业高质量发展。

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

山东数字文化集团党委书记、董事长魏传强表示,“主流文化语料库的建设,是山东数文集团贯彻落实国家文化数字化战略、山东文化强省建设的必然要求,是文化与科技融合的具体举措,也是加快发展新型文化业态,实现文化建设数字化赋能、信息化转型的重要内容。”

怎么用:

从数据采集到使用

一站式操作平台

语料库建设的关键在于数据标注。在日前山东出台的《关于加快释放数据价值加力推进数字经济高质量发展的实施意见》中明确,加快数据标注产业发展,2027年年底前,省内建设5个成效明显、特色鲜明的数据标注基地。

文化数据标识如同为数据绘制一幅精细的“画像”,清晰注明其来源、特征和价值,从而成为我们在海量信息中快速定位的“导航地图”。山东数文集团充分发挥自有资源优势,依托在国家文化大数据体系标本库、基因库、素材库建设领域积累的深厚经验,以及在对多模态数据(视频、音频、图像、文本)进行处理、标识与关联整合的成熟技术成果,进一步推动文化大数据标识基地建设。

“山东数文集团自主研发打造山东文化数据标注平台,提供数据采集、清洗、预标注、标注、增强、审核等一站式全链路服务,支持问答、图片、视频、音频、文件、图谱等多类型数据标注。”山东数文集团技术总监宋耀介绍。标注过程遵循标准化流程。用户提交原始素材入库至统一数据源,完成数据采集与归集;后台剔除重复样本及低质量内容后,完成数据清洗与筛选;核心文本数据自动标注并解析文本语义,生成结构化问答对,通过AI增强功能自动实现问题泛化和答案多样性;在问答对生成后,人工进行精校和审核,以确保数据的完备性和准确性。

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

在建设孔子数智大模型的过程中,打造了孔子研究高质量数据集、孔子画像数据集两个数据集。在省委宣传部的指导和大力支持下,该数据集汇集了来自于山东省社科联、山东社会科学院、尼山世界儒学中心、孔子研究院、山东大学儒学高等研究院等权威文化机构和单位的海量数据。孔子研究高质量数据集构建过程中,归集了数千篇的专业文献与著作,20余名专家学者深度文本挖掘,抽丝剥茧,针对孔子相关观点抽取提炼生成问答对,反复审校溯源,确保数据精确、来源清晰。孔子画像数据集的建立中,专家学者对每幅画像进行了专业的内容标注,细致至画像的创作年代、背景用途、风格材质等,依据权威文献和已有的研究成果一件件溯源,从归集的5000多张不同历史时期、不同艺术风格的图片资料中,标注了上千张,以此构建来源清晰、标注规范、便于搜索和使用的专业数据集,为后续学术研究、文化应用等提供了基础,也为后续大模型生成画像提供了依据。

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

优势性:

数据处理全流程闭环

更加高效和高质

“山东文化数据标注平台构建了高效、无缝衔接的数据处理闭环,各操作流程兼顾用户导向与智能驱动,提供高度适配、便捷高效的体验。”宋耀介绍。

在上传素材、标注和校对等过程中,平台支持多维协作功能。比如上传过程中,同一数据集可邀请多人共同上传,标注过程也可实现协作处理,为了避免重复劳动,上传后的素材进行智能清洗,保证数据不重复;标注好的数据也会有注明,不会重复生成,以确保数据源唯一性及标注成果准确性。

在数据智能清洗流程中,系统可实现自动去重的功能。针对高度相似的素材,平台支持基于质量的智能筛选,自动剔除低质量样本,大幅提升处理效能与操作流畅度。比如同样的素材,如果存在分辨率低或带水印的,平台就会自动过滤,仅留下高质量数据。

数据校对过程中,平台在图谱类别专门打造了一套AI识别映射关系体系,区别于目前大多数平台模糊、广泛的关系呈现,这套体系可实现关系梳理一目了然。以历史名人为例,平台可自动识别其家庭、朋友、事业、作品、成就、评价、头衔等信息,完成关系归类,形成完整的结构化关系网,大大提高后期数据归集的效率。

主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?

此外,为了让大模型更“懂事”,平台配置了AI增强功能,此功能可实现同一问题的多种问法及语义一致的多样化答案。如标记的问题是“孔子的出生地是哪里”,AI增强功能可以智能扩展至“孔子在哪出生”“孔子出生地点”等问题,为后期大模型的应用提供了重要的参考。

数据在处理完毕后,平台还支持一键发布至目标大模型,发布后的大模型可立即基于该数据集进行微调或推理,实现模型能力即时更新与增强,赋能模型快速适配应用场景。

当前,我国正大力通过顶层设计推动语料资源开放共享,语料库建设的开源化趋势日益凸显。“山东文化数据标注平台面向全社会免费开放,为大模型开发中数据收集、清洗、标注和使用提供工具,也为AI算法提供必需语料资源。我们希望通过这个平台,开源共建主流文化语料库,形成包容、开放、有序、共享的AI语料新生态,达到1+1>2的效果。”魏传强表示,“下一步,山东数字文化集团还将推出山东文化数据交易平台,提供文化数据集交易服务,推动数据要素流通利用与数据资产变现。我们将持续贯彻落实国家文化数字化战略,坚决扛牢服务文化强省建设的使命担当,为深入推进中华优秀传统文化创造性转化、创新性发展贡献力量。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-08-26 05:45:13

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地
...。而摆在“中国ChatGPT”面前的问题,首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主,缺少中文特点、文化,难以满足关键行业应用选型和优化的
2023-05-18 18:00:00
人民网+贵州日报组CP!主流价值语料库上线倒计时
...网正式签约,将依托人民网优势资源,合作推进主流价值语料库(贵州)建设。“主流价值语料不仅是传统媒体行业数字化转型与智能化升级的‘新基建’,更是人工智能时代‘扫AI盲’的关键布
2025-07-18 16:49:00
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...右我们对世界的认识方式。 文化出海应包括数据出海,语料库是未来文化软实力如果仔细分析Sora生成内容的美学要素,就能够轻易发现,它的审美范式依旧是这一“犹他大学—好莱坞—皮
2024-04-10 10:41:00
AI价值对齐“五有”框架在世界人工智能大会发布
...举行。论坛围绕高质量语料数据如何高效供给赋能大模型产业发展,向市场传递专业化、链接型、前瞻性的语料生态设计理念。语料论坛现场。人民网记者 王初摄论坛上,人民网、人民日报社传播
2024-07-07 12:25:00
...”智能创作引擎、“人民审校”内容风控平台、主流价值语料库和“AI之眼”智能硬件等AI产品,取得良好反响。当前,广西日报传媒集团正全面推进自身系统性变革,牵头广西区市县三级媒体
2025-03-29 10:05:00
AI数据之战:大模型的“燃料”还能烧多久?
...、城市交通、消费零售、金融、影音等重点行业的大模型产业发展,库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院、上海工创中心、汇纳科技、万达信息、DGC数传集团、文远知行、
2024-07-09 17:41:00
上海:发力语料,建设“模都”
...、上海、深圳、杭州四地在人工智能领域深耕已久,正执产业发展之牛耳。上海的特点,是AI顶层设计有力,场景应用丰富,并在公共数据开源方面进行了长期大量的探索。从183家到348家
2024-07-06 13:16:00
APUS带你穿越千载重回故里,看AI眼中的《轩辕大帝》
...型训练的局限性十分明显。APUS基于对中国未来人工智能产业发展的认知,很早就开始积累红色语料库,进行价值观对齐,让APUS大模型的输出能够符合主流价值观,避免在模型能力调用中
2024-04-11 11:00:00
【长图】人民网与贵州日报共建主流价值语料库(贵州):这些核心信息你需要知道
图片部分元素由AI生成。贵州日报天眼新闻记者文字 袁蓠芊海报 陈亚兰 徐小迪编辑 何涛二审 杨韬三审 周文君
2025-07-19 03:14:00
更多关于科技的资讯:
索乙一座城市的活力,不但潜藏在万千真人跑者坚韧向前的脚步中,也蕴含于人形机器人从磕磕绊绊到跑得更快更稳的耐力比拼间。今年以来
2026-04-13 11:07:00
皖中客4月10日,国家网信办、发改委、工信部、公安部、市场监管总局五部门联合发布《人工智能拟人化互动服务管理暂行办法》
2026-04-13 11:07:00
科技引领产业升级:以心医疗推动心血管器械高质量发展
在国家推动高端医疗器械创新发展、实现产业高质量发展的战略指引下,我国心血管医疗器械领域持续迎来重大突破。第93届中国国际医疗器械博览会上
2026-04-13 11:30:00
昌腾携智能纸箱设备亮相2026华南国际瓦楞展-引领包装智能制造新方向
2026年4月15日—17日,全球瓦楞包装行业盛会——2026华南国际瓦楞展在深圳国际会展中心(宝安新馆)隆重举办。东光县昌腾纸箱机械设备有限公司携全程吸附式碰线机
2026-04-13 11:30:00
深化“AI+医疗器械”战略布局 京东健康与瑞迈特、联影等品牌合作再升级
4月10日,第93届中国国际医疗器械博览会(CMEF)期间,京东健康与瑞迈特、联影、汉王大健康、康泰医学、墨尼克医疗、舒尔美等六家行业领先品牌进一步深化“AI+医疗器械”合作
2026-04-13 11:32:00
青春赋能康复创新|山东特殊教育职业学院学生团队打造智能仿生康复训练手套
在山东特殊教育职业学院,童手智康这支充满活力与爱心的学生创新创业团队,立足专业所长、聚焦康复所需,成功研发智能仿生康复训练手套
2026-04-13 11:34:00
游戏IP成为出版业“跨界”新方向
中国青年报客户端讯(中青报·中青网记者王烨捷)近日,游戏《崩坏:星穹铁道》宣布推出240万册纪念画册。画册由上海世纪出版集团旗下的上海音乐出版社承制
2026-04-13 11:42:00
一个展会赋能一个产业!霸州家具年营收超500亿元的“共享密码”
河北新闻网讯(河北日报记者刘杰)优质参展企业1800余家,发布家具新品1万余款;吸引海内外采购商16.5万人,入馆总人次超42万……4月10日
2026-04-13 11:55:00
中国具身智能大会在合肥举办
大皖新闻讯 4月10日至12日,由中国人工智能学会主办、安徽大学承办的2026中国具身智能大会(CEAI2026)在合肥举办
2026-04-13 12:01:00
近日,智慧眼科技股份有限公司(简称“智慧眼”)正式成为国际人工智能产业联盟(AIIA)理事单位。这标志着智慧眼在推动AI技术与医疗健康深度融合
2026-04-13 12:07:00
天冰“双王”出圈!春日冰淇淋盛宴,以甜蜜赴全城之约
春风拂暖,万物焕新,当春日的温柔与冰淇淋的清甜撞个满怀,深耕冰淇淋领域40年的天冰,携旗下“双王”——小神童、冠军小白重磅发力
2026-04-13 13:51:00
年营收逾9000万!从初创到领航,思锐卓远为工业软件注入 “青岛力量”
鲁网4月13日讯在青岛,有这样一家“AI+工业软件”开发企业,青岛思锐卓远信息技术有限公司,精准把握制造业数字化转型的时代机遇
2026-04-13 13:53:00
美加净牙膏“出口转内销”引关注:国民老品牌携经典款回归市场
沉寂多年的国民牙膏品牌“美加净”,近期以“出口转内销”的方式重新出现在国内消费者的视野中。一款145克装的美加净牙膏套装
2026-04-13 13:53:00
金运品牌官宣金莎为品牌形象大使,金运A9Ultra焕新上市
4月13日,KINYO金运正式官宣金莎出任品牌形象大使。此次合作以“金声好运,与莎同行”为主题,围绕品牌在智能音频赛道的长期布局展开
2026-04-13 13:54:00
阿里巴巴在新财年首次集团战略会上,正式提出,全力推进以千问为代表的智能体经济。智能体经济既是技术演进的成果,更是中国互联网科技企业商业基础设施
2026-04-13 11:04:00