• 我的订阅
  • 科技

字数比《康熙字典》还多!合合信息与上海大学联合开启贵州原生态古彝文典籍数字化项目

类别:科技 发布时间:2022-12-22 10:00:00 来源:新民晚报
字数比《康熙字典》还多!合合信息与上海大学联合开启贵州原生态古彝文典籍数字化项目

图说:上海大学社会学院院长黄晓春、合合信息智能技术平台事业部副总经理郭丰俊出席签约仪式 采访对象提供(下同)

古彝文传承至今已有数千年历史,是世界上最古老的文字之一。12月21日,合合信息与上海大学社会学院正式签署校企合作协议,双方将合力完成以国家珍贵古籍《西南彝志》为中心的贵州古彝文图像识别及数字化校对项目。

此前,在中国西南多家高校的共同努力下,规范和通用彝文的数字化工作取得了重要突破,而上海大学携手合合信息推进的古彝文数字化项目,更侧重于对原生态彝文识别的攻坚克难。项目将根据上海大学古彝文研究员设计的四字节编码系统,引入合合信息智能文字识别技术,对异体字、变体字、误用字和混用字等进行标注、识别、比对,并由此建立起精确的彝文古籍电子数据库,在古彝文研究领域属于首创。

亟待识别的古彝文比《康熙字典》字数还多

彝文是云南、贵州、四川等地的彝族人使用的文字,而“古彝文”专指在民间流通使用的原生态彝文。根据《滇川黔桂彝文字集》,目前记录在册的古彝文多达87046个。非母语研究者在翻译古彝文时,通常需要在母语者的帮助下记音,再用汉语逐字直译,最后采用汉语对整句话进行意译。

字数比《康熙字典》还多!合合信息与上海大学联合开启贵州原生态古彝文典籍数字化项目

图说:毕节市彝文文献翻译研究中心展示汉译书稿

由于古彝文尚未取得预留的Unicode编码区段,数字化工程还处于起步阶段,所以在印刷出版时,需由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成目前常见的“四行体”彝汉文对译,过程相对繁琐。

古彝文与汉字并非一一对应关系,存在大量的异体字、变体字。在相对规范的汉译本彝文典籍中就有至少15%的变体字,原稿中只会更多;每个字的异体写法少则2-3个,多则几十种。从总量上看,未经整理规范的古彝文字符数高达八万七千多个,比《康熙字典》的四万七千余字还多。据古彝文数字化团队研究人员透露,若想要找到某个字在一本古籍里的全部样例,手动查阅需要耗费一整天,如果建立起完善的古彝文数据库和翻译系统,可极大提升研究效率。

“汉文古籍识别所面对的页面残损、字形复杂、字迹模糊等问题,在彝文古籍识别中全部存在,还有一些任务是更加特殊的。”合合信息智能技术平台事业部副总经理郭丰俊博士提到,彝文古籍时常出现加字、替字、整句倒置、文字方向不统一等现象,给文字定位造成挑战。合合信息将基于“AI+OCR”融合下的智能文字识别技术,解决古彝文识别的版式检测、图像处理和文字识别的难题。

用科技开启古彝文“传统的新生命周期”

1950年,当代著名社会学家费孝通先生访问贵州毕节时,率先认识到彝文古籍对理解西南边疆历史的重要性,并鼓励筹建翻译机构,也为当下的古彝文研究提供了支持。古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑所在的上海大学社会学院,便长期设有费孝通田野调查项目资助计划。

古籍数字化的过程同时也是保护古籍的过程。2017年,72位全国人大代表联名建议实施中华古籍数字资源总库体系建设工程,实现历史文明的有序传承。本次合合信息与上海大学共同研究的《西南彝志》共计26卷,有“彝族历史文化的百科全书”之誉,对研究彝族历史、经济、文化十分重要。

古彝文数字化的价值并不止步于学术研究。随着我国小康社会的全面建成,人们对精神文化关注度日益提升,以民俗为主题的现代文艺创作、娱乐活动让传统文化焕发新的生机,例如中央歌剧院演绎的柯尔克孜族英雄史诗《玛纳斯》,既尊重了民族文化特色,又体现了新时代的风采。

邵文苑提到,古彝文文献和口传史诗中记录了很多南诏古国、夜郎古国、巴蜀古国的奇闻异事,在理解典籍的基础上,可以通过电影、音乐剧、浸入式戏剧等形式进行创作,或打造“元宇宙”世界、IP主题乐园,让更多人跨越语种的隔阂,感受更多元的民族文化,倾听独具特色的中国故事。

“传统也和人一样有生老病死的过程,并和人一样有通过后代延续‘生命’的能力,这种理论被称为‘传统的生命周期’。”邵文苑表示,智能文字识别技术“牵手”传统典籍研究,会是古彝文“传统的新生命周期”的开始。

新民晚报记者 金志刚返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2022-12-22 11:20:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

总量比《康熙字典》还多,一个字有几十种写法……他们用AI挑战古彝文识别
...是世界上最古老的文字之一。2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,双方将合力完成以国家珍贵古籍《西南彝志》为中心的贵州古彝文图像识别及数字化校
2022-12-21 18:28
贵州侗歌队上天津卫视
...吴顺存携天籁侗歌队的成员石开美、梁桂姣,用天籁般的原生态嗓音演绎侗歌《人和天地新》,表达对家乡和生活的热爱。虽然只有3个人演唱,但无伴奏、多声部、无指挥的侗族大歌特质被表现得
2024-03-12 21:38:00
...民族大学、中国传媒大学、武汉大学、上海外国语大学、上海大学、云南民族大学等多个高校的学界代表一致认为,文化自信是推动贵州经济社会发展的重要力量,要以文化再审视为契机,深入挖掘
2024-06-14 05:59:00
“峰”景、“丰”景、“风”景 贵州这场文旅盛会结出累累硕果
...大自驾游精品线路,其中,5至6日的地球翡翠·多彩贵州原生态风情之旅线路主要穿行于贵州中南部,集中体现了贵州良好的生态环境、世界自然遗产和多彩的民族风情;还发布了6条“环贵州自
2024-04-17 10:24:00
...·通往世界的桥梁”为主题的2023多彩贵州·第十六届中国原生态国际摄影大展。通过观看展出的近千幅贵州各类桥梁摄影作品,从而更加详细地了解贵州桥梁的种类及建造过程。在天津师范大
2023-09-01 23:07:00
...河风飘散。赤水河是长江流域一级支流上唯一无水坝的“原生态河”,孕育了两岸数千家白酒企业,既是中国优质酱香白酒重要生产地,更是长江上游重要的生态屏障。近年来,贵州以高标准、严要
2024-02-08 06:25:00
中国海洋大学“数字时代的文化建设”研讨会成功举办
...务和国家艺术基金资助的政策范围等方式,推动形成政府原生态基因保护传承与市场化非遗形态传播传承两线并行的总体政策思路。学术研讨会主题报告第二场由中国海洋大学文学与新闻传播学院朱
2024-06-17 17:32:00
聊聊始建于五代后周时期的嵩阳书院
...御颁的五经、《日讲四书》《朱子全书》《性理精义》《康熙字典》等书。同时,嵩阳书院还自行刊刻书籍。从宋代开始,由于纸张的普及以及印刷术的应用,刻书业逐渐兴盛起来,书院也由此得以
2023-01-12 13:35:00
...晚年奉康熙圣旨编撰了一部具有深远影响的汉字辞书—《康熙字典》,深受康熙皇帝的赏识和器重。《康熙字典》全书分为十二集,以十二地支标识,每集又分为上、中、下三卷,并按韵母、声调以
2024-06-08 07:26:00
更多关于科技的资讯: