• 我的订阅
  • 科技

“唤醒”甲骨文 厦大团队尝试用AI破译古老文字

类别:科技 发布时间:2024-12-11 08:17:00 来源:厦门日报

“唤醒”甲骨文 厦大团队尝试用AI破译古老文字

“唤醒”甲骨文 厦大团队尝试用AI破译古老文字

汉字的演变示例。(受访者 供图)

喂养AI

利用破译出的1000多个甲骨文,人工拆解为IDS(表达结构的部首偏旁序列),同时找出与现代文字IDS的对应关系

训练AI

设计一系列与实际考释过程密切相关的任务和评估方法,如跨字体图像映射、跨字体IDS解码和甲骨文现代字对译关系等,以有效训练多模态大模型

运用AI

未来设想是上传甲骨文图像,让AI告诉你这个图像可能对应的现代汉字候选,以及每个候选字的概率

厦门网讯(本版文/厦门日报 佘峥 通讯员 戴佩琪 本版图/视觉中国提供(除署名外))破解一字奖十万元,甲骨文还是难以破解。那么,可不可以有一个系统,上传甲骨文图像,系统告诉你这可能是什么字?厦门大学信息学院自然语言处理实验室史晓东教授团队就正在做这件事——尝试用AI(人工智能)破译甲骨文。

近日,史晓东团队申报的“基于甲骨文多模态大模型的多元信息甲骨文辅助考释模型”,入选“探元计划2024”“创新探索型项目”TOP10榜单。

“探元计划2024”由国家文物局科技教育司指导,中国文物信息咨询中心(国家文物局数据中心)、腾讯SSV数字文化实验室、腾讯研究院、社会价值投资联盟(深圳)与中国文物报、紫荆杂志社联合发起。

甲骨文破译,为何那么难?

“一字十万”的甲骨文

出土16万片,包含单字四五千个,考释出的不到三分之一

甲骨文,主要流行于商周时期,距今3000多年,又称“契文”“甲骨卜辞”“殷墟文字”或“龟甲兽骨文字”,是迄今为止中国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉。

不过,在西方屡破“死文字”之时,不是“死文字”的中国甲骨文破译却举步维艰。百年殷墟考古中,一共出土16万片甲骨文,其中包含的单字大约有四五千个,但无数顶尖语言学家的百年探索,考释出、得到公认的约1160个,占比不到三分之一。

2016年,为了吸引更多的天才破解甲骨文,中国文字博物馆发布了一则“甲骨文释读优秀成果奖励计划”公告:破译出一个未解甲骨文字,奖励10万元人民币。但迄今为止,只有复旦大学蒋玉斌教授破解了一个“屯”字,拿到了3亿元奖金池里的10万元。

“一字多义”的甲骨文

不仅与现代字的字形存在一对多的关系,一个字也往往承担多种意思

史晓东说,尽管甲骨文的字形和现代汉字之间有传承关系,但是字形和语义的对应并不简单,譬如 “万”字的甲骨文本意为蝎子,它的写法呈蝎子形, 上部是两个“钳子”,中间是蝎子的身子,下部是蝎尾,后引申为极多、极甚的意思,与繁体的“萬”还能看出字形的相似性,但与经过简化的“万”就相差甚大。

其次,很多甲骨文的字形与现代字的字形都存在一对多的关系,例如,甲骨文中的“手”,可对应现代汉字中的“手”“爫”“又”“右”“寸”等等,增加了破解甲骨文的难度。

此外,甲骨文中也普遍存在一字多义的现象,这使得解读变得更为棘手——在文字数量有限的情况下,一个字往往要承担多种意思,而甲骨文有的字出现数量很少,这些都使得猜测其精确意义并不简单。

古文字+AI,为何值得期待?

一本异体字字典

研究者用几个月时间写软件,AI用半天时间就将字典编写完成

甲骨文的破译之路充满了曲折与挑战,各种难题交织在一起,让研究者们屡屡碰壁。因此,当研究人工智能的史晓东团队尝试破译甲骨文的消息传出后,很多人很吃惊。

事实上,史晓东团队已经在古籍和人工智能跨领域方面探索多年。大约十年前,史晓东承接国家语委的一个繁体字和简体字相互转换的项目,这也把他引入古文字的领域。

因为研究繁体字和简体字转换,史晓东收集了很多古文字资料,之后,他采用大规模古籍语料+人工智能办法,编写了一本异体字字典,收字接近9万字,应该是目前大陆最详尽的异体字字典。

在此之前,台湾也有一本异体字字典,100多位语言学家花费十几年编写,字数约10万个。

史晓东说,人工智能用了半天时间就编写完成这本异体字字典,当然,在这之前,他花费了几个月时间写软件。他说,AI要做的事是,从数据中抽取所有信息,以AI算法自动进行异体字识别。

比如,字典中列举了“丘”的几种异体字写法,有的已经消失,人们都没有见过,如何确定这个字就是“丘”?史晓东说,那是AI通过古籍文献找到相关信息,从上下文判断,它就是“丘壑”的“丘”。

一个甲骨文数据库

他们研制出了甲骨文手写输入法,积累了大规模的甲骨文相关语料

从繁简转换和异体字字典,人工智能专家史晓东一头扎进了古文字+人工智能的跨界研究。七年前,他带领的团队开始涉足甲骨文考释。不到一年,他们就研制出了甲骨文手写输入法。

与此同时,史晓东团队在研究中积累了大规模的甲骨文相关语料,即有关甲骨文的数据库。

过去史晓东采用的是专用模型,他认为,随着多模态大模型的出现,后者有更强的语义理解和表达能力,或许甲骨文破译将迎来一个春天。

史晓东说,了解一个汉字,要从“形、音、义、用”四个维度进行,如果一个甲骨文的形、音、义、用全都清楚了,和其他古文字之间的演变脉络也弄明白了,并且在该文字的各种上下文中都可解释得通,就可以说它已被完全考释出来了,但这需要数据的支持。

一个“喂养”计划

尽可能收集更多相关的图像数据和文本数据,“喂”给人工智能大模型,让其找出破译甲骨文的规律

史晓东说,AI要做的工作,就是在已搜罗尽可能多的数据的基础上,计算文字之间的各种概率关系,为文字学专家考释创造条件。

据厦大官方介绍,史晓东团队将设计一系列与实际考释过程密切相关的任务和评估方法,如跨字体图像映射、跨字体IDS(表达结构的部首偏旁序列)解码和甲骨文现代字对译关系等,以有效训练多模态大模型。利用其强大的跨模态理解能力,辅助甲骨文考释。

与此同时,在大模型提供的语义嵌入基础上,史晓东团队还将设计融合形、音、义、用多元信息的端到端甲骨文综合考释模型,综合利用字形结构、语义关联、同音通假和用法聚类分析,开发一种更加轻量的考释系统,以适应资源有限的实际考释场景。

史晓东进一步解释说,现在团队已经做的一个工作是利用破译出的1000多个甲骨文,人工将甲骨文拆解为IDS,同时找出与现代文字IDS的对应关系,将这些数据“喂”给AI,因为AI要学习。

用大白话说,团队尽可能收集更多相关的图像数据和文本数据,“喂”给人工智能大模型,让其找出破译甲骨文的规律。

史晓东说,未来设想是上传甲骨文图像,AI告诉你这个甲骨文可能对应的现代汉字候选,以及每个候选字的概率。

这需要多长时间?史晓东没有给出明确答案,他说,目前已构建了相关数据集,但是多模态大模型尚未开始训练,正处于准备过程中。

他说,甲骨文破译是一项非常困难的任务,不可能一蹴而就,但是,AI的发展的确带来了新的可能,一定能助力这项具有重大意义的研究。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-11 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

你见过生活中的《春节序曲》吗?
“我有嘉宾,鼓瑟吹笙”用甲骨文表情包演奏春节序曲你见过甲骨文版的《春节序曲》吗?古老的文字动起来合奏是怎样的场景?在博主“博物汉字”近日发布的视频里,甲骨文“奏”字率先出场,承担
2023-02-13 21:28:00
让甲骨文“开口说话”:AI技术赋能文化传承
...该校团队正尝试利用人工智能(AI)多模态大模型,结合甲骨文的音、形、义等多元信息,辅助专家进行更高效的甲骨文考释工作。甲骨文简介IT之家援引博文介绍,甲骨文也被称作“殷墟文字
2024-12-06 09:45:00
AI研究甲骨文:五年的工作一天就做完了
...界各地的人都能体验中文的魅力。而中文的故事,还要从甲骨文说起。甲骨文是中国现存最早的文字,最早的甲骨文可以追溯到商朝晚期(约公元前1200年),它的发现将中国信史向上推进了约
2023-04-21 14:55:00
​品读殷商文化 感受多彩安阳
品读殷商文化 感受多彩安阳情景剧演出让甲骨文“活”起来安阳融媒记者 赵文静悠扬神秘的乐声响起,殷墟考古现场,“考古学家”拿起刻满甲骨文的甲骨片仔细端详,突然地动山摇、时空逆转,穿
2023-10-10 16:14:00
【奋斗者笔记】跟着“甲骨文团队”,探索唤醒千年文字的数智力量
...华文明,有了更生动的落脚。而在殷墟诸多考古发现中,甲骨文是最重要的发现之一。有这么一群人,甘坐“冷板凳”,跨越三代青春接力深耕甲骨文研究,让沉睡了千年的文字搭载现代科技,焕发
2024-08-31 15:25:00
“数字甲骨”让学生暑期“潮起来”
本文转自:中国教育报安阳师范学院“甲骨文传承研究创新”殷墟分队学生在教师指导下深入了解“殷契文渊”平台。 安阳师范学院供图■本期关注:数字赋能学生暑期生活(下)安阳师范学院“一片
2023-08-12 09:06:00
大河网讯 大家都听说过甲骨文,但认识甲骨文吗?甲骨文有多少个?都长什么样子?甲骨文作为古文字,离普通大众距离较远,对甲骨文的活化利用是我们当前需要研究解决的一个大课题。2019年
2023-07-21 12:56:00
90后甲骨文博主被10后疯狂催更 网友点赞:最潮中国范儿
大河网讯(记者 刘高雅)静态的甲骨文成了动图,它们不再稳重严肃,而是成了活泼可爱的“代名词”,跳舞、眨眼、行走、大笑,一个个都“活”了起来。河南财经政法大学2016届校友黄丽洁及
2024-04-10 18:21:00
以“字”为桥,跨越千年!甲骨文“穿越时空”与河南学子相遇
大河网讯(记者 刘高雅)“甲骨文是既古老又年轻的文字。”“古人观察世间万物,才形成了今天的文字。”“甲骨文可不是刻在龟背上的,而是刻在龟腹上的。”一句句生动有趣的讲解,如同一把把
2025-04-22 21:47:00
更多关于科技的资讯:
佳盛机电乘风而上,今年前8月产值同比增长超38%抢占新赛道,270多名员工假期忙“冲刺”南报网讯(通讯员单维亮记者张希)“我们是智能电网产业链条上的配套企业
2025-10-07 08:41:00
培育壮大十大千亿级产业集群丨十堰臻融:创新与技改“双轮”驱动 产值同比增长30%
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新是提升核心竞争力关键。十堰臻融汽车科技有限公司以智能化装备升级与专利技术研发为双引擎
2025-10-07 20:43:00
沉浸式AR科技盛宴:打造“可触摸”的科普实验室,重构科普新形态
这个国庆去哪玩?中国科学技术馆告诉你!2025年10月1日——10月7日由中国科学技术馆、北京峰火文化科技有限公司、Rokid联合打造的以“探境・AR科技智慧”为主题的AR体验活动正火热开展中
2025-10-07 09:05:00
2025年全国大学生计算机大赛总决赛落幕 西工大获奖数量质量再创新高
近日,2025年全国大学生计算机系统能力大赛各赛道总决赛圆满落幕。本届大赛吸引了来自清华大学、北京大学、复旦大学、华中科技大学
2025-10-07 11:40:00
太划算!遵义多重补贴点燃消费热情
多彩贵州网讯国庆中秋“双节”同至,遵义市推出的“悦·遵义‘双节’欢乐购”促消费活动覆盖整个长假,其中“焕新过节·乐享生活”家电家居促销活动形式丰富
2025-10-07 14:51:00
□南京日报/紫金山新闻记者 张安琪9月23日,2025南京金秋经贸洽谈会开幕式上,一批全球首个、国内首批、性能全球最高的科技成果密集亮相
2025-10-06 09:49:00
国庆中秋长假期间,新能源汽车已成为众多家庭出游的重要选择。为进一步破解高速服务区“充电难、排队久”的现实困境,山西交控集团坚持“科技创新+服务升级”双轮驱动
2025-10-06 18:01:00
邮储信用卡气球雨惊喜派对即将空降青岛李沧万达,国庆中秋邀您共启幸运之旅!
鲁网9月30日讯2025年国庆、中秋双节同庆之际,为回馈广大市民与持卡人长期以来的支持,邮储银行青岛分行将于10月1日-8日
2025-10-06 14:11:00
□南京日报/紫金山新闻记者 于洁尘 通讯员陈天骄“干我们这行的,哪有节假日?越是假期越要忙。”10月5日一大早,28岁的陈潇离开南京
2025-10-06 09:48:00
节日我在岗丨十堰高周波:抓创新赶订单 全力冲刺年度目标
十堰广电讯(全媒体记者 陈林)在国庆中秋假期,位于十堰经济开发区的十堰高周波科工贸有限公司抓创新赶订单,全力冲刺年度目标
2025-10-05 20:21:00
节日我在岗丨艾斯卓智能科技:节日不休 赶制订单
十堰广电讯(全媒体记者 耿吉国)放假不放松,生产不停工。国庆中秋长假,我市各生产企业铆足干劲抓生产、赶订单,奋力冲刺年度目标任务
2025-10-05 20:21:00
普阳钢铁工程机械用高强高韧宽厚板全国市场占有率名列前茅一块宽厚板的靶向发力——“铁疙瘩”怎样变成“金娃娃”(十)从矿山到港口
2025-10-05 07:47:00
人气旺 厦门多个商场假日客流爆棚、销售额亮眼
集美大悦城商圈内,小朋友和机器人亲密互动。(本组图/厦门日报记者 黄晓珍 摄)国庆中秋假期, 厦门SM购物中心潮玩店内人气火爆
2025-10-04 09:20:00
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00