• 我的订阅
  • 科技

AI研究甲骨文:五年的工作一天就做完了

类别:科技 发布时间:2023-04-21 14:55:00 来源:果壳

4月20日,是联合国定下的“中文日”。每年的这一天,联合国都会举办各种中文推广活动,让世界各地的人都能体验中文的魅力。

而中文的故事,还要从甲骨文说起。

甲骨文是中国现存最早的文字,最早的甲骨文可以追溯到商朝晚期(约公元前1200年),它的发现将中国信史向上推进了约1000年,可以解读出大量珍贵信息。

然而,甲骨文研究是一项极度消耗人力的工作。

全世界目前已发现的殷商甲骨文不到5000字,真正被释读出来的字数仅在1500-2000字之间。在“先秦史研究室”网站上,学者们会公布最新的甲骨文校重、缀合结果,依靠人力,一年只能更新几十组。甲骨文的整体研究工作往往被基础资料整理所困,推进困难。

首都师范大学甲骨文研究中心的莫伯峰教授团队,联合微软亚洲研究院武智融研究员,希望用人工智能找到甲骨文难题的另一个解法。

“校重”难题

1899年,金石学家王懿荣用龙骨熬药时,发现龙骨上刻着一些“符文”。因为对古文字颇有研究,他辨认这不是单纯的划痕,而是一种远古时期的文字,随即把它们收藏了起来。在殷墟甲骨被科学挖掘以前,经历了多年的私人挖掘、倒卖,因此流散到了很多地方。

从甲骨文首次被发现至今,出土的甲骨实物约有15万片。这些甲骨在不同的人手中流转,留下了多张拓本图像,这些对同一片甲骨的不同拓本被称为“重片”,是解读甲骨文的重要材料。

AI研究甲骨文:五年的工作一天就做完了

不同时期的拓片,外观差距很大|微软亚研院

甲骨重片数量繁多,质量参差不齐,整理和校对重片成了一项重要的基础工作,被称作“校重”。多年来,校重依靠学者靠肉眼和经验一一对照,费时费力。正如《甲骨文合集补编》前言中所述:“这种对重、选片的工作,其烦琐、费工是局外人难以想象的。”

到了今天,大多数拓本图像已经数字化,一个新想法应运而生:人工智能是不是可以为校重工作加速?

难题的另一种解法

微软亚洲研究院的武智融一直在寻找一个好课题。毕业后,他专注于研究视觉方面的自监督模型,了解到甲骨文研究的困境后,他感到豁然开朗:“甲骨文既是文字,又是图像,比一般的多模态研究更有趣。”

一开始,他想研究甲骨文释读,但之后武智融发现,想要释读甲骨文,就得先把校重工作做好。

在武智融看来,校重工作天然就适合机器来做。判断一张拓片是不是重复的,理论上需要把它和现存的重片都比对一遍。随着时间流逝,甲骨不仅会模糊,还会破裂成小块,一些不完整的拓片让校重工作更难。

B(局部)和 A(整片)是重片,C(局部)和A(整片)是重片,不能断定B和C就一定是重片。这种情况下,基于全局特征来计算两张拓片相似度的办法就不奏效了。

于是武智融决定从局部下手:如果两张拓片的多个“点与点”之间能够精准地对应上,便能断定它们很大程度上为重片。

AI研究甲骨文:五年的工作一天就做完了

尽管字迹模糊,但每个字的关键点仍然可以对应|微软亚研院

武智融训练了一套自监督学习的深度神经网络算法——甲骨文校重助手 Diviner。

自监督学习与监督学习的区别,在于模型在训练时是否需要人工标注的标签信息。所谓监督学习,是利用大量的标注数据来训练模型,使模型基于标记的输入和输出数据进行推理,而自监督学习是让模型自己来寻找规律进行分类。

武智融先尝试用监督学习的方式训练,但发现这种方式并不适用甲骨文校重。首先,重片的形状差异大,模型很快就被搞迷糊了,其次,监督学习需要人工标注大量的数据,而甲骨文的数据没有那么多。

于是武智融决定把这个工作交给模型自己去解决:人类更擅长给出基于整体的、甚至主观“微妙”的判断,如果是循着规律的密集排查,机器的效率远在人之上。

因为岁月的侵蚀和多次流转,甲骨的不同拓本可能会有粗细之差,为了让模型学会自己寻找重片,武智融先人工模拟出一些甲骨文可能发生的变化,例如变粗、变细、变模糊,为其加随机噪音和旋转。通过这种方式让模型明白,不管是粗是细,只要关键点位能一一对应,就是同一个字,这样一来,模型的识别能力就不受拓片的清晰度、对比度、噪音、旋转等外界因素的影响。

AI研究甲骨文:五年的工作一天就做完了

变粗变细变模糊,都是同一个字,对人类来说很简单的道理,机器却不一定学得会|微软亚研院

当然,基于局部匹配的方法能行得通还有很重要的一个原因:来自于同一块甲骨的重片,文字大小是不会变动的。武智融将每张拓片分割成能承载足够信息,又尽可能小的方格,哪怕重片是破碎的,也可以对应得上。

新模型的比对效率甚至高于他的预期。

将18万幅数字化拓本输入Diviner之后,模型发现了大量甲骨重片,不仅复现了专家过去所发现的数万组重片,而且经过初步整理,已发现了三百多组未被前人发现的校重新成果。

给人类专家做助手

Diviner成果已经在对专家工作产生实质性的帮助。

Diviner新发现的重片,补齐了一些没有拓全的拓本,一些时间久远字迹模糊的拓本也被清晰的重片替代。过去的很多疑惑都被解决了,专家们如获至宝。

AI研究甲骨文:五年的工作一天就做完了

Diviner还可以直接帮助“缀合”。缀合的目的是将一些支离破碎的甲骨,拼接成一个更完整的甲骨,复原整片甲骨的信息,有助于完整性地解读史料。

AI研究甲骨文:五年的工作一天就做完了

人工对Diviner的结果再次验证,从反馈来看,Diviner的“查重”准确率能接近97%。这将鼓励更多机构甚至个人将其私藏的甲骨文拓本拿出比对,供学术界讨论研究。

很多团队在尝试用人工智能技术帮助甲骨文的研究、传播,他们有人做甲骨文翻译,也有人做“认识甲骨文”小程序,但还是那个老生常谈的问题,人机协作中,机器如何辅助好人类专家。

武智融举了个例子。

甲骨文最初的目的是记录占卜。占卜者将龟甲炙烤后,通过出现的裂纹的长短、粗细、隐现来判断吉凶、成败,并将占卜的内容和结果刻在卜兆的近处,即为卜辞。

武智融和莫伯峰教授交流时才知道,卜兆在拓片上是模糊不清的,判断卜兆信息的位置高度依赖专家经验。

人工智能能帮人类专家做数据、资料的恢复工作,但只有专家学者才知道“一是一横,二是两横,三是三横,四是四横,一横之差,看似相似度非常高,阐释出来的意义却全然不同”。

人工智能技术如何才能对甲骨文研究产生直接且具体的推动作用?随着Diviner项目的进程,他开始更好地理解这个议题。

AI研究甲骨文:五年的工作一天就做完了

Diviner还能有其他延伸用途吗?

“有一次,同事开玩笑说,也许未来这套算法可能用于指纹识别,对刑侦有帮助也不错。”武智融笑了笑说。

注:文章中用到的拓本来自四本甲骨著录书。①《甲骨文合集》②《甲骨文合集补编》③《上海博物馆所藏甲骨文字》④《殷虚书契续编》

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-04-21 15:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

一甲骨文方向毕业生自嘲“全网最冷专业”:导师退休或暂停招生
...发起了一个挑战全网最冷门专业的挑战,她自曝从所学的甲骨文(研究方向)毕业后,有可能因导师今年退休,专业方向都没了……该视频引发了网友热议,有网友调侃:“你们学校一直招不到甲骨
2023-03-18 20:03:00
全球首个甲骨文智能体“殷契行止” 上线 最懂甲骨文的AI来了
小程序“了不起的甲骨文”,展示甲骨文“其”的不同字形。(本组图/小程序截图)甲骨拓本甲骨文“门”字 甲骨文摹本甲骨文“马”字扫码看视频 厦门网讯 (厦门日报教育工作室首席专家
2025-12-12 08:28:00
写意中国 探寻汉字起源丨历史与未来“一键”链接 甲骨文研究步入“云时代”
...网安阳2月22日电(霍亚平)2月19日,在河南安阳师范学院甲骨文信息处理教育部重点实验室里,工作人员登录“殷契文渊”网站,在字形库中选择甲骨字“人”字形,瞬间,所有包含该字形
2023-02-22 11:46:00
大河网讯 大家都听说过甲骨文,但认识甲骨文吗?甲骨文有多少个?都长什么样子?甲骨文作为古文字,离普通大众距离较远,对甲骨文的活化利用是我们当前需要研究解决的一个大课题。2019年
2023-07-21 12:56:00
数字化赋能守护中华文明根脉(新时代 新征程 新伟业)
本文转自:安阳日报走进安阳师范学院甲骨文信息处理教育部重点实验室系列报道之二数字化赋能守护中华文明根脉(新时代 新征程 新伟业)该实验室工作人员进行甲骨文对比工作(本报记者 麻翛
2023-08-18 07:50:00
...4月20日电(记者刘金辉 许炜凯)20日,小程序“了不起的甲骨文”在河南安阳正式上线,该小程序利用数字焕活技术将刻有文字的甲骨以三维的形式呈现出来,用户点击甲骨上的文字,便会
2023-04-21 06:25:00
河南日报社全媒体记者 莫韶华“这是一本甲骨文字典性质的书,是这些年对甲骨文考释成果的汇总,而且按照音序进行排列,查找方便,非常实用。”3月18日,河南大学黄河文明与可持续发展研究
2024-03-20 07:56:00
破译1个“字”最高奖励10万元 目前还有两千多甲骨文单字未被破译
...记者采访获悉,1月11日,中国文字博物馆发布了《第二批甲骨文释读优秀成果获奖名单》,来自复旦大学、吉林大学、清华大学等高校的五位学者,将分别获得了10万以及5万的相关奖励。事
2024-01-11 13:14:00
【写意中国探寻汉字起源】古老文字+现代科技  让甲骨文走进云时代
...18日消息(记者 王勇生)2月17日,记者来到安阳师范学院甲骨文信息处理实验室进行参观。“殷契文渊”甲骨文大数据平台首页(央广网发 戴泽鑫 摄)甲骨文是迄今为止中国发现的年代
2023-02-18 11:06:00
更多关于科技的资讯:
《视野》杂志启动AI协作创作大赛
中国青年报客户端讯(中青报·中青网记者 马富春)2月13日,《视野》杂志“人类文明备忘录”AI协作创作大赛正式启动。活动以直播+实时互动形式展开
2026-02-14 20:52:00
新春走基层丨76秒,一套汽车零部件焊接就能下线
见习记者 朱荣琛2月12日,农历腊月廿五。春节临近,廊坊经开区道路两旁挂上了大红灯笼,沿街企业的大门已贴上了大对联。热热闹闹的年味儿在这个城市的大街小巷悄然弥漫
2026-02-14 22:12:00
针对春节期间服务需求,中国银行隆尧支行近日聚焦自助服务渠道,启动了专项保障工作。针对县域网点分布广、运维半径长的特点,隆尧支行依托历史运行数据
2026-02-14 22:17:00
领航新质生产力——2025浙江省科学企业家这个专题,是省科协和潮新闻联合举办的,已陆续推出了近二十位具有科技创新精神的浙商企业家
2026-02-14 22:34:00
深圳地铁陪你「返屋企」,跨场景互动刷新通勤与春运体验
近日,深圳地铁迎来了新春限定数字人,结合AI原创音乐与互动体验,走到了春运最前沿。这是深圳地铁数字IP首次以完整的互动形态沉浸式接入城市公共空间
2026-02-14 20:26:00
2月14日消息,2026年“新春招聘月”系列活动将于2月24日(正月初八)在五一广场太原人才大市场(迎泽区零工示范站)正式启幕
2026-02-14 17:37:00
星火空间完成数千万天使+轮融资 核心产品“进化一号”发动机完成首次试车
大皖新闻讯 此前关于合肥要造火箭的消息引发外界广泛关注,背后则是合肥星火空间科技有限公司(以下简称“星火空间”)落户合肥新站高新区
2026-02-14 18:45:00
国医大师李佃贵为2026雄安国际医疗大健康技术应用大赛发声推介。他表示,当下是中西医并重、传统智慧与现代科技深度融合的时代,中医核心思想与大健康领域发展目标高度契合,期待中医药领
2026-02-14 19:13:00
中国科大取得重要突破 首次实现量子李雅普诺夫指数的精确提取
大皖新闻讯 ”这一结果意义重大,为观测混沌的量子世界提供了全新视角。”相关人员如此评价说。2月14日,大皖新闻记者从中国科学技术大学获悉
2026-02-14 17:35:00
鲁网2月14日讯为提升居民网络使用体验,助力智慧社区建设,近日,山东移动临沂分公司装维团队深入多个社区,开展 “移动装维进社区”专项服务活动
2026-02-14 15:10:00
山东移动临沂分公司:智慧装维服务升级,开启家庭网络新体验
鲁网2月14日讯“您好,我是中国移动装维工程师张师傅,现在上门为您检测网络,这是我的工作证件。”周六上午9点,临沂北城新区书香苑小区的王女士刚结束早间会议
2026-02-14 15:11:00
字节跳动发布豆包大模型2.0,主打真实世界复杂任务执行力
在连续发布Seedance 2.0视频模型、Seedream 5.0 Lite图像模型之后,2月14日,字节跳动宣布推出豆包大模型2
2026-02-14 15:35:00
从米兰冬奥会看全球消费趋势:为何“由你”成了2026年的新叙事?
过去十年,全球化品牌的策略多为“We are the best”,强调品牌的权威感。但现在的趋势是“Its your turn”
2026-02-14 16:20:00
千问大免单再加3天,邀请全国人民体验AI买电影票,激活春节AI新消费
2月14日,千问突然宣布免单再加3天,接入大麦、飞猪,邀请全国人民体验AI买电影票、门票等新功能,激活春节AI新消费。从今天下午3点到大年初一
2026-02-14 16:36:00
依据河北省消费者权益保护委员会联合北京阳光消费大数据研究院于2025年8月发布的智能坐便器比较试验结果,九牧送检样品(型号ZD9640-SA-CJM000
2026-02-14 15:10:00