• 我的订阅
  • 科技

摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化

类别:科技 发布时间:2024-07-27 09:28:00 来源:机器之心Pro
摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本工作由来自清华大学、墨尔本大学、香港中文大学、中国科学院大学的 Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, Jianzhong Qi 等学者团队联合完成。该团队专注于大模型、知识图谱、推荐搜索、自然语言处理、大数据等方向的研究。

知识图谱作为结构化知识的重要载体,广泛应用于信息检索、电商、决策推理等众多领域。然而,由于不同机构或方法构建的知识图谱存在表示方式、覆盖范围等方面的差异,如何有效地将不同的知识图谱进行融合,以获得更加全面、丰富的知识体系,成为提高知识图谱覆盖度和准确率的重要问题,这就是知识图谱对齐(Knowledge Graph Alignment)任务所要解决的核心挑战。

传统的知识图谱对齐方法必须依赖人工标注来对齐一些实体(entity)和谓词(predicate)等作为种子实体对。这样的方法昂贵、低效、而且对齐的效果不佳。来自清华大学、墨尔本大学、香港中文大学、中国科学院大学的学者联合提出了一种基于大模型的全自动进行知识图谱对齐的方法——AutoAlign。AutoAlign彻底不需要人工来标注对齐的种子实体或者谓词对,而是完全通过算法对于实体语义和结构的理解来进行对齐,显著提高了效率和准确性。

摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化

论文:AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models,36 (6) TKDE 2024

论文链接:https://arxiv.org/abs/2307.11772

代码链接:https://github.com/ruizhang-ai/AutoAlign

模型介绍

AutoAlign 主要由两部分组成:

用于将谓词(predicate)对齐的谓词嵌入模块(Predicate Embedding Module)。

用于将实体(entity)对齐的实体嵌入学习部分,包括两个模块:属性嵌入模块(Attribute Embedding Module)和结构嵌入模块(Structure Embedding Module)。

总体流程如下图所示:

摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化

谓词嵌入模块:谓词嵌入模块旨在对齐两个知识图谱中代表相同含义的谓词。例如,将“is_in”和“located_in”进行对齐。为了实现这一目标,研究团队创建了一个谓词邻近图(Predicate Proximity Graph),将两个知识图谱合并成一个图,并将其中的实体替换为其对应的类型(Entity Type)。这种方式基于以下假设:相同(或相似)的谓词,其对应的实体类型也应相似(例如,“is_in”和“located_in”的目标实体类型大概率属于location或city)。通过大语言模型对类型的语义理解,进一步对齐这些类型,提高了三元组学习的准确性。最终,通过图编码方法(如TransE)对谓词邻近图的学习,使得相同(或相似)的谓词具有相似的嵌入,从而实现谓词的对齐。

具体实现上,研究团队首先构建谓词邻近图。谓词邻近图是一种描述实体类型之间关系的图。实体类型表示实体的广泛类别,可以自动链接不同的实体。即使某些谓词的表面形式不同(例如“lgd:is_in”和“dbp:located_in”),通过学习谓词邻近图,可以有效识别它们的相似性。构建谓词邻近图的步骤如下:

实体类型提取:研究团队通过获取每个实体在知识图谱中的rdfs:type谓词的值来提取实体类型。通常,每个实体有多个类型。例如,德国(Germany)实体在知识图谱中可能有多个类型,如“thing”、“place”、“location”和“country”。在谓词邻近图中,他们用一组实体类型替换每个三元组的头实体和尾实体。

类型对齐:由于不同知识图谱中的实体类型可能使用不同的表面形式(例如,“person”和“people”),研究团队需要对齐这些类型。为此,研究团队利用最新的大语言模型(如ChatGPT和Claude)来自动对齐这些类型。例如,研究团队可以使用Claude2来识别两个知识图谱中相似的类型对,然后将所有相似类型对齐为统一的表示形式。为此,研究团队设计了一套自动化提示词(prompt),能够根据不同的知识图谱进行自动化对齐词的获取。

为了捕捉谓词相似性,需要聚合多个实体类型。研究团队提出了两种聚合方法:加权和基于注意力的函数。在实验中,他们发现基于注意力的函数效果更好。具体而言,他们计算每个实体类型的注意力权重,并通过加权求和的方式获得最终的伪类型嵌入。接下来,研究团队通过最小化目标函数来训练谓词嵌入,使得相似的谓词具有相似的向量表示。

属性嵌入模块和结构嵌入模块:属性嵌入模块和结构嵌入模块都用于实体(entity)对齐。它们的思想和谓词嵌入相似,即对于相同(或相似)的实体,其对应的三元组中的谓词和另一个实体也应该具有相似性。因此,在谓词对齐(通过谓词嵌入模块)和属性对齐(通过 Attribute Character Embeding 方法)的情况下,我们可以通过TransE使相似的实体学习到相似的嵌入。具体来说:

属性嵌入学习:属性嵌入模块通过编码属性值的字符序列来建立头实体和属性值之间的关系。研究团队提出了三种组合函数来编码属性值:求和组合函数、基于LSTM的组合函数和基于N-gram的组合函数。通过这些函数,我们能够捕捉属性值之间的相似性,从而使得两个知识图谱中的实体属性可以对齐。

结构嵌入学习:结构嵌入模块基于TransE方法进行了改进,通过赋予不同邻居不同的权重来学习实体的嵌入。已对齐的谓词和隐含对齐的谓词将获得更高的权重,而未对齐的谓词则被视为噪声。通过这种方式,结构嵌入模块能够更有效地从已对齐的三元组中学习。

联合训练:谓词嵌入模块、属性嵌入模块和结构嵌入模块这三个模块可以进行交替训练,通过交替学习的方式互相影响,通过优化嵌入使其在各个结构的表示中达到整体最优。训练完成后,研究团队获得了实体(entity)、谓词(predicate)、属性(attribute)和类型(type)的嵌入表示。最后,我们通过对比两个知识图谱中的实体相似性(如cosine similarity),找到相似性高的实体对(需要高于一个阈值)来进行实体对齐。

实验结果

研究团队在最新的基准数据集DWY-NB (Rui Zhang, 2022) 上进行了实验,主要结果如下表所示。

摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化

AutoAlign在知识图谱对齐性能方面有显著提升,特别是在缺少人工标注种子的情况下,表现尤为出色。在没有人工标注的情况下,现有的模型几乎无法进行有效对齐。然而,AutoAlign在这种条件下依然能够取得优异的表现。在两个数据集上,AutoAlign在没有人工标注种子的情况下,相比于现有最佳基准模型(即使有人工标注)有显著的提升。这些结果表明,AutoAlign不仅在对齐准确性上优于现有方法,而且在完全自动化的对齐任务中展现了强大的优势。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-27 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

2023内容科技应用典型案例:农业银行大模型ChatABC
...流水线。通过标准化流水线,AI大模型微调训练可以实现自动化流转,构建新训练的效率大幅提升。同时支持多模型并行训练,进而开展模型实验比对和模型调优
2024-04-08 17:06:00
新质生产力赋能千行百业!星环科技入选两大AI应用图谱
...式向量数据库Hippo、大模型预训练微调工具Sophon LLMOps及自动化知识库构建工具TKS。预训练大模型方面
2024-03-14 13:00:00
ChatGPT渗入网络安全,七家已入局,新一轮网安攻防军备赛打响 | ToB产业观察
...而产生的。多位业内人士的一个共同判断是,依托于GPT的自动化攻击手段被黑客很快采用是既定事实,如果不能以同样的方式快速应对攻击手段的变化,企业、甚至是国家关键信息基础设施都可
2023-04-12 23:00:00
人工智能:勾勒产业创新发展新图景
...融合路径,开发“制造知识中枢”系统,实现生产经验的自动化萃取与跨企业共享。计划三年内构建覆盖5大制造行业的工艺知识图谱,推动中小企业数智化转型。2. 城市智能体体系构建:以“
2025-07-18 09:00:00
...入虚拟世界完成电力检修任务……近日,武汉大学电气与自动化学院加入AI辅助的基础课程受到热捧。5月8日下午,课程开始,同学们打开电脑,点开武汉大学自主研发的“珞珈在线AI智慧教
2025-05-19 05:42:00
智启医学科研新范式,北方健康发布“求真小助”智能体
...非结构化文本的医学特征智能提取、统计方法智能推荐、自动化科研综述生成等多重智能化功能体系,以全流程智能化支持、大模型与知识图谱双重驱动,助推临床科研提质增效。目前,“求真小助
2025-09-28 15:34:00
容联云入选IDC生成式AI图谱,多个案例被评典型应用
...梳理、还有项目阶段目标分解(智能应用快速启动上线、自动化数据收集、数据基础上持续效果监控+优化)。在北现项目上,用这套机制实现了客户智能快速上线的要求,并保证了智能化应用的上
2024-03-01 11:00:00
...10个行业大模型典型应用案例,百度、智谱华章、中科院自动化所等10家技术供给方介绍了应用案例情况,北京市政务局等行业用户代表场景供给方介绍了面向人工智能企业开放大模型应用场景
2023-06-27 18:14:00
...犀已在包括产品定制化、定价动态化、销售场景化、理赔自动化、客服人性化等场景进行深度实践。深挖垂直业务场景,发布落地新成果对于AIGC在保险业务场景下的具体应用落地,有三个切实
2023-07-07 17:44:00
更多关于科技的资讯:
乌山时评|“晓风”再起 拂动人心
近日,一则令不少书友激动的消息传遍福州人的朋友圈——晓风书屋即将在鼓屏路旧址重启。为何“晓风”再起,依旧能拂动人心?要知道
2026-01-10 08:14:00
厦门网讯(厦门日报记者 何无痕)当前,招聘市场的“AI味”越来越浓。近日,记者调查发现,如今企业不再依赖传统的选才,开始尝试更智能
2026-01-10 08:30:00
@杭州人,你的信用能换钱了!
最近,杭州人的“信用幸福指数”又上涨了!信用消费专区在杭州市民卡App上线,用户凭钱江分就能享受信用消费折扣、体验低空文旅的乐趣
2026-01-10 09:19:00
新春雅集 财安相伴——邮储银行VIP客户插花暨金融反诈便民活动温馨启幕
近日,邮储银行高新区支行以花为媒、以情相连,精心举办“花漾时光·金融护航”VIP客户专属插花沙龙活动,活动将花艺美学体验
2026-01-10 09:51:00
中亦科技以 IT 运维筑牢半导体产业增长之基
最近,半导体行业的目光都聚焦在一条“疯狂”的曲线上:内存价格。这绝非一次简单的周期性波动。深层驱动力是以人工智能应用落地引发的“以存代算”技术范式革命
2026-01-10 09:51:00
1月8日,贵州省商务厅发布《关于发放家电产品以旧换新、数码和智能产品购新活动补贴券相关事项的公告》(下称《公告》),明确2026年贵州家电产品以旧换新
2026-01-09 23:02:00
人工智能、物联网与5G技术的成熟迭代,让智能家居家电产品从高端小众走向大众消费,成为现代家庭标配。近日,江苏省消费者权益保护委员会发布专项调查报告
2026-01-09 17:10:00
动漫周边衍生品热销
动漫周边行业作为文化产业的重要组成部分,近年来呈现出快速发展的态势。近日,记者走访位于北京王府井的一家大型动漫主题实体店发现
2026-01-09 17:10:00
“冻鲜互变”仍保鲜 保税区进口牛肉凭啥这么牛?
大河网讯 进口冰冻牛肉,由冻转鲜,再由鲜转冻……虽经多次变身,仍然“鲜”活诱人,这里的牛肉凭啥这么牛?1月8日,记者走进郑州新郑综合保税区首个生鲜产品加工项目——省重点项目南洋优鲜超级工厂
2026-01-09 17:18:00
《文旅短剧活力城市指数》年度报告日前发布,太原和重庆、大同、东莞等8座城市入选“最具创新价值城市”榜单。《文旅短剧活力城市指数》(简称《指数》)由中国人民大学新闻学院
2026-01-09 17:58:00
张宣科技:智维创新赋能氢冶金高效运行
河北新闻网讯(郭晓通、王杨、范俊慧)全球首例120万吨氢冶金示范工程一期项目高效运行,背后有着设备维护创新硬核支撑的努力
2026-01-09 18:13:00
贵定税务:“全链条服务”点亮眼镜零售行业“睛”彩路
多彩贵州网讯 “现在付款后消费者自己在手机上动动手指就能收到发票,节省了消费者的时间,也节约了我们的人力,税务部门的管理服务让我们经营更便捷了
2026-01-09 17:23:00
【劲牌故事荟 大家谈友好】“四个友好”引领劲牌构建健康可持续新生态
□谭金山(湖北省社科联“文安平”团队、宜昌市西陵区市场监管局)企业的发展如同时代浪潮中的一叶扁舟,既需乘风破浪,更需掌舵定向
2026-01-09 14:15:00
UU远程2026远程协助重磅升级:被控免登录、自定义验证码等率先上线
引言:网易UU远程2026年即将迎来远程协助升级三连,远程协助功能实现多场景全面升级近日,网易 UU 远程迎来 2026 年首次重磅版本更新
2026-01-09 14:18:00
清华大学携手阿里巴巴共筑AI安全防线 启动大模型与智能体安全研究
近日,阿里巴巴集团与清华大学签订协议,启动智能体与多模态安全产学研深度融合专项合作。双方此次合作为期5年,聚焦中国AI用户在真实应用场景中面临的核心安全挑战
2026-01-09 14:23:00