• 我的订阅
  • 科技

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

类别:科技 发布时间:2024-11-09 13:34:00 来源:新智元

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

【新智元导读】最近,来自上海大学、山东大学和埃默里大学等机构的研究人员首次提出了文本边图的数据集与基准,包括9个覆盖4个领域的大规模文本边图数据集,以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究,有利于自然语言处理与图数据挖掘领域的深度合作。

文本属性图Text-Attributed Graphs(TAGs)是一种在节点上有丰富文本信息的图结构, TAGs 广泛应用于社交网络(social network)、引用网络(citation network)和推荐系统(recommendation system)等实际场景中。由于其强大且通用的表达能力,该领域近年来得到了快速发展。

然而目前TAGs面临三大挑战:

1. 现有的TAGs数据集一般仅在节点上包含文本信息,而边的信息往往被简化为二元或分类属性。边文本(edge text)的缺乏限制了对文本实体间复杂语义关系的表达和理解(比如一个实体局部的一些概念如何与另一实体的局部相关),阻碍了图数据挖掘技术的进一步发展;

2. 文本图数据格式和实验设置不统一,难以进行模型之间的比较;

3. 由于缺乏全面的基准测试和分析,对图模型处理边文本信息能力仍然了解的很欠缺。

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

论文地址:https://arxiv.org/abs/2406.10310

代码地址:https://github.com/Zhuofeng-Li/TEG-Benchmark

数据集地址:https://huggingface.co/datasets/ZhuofengLi/TEG-Datasets

为了解决这一问题,上海大学、山东大学、埃默里大学等学术机构的研究人员联合推出了TEG-DB,一个全面的基于文本边的图数据集和基准测试(A Comprehensive Dataset and Benchmark of Textual-Edge Graphs)。

目前,论文已被NeurIPS Datasets and Benchmark Track 2024接收。

其主要有三个特点:

1. TEG-DB datasets提供了涵盖4个领域9个统一格式的TEG数据集,规模从小到大不等,均包含丰富的节点和边的原始文本数据,这些数据集填补了TEGs领域的空白,旨在为相关研究提供重要数据集资源。

2. 研究人员开发了TEGs研究的标准化流程,涵盖数据预处理、加载和模型评估等关键阶段。

3. 研究人员进行了广泛的基准实验,并对基于TEGs的方法进行了全面分析,深入探讨了不同模型及不同规模pre-trained language models(PLMs)生成的嵌入的效果、在GNNs中使用分离和交织嵌入方法(seperate and entangled embedding methods)的影响、边文本的作用以及不同领域数据集的影响。

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

TEG Datasets

为了构建同时满足节点和边具有丰富文本信息的数据集,研究人员选择了来自不同领域和规模的9个数据集。

具体包括4个来自Goodreads的图书推荐领域用户-书籍评论网络,2个来自Amazon的电商购物网络,1个来自Semantic Scholar的学术引用网络,以及 2个来自Reddit和Twitter的社交网络。数据集统计请见下表:

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

TEG Methods

基于 PLM 的范式

PLM通过大规模文本训练,能够理解词语、短语和句子的语义关系和上下文。

基于PLM的方法首先将TEG中节点和边的文本通过PLM进行嵌入表示 (embed),例如对于节点u,通过embed其自身以及所连接的边文本,可以得到 embedding 作为节点u初始化特征 (feature) 。之后使用多层感知器(MLP)整合TEG中的语义信息,获得最终的节点表征。公式如下:

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

其中,表示第k层MLP中节点u的表示,Tu和分别为节点u和连接节点v与u边ev,u的原始文本,节点v是u的邻居,ψ为MLP的可训练参数。

尽管PLM显著提升了节点的表征能力,但由于未考虑TEG拓扑结构,限制了其对TEG中完整语义信息的捕捉。

基于 Edge-aware GNN 的范式

GNN通过消息传递 (message passing)来提取图结构中有意义的表征信息,具体定义如下:

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

其中,表示GNN第k层中节点u的表征,初始特征向量通过使用PLM对节点的原始文本进行embed获得。从节点v到节点u的边,其特征ev,u同样由PLM对于边的原始文本进行embed得到。k代表GNN的层数,N表示邻居节点集合,u为目标节点,ω为GNN中的学习参数。

然而,这种方法存在两个主要问题:

1. 现有的图机器学习方法如GNN对于边通常基于连通性(即二元属性表示是否有连接)和边属性(如类别或数值属性)进行操作,而非基于文本属性。然而在TEG中,边包含了丰富的文本,这便导致GNN远不足以处理这些复杂的文本信息所产生的语义关系。

2. 基于GNN的方法在捕捉节点以及边文本的上下文语义方面存在局限性。在TEG中,边和节点的文本通常交织在一起,在嵌入过程中将它们分别进行嵌入表示(seperate embedding),可能导致相互依赖关系信息的丢失,从而削弱GNN在整个消息传递过程中的有效性。

基于Entangled GNN的范式

传统GNN方法将边和节点文本分离进行嵌入(seperate embedding),可能导致大量信息损失,特别是在TEG中。

例如,在一个citation network中,每个节点表示一篇论文,一条边可能表示某篇论文引用、批评或使用了另一篇论文的某一部分。

因此,边文本是不能独立于论文节点存在的,这便对节点以及边seperate embedding方法提出了挑战。

为避免文本嵌入后节点和边交互时的信息丢失,提出了一种新的方法 Entangled GNN,先将边文本和节点文本Entangle在一起,再进行embed,作为节点的初始化embedding。随后对节点进行消息传递操作。

该方法的公式如下:

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

其中,表示GNN第k层中节点u的表示。Tv、Tu和分别表示节点v、节点u及其连接边的原始文本。k为GNN的层数,N表示邻居节点集合,u为目标节点,ω为GNN中的学习参数。

相比于现有方法,该方法的优势在于能够有效保留节点与边之间的语义关系,更适合捕捉复杂的关系。

LLM as Predictor 的范式

利用LLM强大的文本理解能力,LLM可以直接被用于解决图级别问题。具体而言,为每个数据集采用一个包含相应的节点和边文本的text prompt,从而让LLM回答特定问题,例如节点分类或链接预测。

可以正式定义如下:

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

其中,f是提供图信息的prompt,G表示一个TEG,Q为问题。

TEG实验结果

Baselines

在基于PLM的范式中,使用三种不同规模的PLM对节点文本进行编码,以生成节点的初始嵌入。三种模型分别是:大模型GPT-3.5-TURBO,中型模型Bert-Large,以及小型模型Bert-Base。

在基于Edge-aware GNN的范式中,选择了五种流行的Edge-aware GNN模型:GraphSAGE、GeneralConv、GINE、EdgeConv和GraphTransformer。使用与PLM范式相同的三种规模的PLM对节点和边的文本进行编码,之后这些文本嵌入作为节点和边的初始特征。

在基于Entangled GNN的范式中,实验设置与Edge-aware GNN相同除了使用Entangled方式通过GPT-3.5-TURBO对于节点和边的文本进行编码。

在LLM as Predictor的范式中,选择通过API访问GPT-3.5-TURBO和GPT-4,以平衡性能和成本。

Node Classification

下表展示了不同数据集上节点分类在中的效果:

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

Link Prediction

下表展示了不同数据集上链接预测的效果:

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

总结

研究人员推出了首个Textual-Edge Graph基准,TEG-DB,旨在深入研究TEG上的图表示学习。

与传统的仅包含节点文本信息的TAG不同,TEG涵盖了节点和边的文本内容。

研究人员收集并提供了9个全面的TEG数据集,以促进NLP和GNN社区对于TEG的合作与探索,其Benchmark对各种学习方法进行了全面评估,确认了它们的有效性和局限性。

此外,研究人员计划继续挖掘和构建更多研究导向的TEG,以推动该领域的持续发展。

团队介绍

文章第一作者为上海大学的本科生李卓风,通讯作者为埃默里大学计算机系的赵亮教授。

共同作者包括埃默里大学的博士生胡云桐、张铮、凌辰,本科生 Sirui Li,中国石油大学本科生刘众源,约翰·霍普金斯大学硕士生 Xiangnan Zhang,山东大学本科生 Zixing Gou。

参考资料:

https://arxiv.org/abs/2406.10310

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-09 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...以提高性能。MMMU-Pro:更健壮的MMMU重新审视MMMU基准测试大规模多学科多模态理解和推理(MMMU)基准测试是一个综合性的数据集
2024-09-18 13:31:00
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...计算机视觉、音频处理以及估计和预测等任务。首个通用大规模Mamba模型上面提到,基于注意力机制的Transformer是当今所有最强大语言模型中占主导地位的架构。然而,由于计
2024-08-14 09:43:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...但他们利用视频作为通用监督的可扩展来源。UniReal 可从大规模视频中学习世界动态,在处理阴影、反射、姿态变化和物体交互方面展示了先进的能力
2024-12-13 09:19:00
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您
2024-10-29 09:55:00
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...了哪些工作。模型结构Pixtral 12B整体为Transformer架构,在大规模交错图像和文本文档上进行了预训练
2024-11-20 09:43:00
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...论文地址:https://arxiv.org/abs/2407.10817模型本身在经历多轮大规模指令任务调整后,可以遵循一套新的指令
2024-08-05 09:37:00
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...元导读】Robin3D通过鲁棒指令数据生成引擎(RIG)生成的大规模数据进行训练,以提高模型在3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能
2024-10-16 13:35:00
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...一个具有 2.4B 非嵌入参数的 Memory3 模型,其性能超过了更大规模的 SOTA 模型。它还比 RAG 具有更好的性能和更快的推理速度
2024-07-11 09:33:00
GPT-4最强对手出现!Claude-3 AI模型发布
...PT(GenerativePre-trainedTransformer)技术的大型语言模型,通过在大规模文本数据上的预训练
2024-03-10 18:27:00
更多关于科技的资讯:
江西10家企业入选“中国VR50强企业”
本报讯(全媒体记者左阳天)10月19日,“2025中国VR50强企业”名单正式发布,这是“中国VR50强企业”名单连续第七年发布
2025-10-21 05:52:00
校地专场对接会上,我市一批“钢铁新农人”集中显身手“火眼金睛”识熟果 自动采摘不伤花□南京日报/紫金山新闻记者徐宁果园里
2025-10-21 07:44:00
青春华章 | 南京微短剧产业联盟成立,“攥指成拳”闯千亿级赛道
南京微短剧产业联盟成立,“攥指成拳”闯千亿级赛道共聚“微”光,好“剧”有戏□南京日报/紫金山新闻记者鲁舒婷近260家相关企业
2025-10-21 07:45:00
培育产业向“新”力 2025厦门国际时尚周圆满落幕
2025厦门国际时尚周在中山路举行,精彩活动吸引众多市民游客。“九球天后”潘晓婷亮相2025厦门国际时尚周。厦门国际时尚周助力首发经济
2025-10-20 08:56:00
总台文创“月兔趣集”数字资产盲盒上线乐数通
中秋佳节,为推动中华优秀传统文化在数字时代实现创造性转化与创新性发展,浙江文化产权交易所(以下简称 “浙江文交所”)携手中央广播电视总台“总台文创”
2025-10-20 14:50:00
向“新”求质 | 潍柴雷沃智慧农业领航智能农机加速出海
鲁网10月20日讯10月17日-10月18日,潍柴雷沃智慧农业2025年全球合作伙伴发展大会在青岛举行。25款明星机型组成的“全矩阵”智能装备军团震撼列阵
2025-10-20 16:39:00
鸢都家电狂欢“三联家电10.25海信来了”引爆金秋消费季
鲁网10月20日讯 金秋消费季迎来重磅炸弹!三联家电宣布将于10月24日至26日启动年度促销活动——“10.25海信来了”
2025-10-20 16:46:00
战略协同 产品赋能 运营提效丨潍柴雷沃智慧农业2025年全球合作伙伴发展大会召开
鲁网10月20日讯10月17日-18日,以“战略协同·产品赋能·运营提效”为主题的潍柴雷沃智慧农业2025年全球合作伙伴发展大会在青岛召开
2025-10-20 16:47:00
日前,中国联通、中国移动、中国电信相继宣布,已获得工信部批复,在全国范围开展eSIM手机业务商用试验。这标志着,移动手机彻底告别实体SIM卡的时代正在从愿景走向现实
2025-10-20 17:37:00
从山海通信到智慧出行: OPPO携多项技术创新成果亮相中国移动全球合作伙伴大会
日前,以“碳硅共生 合创AI+时代”为主题的2025中国移动全球合作伙伴大会在广州隆重举办。作为中国移动的重要合作伙伴
2025-10-20 20:00:00
从“黑色黄金”到“智慧矿藏”山东移动“海陆空”一体化擘画智慧油田新蓝图
在国家坚定不移推进能源安全新战略的时代背景下,我国能源行业的数字化转型正加速驶入深水区。在渤海之滨的东营,山东移动围绕胜利油田的智能化需求
2025-10-20 20:25:00
鲁网10月20日讯近日,国家数据局公布《2025年可信数据空间创新发展试点名单》,山东省唯一一个企业级国家试点项目——东营“华泰纸业可信数据空间创新发展试点”成功入选
2025-10-20 20:26:00
亿云信息案例成功入选2025年数字山东标准应用典型案例
近日,山东省大数据局公布2025年数字山东标准应用典型案例名单,山东科创旗下亿云信息报送的《亿云信息赋能企业数据资产入表服务标准化》案例成功入选
2025-10-20 20:20:00
匠心护航丨济宁移动圆满完成2025嘉祥圣德山野音乐节通信保障
鲁网10月20日讯10月18-19日,“共赴山野之约,让旋律在自然间共鸣”群星演唱会在嘉祥九顶山激情开唱,华语乐坛知名歌手轮番登台
2025-10-20 12:17:00
移动的 “智算样板间” 亮相青岛,施耐德电气破解算力基建难题
10月17日,一场穿行14城、总里程近2万公里的技术巡展抵达青岛。施耐德电气关键电源巡卡车化身 “数据中心行业的技术样板间”
2025-10-20 12:45:00