作者|邴立东、程丽颖、付子豪、张琰等
单位|阿里巴巴达摩院、香港中文大学等
摘要
基于结构化数据生成文本(data-to-text)的任务旨在生成人类可读的文本来直观地描述给定的结构化数据。然而,目前主流任务设定所基于的数据集有较好的对齐(well-aligned)关系,即输入(i.e.结构化数据)和输出(i.e.文本)具有相同或很接近的信息量,比如WebNLG当中的输入tripleset和输出文本所描述的知识完全匹配。但是,这样的训练数据制作困难且成本很高,现有的数据集只限于少数几个特定的领域,基于此训练的模型在现实应用中存在较大的局限性。
因此,我们提出了基于部分对齐(partially-aligned)样本的文本生成任务。部分对齐数据的优势在于获取门槛低,可以用自动或半自动方式构造,因而更容易拓展到更多的领域。我们考虑了两个对偶的部分对齐场景,即输入数据多于文本描述和文本描述多于输入数据。
对于数据多于文本的情况,我们发布了ENT-DESC数据集[],并且针对数据中存在冗余信息的问题,我们提出了多图卷积神经网络(Multi-GraphConvolutionalNetwork)模型来抽取重要信息,生成更为凝练的文本描述。
对于文本多于数据的情况,我们发布了WITA数据集[],并且针对训练样本中文本的多余信息,提出了远程监督生成(DistantSupervisionGeneration)框架,以确保基于非严格对齐样本训练的模型,在应用中能够如实地生成给定数据的描述。
基础模型层面,本文将介绍我们提出的轻量、动态图卷积网络(Lightweight,DynamicGraphConvolutionalNetworks),简称LDGCN[3],可以有效的融合图结构中来自不同阶节点的信息,进而学习更优的图表示,并提升下游文本生成的效果。
参考文献
[]ENT-DESC:EntityDescriptionGenerationbyExploringKnowledgeGraph.LiyingCheng,DekunWu,LidongBing,YanZhang,ZhanmingJie,WeiLu,LuoSi.EMNLP,00.[]Partially-AlignedData-to-TextGenerationwithDistantSupervision.ZihaoFu,BeiShi,WaiLam,LidongBing,ZhiyuanLiu.EMNLP,00.[3]Lightweight,DynamicGraphConvolutionalNetworksforAMR-to-TextGeneration.YanZhang,ZhijiangGuo,ZhiyangTeng,WeiLu,ShayB.Cohen,ZuozhuLiu,LidongBing.EMNLP,00.非严格对齐的文本生成:输入数据多于文本描述论文标题:ENT-DESC:EntityDescriptionGenerationbyExploringKnowledgeGraph论文链接: