论文链接:https://www.aclweb.org/anthology/2020.acl-main.451.pdf
本文的贡献
- 与之前的抽取式不同的是,本文使用的是基本篇章单元(EDU)而不是句子作为抽取(选择)的元素,这样可以进一步减少一些冗余和无用的信息。
- 本文利用了篇章关系和指代关系,使用依存图的形式进行了图卷积编码后,辅助关键句的挑选,这样可以帮助解决长依赖关系(但是没有直接给出例子)。
本文的模型
整篇文章使用一个BERT进行编码,然后每个句子使用标记进行包裹,对于每个EDU,则使用SpanExt抽取其特征,获得隐藏层h作为每个节点的表示,再通过右边的图卷积模型进行节点分类。
这里的BERT编码使用的是BertSum(EMNLP 2019)的编码层(Code),对于超出512的长度的地方,使用随机初始化并进行微调。
这里的SpanExt则是使用指代消解工作End-to-end Neural Coreference Resolution(EMNLP2017)中的Span特征抽取器(Self-Attentive Span Extractor),它的本质是一个注意力机制。
具体做法
在训练时的标记EDU是否被选取是使用贪心的方法将EDU挑选出来,直到R1的F1下降停止,这种做法也是说得过去的,但是使用贪心的方法是否是一个最终解决方法我们持谨慎态度。
在推理时,根据概率进行排序,然后选取EDU,选取的数量来源于验证集的调参。
在评估可读性时,使用Grammarly进行评估,从CR,PV和PT以及O4个角度来考虑。也从人工评价的指标对于语法和连贯性上进行了打分。结果显示各个模型的性能是差不多的。
作者也分析了错误主要来源于上游任务的错误级联,并举例说明。
实验结果
新知识
关于摘要的方法
一种方法是抽取式(Extractive summarization),一种是抽象式(abstractive summarization)。
抽取式(Extractive ),指的是将原文原封不动的抽取出一部分作为摘要,更加的客观和有效率。
一个著名的方法是Lead3算法,即摘取前3句作为摘要进行评估。这种方法非常好使,而且在新闻语料上由于位置偏置(position bias)(Content Selection in Deep Learning Models of Summarization)在Rouge评价指标上和非常复杂的BERT-based模型效果差不多。(但是在别的体裁上的语料上性能会差距比较大)。
抽象式(abstractive)则是逐字生成一个摘要,更加的灵活和精炼。
常见的摘要方法有很多,如PNBERT,BERT,HIBERT和BERTSUM以及T5-Base等。
对于EDU在摘要中的作用,可以参考The Role of Discourse Units in Near-Extractive Summarization(2016)。
如何将RST树转换为依存树
这个在之前一致有研究,本文中使用一种较为简单的方式,如果一个关系有主次,则由次要的部分指向主要的部分,如果同等重要,则由右指向左,如果跨EDU的则使用重要的部分指向外部。
小技巧
该文在编码文本的时候,使用的是在句子开始和结束增加<cls>
和<seq>
作为标记,但是本来应该在EDU开始和技术增加标记的,文中说这样会使得性能下降。其原因应该是BERT在预训练的时候就都是以整句进行的,包括我们在编码更大的文本,如段落时,它还是认为是一个句子来处理。
本文的问题
- 本文虽然用了同指图和修辞结构图,但都是隐式编码到图神经网络之中的。两个图分别是使用StandfordNLP和DPLP两个工具自动抽取出来的。
- 这里虽然预测除了EDU是否是重要的,但是其最终的筛选数目还是依靠在开发集上调校的,这就有一些主观的存在了。
- 本文的模型在性能上和BertSum性能差不多,其原因也是其编码层和BertSum是一样的,只不过后面使用了SpanExt和图卷积后又有一些提升。
- 一般的编码模型如BertSum是可以既做抽取也可以做抽象的摘要,只需要在解码端进行一些变化。而本文虽然知道有抽取和抽象摘要两种方式,但是只做了抽取式的摘要,另一篇同期的文章Composing Elementary Discourse Units in Abstractive Summarization则是利用EDU进行生成式摘要的工作。
新词
redundant 多余的
uninformative 无意义的
paradigm 范式
assemble into 聚集
factuality 真实性
efficiency效率
concise 简明
periopheral 外围
pivotal 关键的