论文题目:On Robustness and Bias Analysis of BERT-based Relation Extraction. (DiagnoseRE:关系抽取泛化性能分析)
论文作者列表:李泺秋,陈想,叶宏彬,毕祯,邓淑敏,张宁豫,陈华钧
第十五届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语言与知识计算专业委员会主办,是国内知识图谱领域的旗舰会议,今年大会共吸引5000+来自高校、科研机构和企业人员参会。
论文简介:经过微调的预训练模型(BERT)在标准自然语言处理基准上取得了令人印象深刻的性能。但是,结果模型的泛化性仍然存在知之甚少。在这项研究中,我们从不同角度分析了微调的BERT在关系抽取领域的泛化能力。通过经验实验,我们发现BERT在鲁棒性和偏见方面遭遇瓶颈,这突出了未来的改进空间。同时,本文提出的一些方法可以用在其他不同的任务中,作为模型性能评估的指标或者数据增强的方法。本篇论文获全国知识图谱与语义计算大会CCKS 2021 Best Paper Award。 自监督预训练语言模型,例如BERT和RoBERTa,提供强大的上下文化表示,在标准自然语言处理基准测试中取得了可喜的成果。然而,这些类型模型的泛化行为在很大程度上仍未得到解释。
在 NLP 中,任务性能和对模型泛化性的理解之间存在巨大差距。以前的方法表明,当遇到随机扰动的上下文、对抗性示例和对比集时,神经模型的鲁棒性较差。此外,神经模型容易受到偏见的影响,例如选择和语义偏见。在本研究中,我们使用 RE 作为研究案例,并根据稳健性和偏差来诊断其泛化能力。具体来说,我们回答了关于BERT模型的五个关键问题:Q1:BERT是否基于某些关键词进行模版匹配作为决策依据?
Q2:就 RE 而言,BERT 在对抗样本上的表现如何?
Q3:BERT 能否推广到对比集,而反事实增强有帮助吗?
Q4:BERT 能否学习简单的统计线索,而受到训练样本中词频分布的影响?
Q5:预训练的 LM 中的语义偏差是否会影响 RE 泛化?
我们定义鲁棒性以衡量模型是否容易受到源自合法输入的小而难以察觉的改变的影响,而偏差性则衡量标准模型是否学习了对大多数训练示例都有效但在更具挑战性的示例中失败的简单线索。总体实验设计如下:
2.1 模型的鲁棒性(Robustness)分析
.png)
我们将上述的前三个问题归纳为模型鲁棒性方面的问题,并针对性设计了随机性扰动、对抗性扰动和反事实扰动三组实验场景,如上图所示。2.1.1 随机性扰动
随机性扰动实验包括随机选取样本token并选取近义词将其替换。考虑到关系抽取任务包括两方面信息,即实体文本和上下文文本信息,我们分别对两部分文本进行扰动替换。其中实体信息的替换在于将实体用同类型词进行替换,上下文文本的替换用相似语义词替换两个实体之间的词。利用扰动构造的测试集对原始数据上训练的模型进行测试,我们得到了以下的结果。BERT模型在两种随机扰动场景下的表现都有不同程度的下降。在经随机扰动增强的数据集上重新训练的模型可以较好地应对随机扰动的输入,在原始数据上也保持了接近的结果,说明数据增强提升了模型对随机性扰动的鲁棒性。 .png)
2.1.2 对抗性扰动
对抗攻击旨在通过较少的改动改变模型的预测结果。给定N个实例,X={X_1,X_2,…,X_N }与相应的标签集,Y={Y_1,Y_2,…,Y_N },我们训练得到一个 RE 模型Y=RE(X)。每个句子X∈X的对抗样本X_adv应符合以下要求:RE(X_adv )≠RE(X), and Sim(X_adv,X)≥ϵ
其中 Sim 是一个相似度函数,是原始样本和对抗样本之间的最小相似度。我们基于两种不同粒度的对抗攻击方法生成对抗样本,分别是基于决策分数的词级别攻击方法PWWS,以及基于梯度信息的字词级别对抗方法HotFlip。注意,我们对原始的对抗攻击方法进行了一定的修改,确保对抗过程中实体文本未受修改。实验结果表明微调的RE模型容易受对抗性攻击,且对抗性训练有助于模型抵抗攻击,但是降低了其在原始数据上的效果,这说明需要找到对抗样本和原始样本的平衡。
.png)
2.1.3 反事实扰动
以前的方法表明微调模型可以学习简单的决策规则,这些规则在测试集上表现良好,但不能按预期理解语义。本节通过构造对比集合了解指示短语文本对模型预测的影响。与此前依赖众包的对比集生成方法不同,我们提出了一种自动化方法:遮盖句子中信息量最大的词元来生成对比样本。特别的,我们使用积分梯度技术来找出遮盖词,它相比常见的注意力分数能够更好指示输入重要性:
.png)
积分梯度通过计算输入变化路径的积分分数反映输入的变化对模型输出的影响程度:
其中,𝐱=⟨𝐱_1,…,𝐱_𝑛⟩ 指的是输入句子的嵌入,b是基线值,这里设为全零的张量。我们对每个样本选取显著性分数最高的k个词元进行遮盖,并将类别标签改为NA构造对比集(Wiki80数据集中不存在NA关系)。其结果如下所示:
.png)
注意到BERT在对比集上的表现不佳,这表明微调模型缺乏反事实推理的能力。我们将反事实样本加入训练数据进行增强训练,其流程如下。训练后的模型在对比集上取得了较大的提升,这说明了数据增强的有效性。
.png)
2.2 模型的偏差性(Bias)分析
.png)
2.2.1 选择性偏差分析
选择性偏差源自训练样本的分布和真实场景下的差异:模型对某些类别下高频的词汇产生了依赖,而这些高频词不都和类别语义相关,从而阻碍了模型对文本语义的理解。我们通过对每个类别下样本的高频词进行了统计和筛选,并将其中非语义相关词替换为空词,构建了一个去偏差测试集用于评估BERT的性能,此外还介绍了一种简单的方法BERT+De-biased,根据标记频率随机遮盖高频词进行训练。实验结果表明模型性能在一定程度上受到选择偏差的影响。此外BERT+De-biased取得了相对更好的结果,表明基于频率的重采样是有益的。
.png)
2.2.2 语义偏差分析
语义性偏差在于,模型参数中可能对某些实体具有偏见,并将其与某些类别进行关联。我们设计了多种实验场景:(1)遮盖实体场景(Masked Entity Setting),将实体名称替换为特殊标记;(2)仅保留实体场景(Only Entity Setting),仅由两个实体文本组成样本。我们还构建了一个去偏差的测试集,包含模型在OE 场景中预测错误的原样本。我们对这些数据集进行了实验,并引入了一种简单的选择性实体遮盖训练方法。如下表中,随机遮盖K%的实体的实验组记为(BERT+ME (K%)),基于实体对频率动态遮盖的实验组记为BERT+ME(Frequency)(Wiki80数据集每个实体对均唯一)。
注意到BERT模型在ME和OE场景下性能显著下降,且仅使用实体名称可以比仅使用屏蔽实体的文本归档更好的性能。这表明尽管实体名称和文本都为RE提供了重要信息,实体名称的贡献更大,证实了语义偏差的存在。此外,在去偏集上BERT+ME(k)获得了比BERT更好的性能,BERT+ME(Frequency)取得了最好的结果,表明选择性实体遮盖是有益的。本文从稳健性和偏差出发研究语言模型泛化能力,以RE为例进行实验,结果表明BERT在鲁棒性指标和偏见性指标上表现不佳,并能通过针对性的数据增强方法和加权训练方法提升泛化性能,如下图所示。我们认为这项研究是朝着统一理解泛化迈出的一步,这为进一步评估和改进泛化提供了希望,包括NLP泛化的概念和数学定义。