在预先训练的自然语言处理模型上测量性别相关
发布时间:2020-11-06 12:20

作者:凯丽韦伯斯特,谷歌研究院软件工程师
  在过去的几年里,自然语言处理取得了很大的进步。BERT、ALBERT、ELECTRA、XLNet等预训练语言模型在各种任务中取得了较高的准确率。预训练语言模型以维基百科等大型文本语料库为训练集,通过掩蔽一些单词并对其进行预测来学习嵌入表示,即掩蔽语言建模。实验结果表明,不同概念(如外科医生和解剖刀)之间丰富的语义信息可以通过这种方式进行编码。经过训练,模型经过微调后可以适应特定任务的训练数据,通过预训练嵌入实现分类等特定任务。鉴于这种预训练表示被广泛应用于不同的NLP任务中,作为实践者,我们需要了解预训练模型如何编码信息,如何学习相关性,以及这些将如何影响下游应用的性能,以免偏离我们的AI原则。
  在“测量和减少预训练模型中的性别相关”中,我们以BERT和ALBERT为例,讨论了性别相关,为预训练语言模型的实际应用提供了参考。我们在学术任务数据集上进行了实验,并将实验结果与一些常用模型进行了比较,验证了模型的实用性,为进一步的研究提供了参考。我们将在未来发布一系列检查点,以便在保持NLP任务准确性的同时降低性别相关性。
  相关性测量
  为了了解培训前代表性的相关性如何影响下游任务,可以使用各种评估指标来研究性别代表性。在这里,我们讨论带有共指分解的测试结果,其目的是使模型理解句子中给定代词的正确先行词。比如一句话,模特应该认识到他指的是护士而不是病人。
  在预先训练的自然语言处理模型上测量性别相关性
  ontonets(Hovy等人,2006)是最常用的标准验证数据集,F1分数用于衡量共指消解模型的准确性(Tenney等人,2019)。由于OntoNotes只代表一种数据分布,所以我们还使用了WinoGender基准测试,它提供了一些其他的数据,通过这些数据我们可以判断什么时候性别和职业会产生错误的共指解析。WinoGender得分较高(接近1),说明模型是基于性别和职业的关系做出决策的(比如将护士和女性而不是男性联系起来);当性别和职业没有一致关系时(分数为零),模型决策是基于句子结构或语义等其他信息。在预先训练的自然语言处理模型上测量性别相关性
  BERT和ALBERT在OntoNotes和WinoGender中的表现。WinoGender的值越低,说明模型在推理中对性别信息的关注越少。
  研究发现,BERT和ALBERT在WinoGender上都没有得分,但在OntoNotes上获得了极高的准确率(接近100%)。实验表明,在某些情况下,该模型会在推理决策中考虑性别相关性。这符合我们的预期。该模型可以使用多种线索来理解文本,并且只能使用其中一种或选择所有线索。当然在实际应用中要谨慎,不能指望模型根据先验的性别相关性进行预测。其他可用信息对预测也很重要。
  实践指南
  由于嵌入式预训练模型中的隐式关联可能会影响下游任务,因此在开发新的NLP模型时,我们应该考虑可以采取什么措施来降低这种风险。
  隐含相关性的度量很重要:虽然精度度量可以用来评价模型质量,但这种度量只是从单一角度评价模型,在测试数据和训练数据分布相同的情况下其不足尤为明显。例如,BERT和ALBERT检查点之间的准确性差异小于1%,但使用性别相关性进行共同参照分析的相对偏差为26%。这意味着对于某些任务来说,这样的差异尤为重要。在处理一些反固定思维的文本(比如男护士)时,选择WinoGender评分较低的模式更为合理。
  改变任何模型配置都要小心,哪怕看起来效果不大:神经网络模型的训练是由很多超参数控制的,通常通过选择合理的超参数来最大化训练目标。虽然一些参数的选择似乎对模型没有任何影响,但我们发现它们可能会导致性别相关性的显著变化。例如,Dropout正则化用于避免模型的过度拟合。当我们在BERT和ALBERT的训练过程中增加Dropout参数时,即使进行微调,性别相关性也会显著降低。这意味着微小的配置更改会影响训练模型,从而降低相关风险。然而,这也表明,在对模型配置进行任何更改时,我们都应该小心谨慎地进行评估。
  在预先训练的自然语言处理模型上测量性别相关性
  在BERT和ALBERT训练过程中增加脱落参数的影响
  相关性缓解:辍学对性别相关性的影响已经在前面的文章中介绍过了。在此基础上,我们进一步推断额外的相关性可能会以这种方式减少:通过添加drop参数,我们可以改进WinoGender的推理模式,而无需手动指定任何东西,甚至无需更改微调阶段。但是随着退学率的增加,OneNotes的准确率会开始下降(参见BERT的结果),但我们认为这种情况在预训练阶段是可以避免的,对于具体的任务可以通过改变退学率而不进行更新来改善模型。在本文中,我们提出了另一种基于反事实数据增强的差异权重缓解策略。观点
  我们认为,这些实用指南为开发一个强大的NLP系统提供了参考,使其能够应用于更广泛的语言和应用。当然,由于技术本身的缺点,很难捕捉和消除所有潜在的问题。所以任何部署在真实环境中的模型都要经过严格的测试,也就是尝试不同的方法,采取一些保护措施来保证符合伦理,比如谷歌的AI原理。我们期待评估框架和数据的进一步发展,使语言模型能够应用于各种任务,为更多人提供优质服务。
  谢谢你
  本文作者包括王学智、伊恩坦尼、埃莉帕夫利克、亚历克斯比特尔、陈吉林、埃米莉皮特勒和斯拉夫彼得罗夫。感谢费尔南多佩雷拉、埃德奇、迪潘坚达斯、维拉阿克塞尔罗德、雅各布艾森斯坦、图尔西多希和詹姆斯韦克斯勒。
  人工智能研究协会是人工智能学术青年和人工智能开发者之间进行技术交流的在线社区。我们与高校、学术机构、行业合作,通过提供学习、实际工作、求职服务,打造AI学术青年与开发者交流、互助、职业发展的一站式平台,努力成为中国最大的科技创新人才聚集地。
  如果你也是一个爱分享的AI爱好者。欢迎学习新知识,与雷锋字幕组分享成长。