近年来,向模型中注入词汇信息进行词汇增强已经成为一种有效提升中文 NER 性能的方式。本文分享一篇新鲜出炉的来自 ACL 2021 的文章《Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter》。该论文所提的模型除了屠榜中文 NER,还屠榜了中文分词和中文词性标注等任务,本文重点关注中文 NER 任务。
论文标题:
Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter
收录会议:
ACL 2021
论文链接:
https://arxiv.org/abs/2105.07148
代码链接:
https://github.com/liuwei1206/LEBERT
大部分现有的中文 NER 词汇增强方法只在 encode 部分末端的浅层序列模型中引入词汇信息,并没有把词汇信息注入到 BERT 底层。有些小伙伴可能想到《Lex-BERT : Enhancing BERT based NER with lexicons》这篇论文也把词汇信息引入到了 BERT 的底层部分。 Lex-BERT 需要引入实体类型信息,因此依赖于带有实体类型信息的高质量词表,而 FLAT,Lattice lstm 等方法只需要用到词向量信息。论文具体内容介绍大家可以去阅读知乎 @JayJay 大神的文章:https://zhuanlan.zhihu.com/p/374720213 该文章提出了一个名叫 LEBERT(Lexicon Enhanced BERT)的模型来解决中文序列标注任务。相比于 FLAT,Lattice LSTM 等方法,LEBERT 把词汇信息融入到了 BERT 底层的编码过程中。相比于 Lex-BERT,LEBERT 无需包含词汇类型信息的词典,只需要普通的词向量即可。实验结果表明,该模型在多个中文序列标注任务上取得了 state-of-the-art 结果。
前情回顾
1.1 词增强
中文 NER 的词汇增强主要分为两条路线: (1)Dynamic Architecture:通过动态结构,在模型中注入词汇信息。 (2)Adaptive Embedding:将词汇信息融合到 Embeding 中。 近些年来各大顶会上的中文 NER 词汇增强相关论文总结如下(参考博文):https://zhuanlan.zhihu.com/p/142615620
其具体实现方法总结为:
1.2 FLAT
上图为各种词增强 NER 模型的性能展示,可以看出 FLAT 自诞生以来,一直保持着地表最强词增强中文 NER 模型的称号。
FLAT 的模型结构如上图所示,模型的设计特别简单巧妙。其 token 包含原句中的character 以及匹配到的词 word。对于每个 character 和 word,作者分别使用头编号 Head 和尾编号 Tail 来编码其位置。作者把四种相对距离 融合进其设计的相对位置编码当中,之后计算每两个 token 之间的注意力值。FLAT 模型有以下几点优势: