BERT(Bidirectional Encoder Representations from Transformers)是第一个基于Transformer结构的纯Encoder模型,它在提出时横扫了整个NLP界,在流行的GLUE基准上超过了当时所有的最强模型。随后的一系列工作对BERT的预训练目标和架构进行调整以进一步提高性能。目前,纯Encoder模型依然在NLP行业中占据主导地位。

论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding