(李沐-BERT论文精读的个人整理笔记)
BERT论文标题: Pre-training of Deep Bidirectional Transformers for Language Understanding
预训练(pre-training):先在一个大的数据集上训练一个模型(从零开始得到一组权重值W0),这个模
型的主要任务是被用在其他任务(或下游任务上)进行训练(training:以W0初始化模型然后训练)
(以解决下游任务问题)。
BERT本身含义:Bidirectional Encoder Representations from Transformer,使用了 Transformers 模 型(Transformer论文精读)的编码编码器组件,学习一个双向的嵌入表示。与 ELMo 和 Generative Pre-trained Transformer 不同:
- BERT 从无标注的文本中(jointly conditioning 联合左右的上下文信息)预训练词嵌入的双向表征。
- pre-trained BERT 可以通过加一个输出层来 fine-tune,不需要对特定任务的做架构上的修改就 可以在在很多任务(问答、推理)有很不错的、state-of-the-art 的效果
- GPT unidirectional,使用左边的上下文信息预测未来;BERT bidirectional,使用左右侧的上下文信息
- ELMo based on RNNs, down-stream 任务需要调整架构
- GPT, based on Transformers decoder, down-stream 任务只需要改最上层
- BERT based on Transformers encoder, down-stream 任务只需要调整最上层