BERT模型论文精读笔记

(李沐-BERT论文精读的个人整理笔记)

BERT论文标题: Pre-training预训练 of Deep Bidirectional Transformers深度双向Transformer for Language Understanding语言理解

预训练(pre-training)：先在一个大的数据集上训练一个模型(从零开始得到一组权重值W0)，这个模
型的主要任务是被用在其他任务（或下游任务上）进行训练(training：以W0初始化模型然后训练)
（以解决下游任务问题）。

BERT本身含义：Bidirectional Encoder Representations from Transformer，使用了 Transformers 模型(Transformer论文精读)的编码编码器组件，学习一个双向的嵌入表示。与 ELMo 和 Generative Pre-trained Transformer 不同：

BERT 从无标注的文本中（jointly conditioning 联合左右的上下文信息）预训练词嵌入的双向表征。
pre-trained BERT 可以通过加一个输出层来 fine-tune，不需要对特定任务的做架构上的修改就可以在在很多任务（问答、推理）有很不错的、state-of-the-art 的效果
GPT unidirectional，使用左边的上下文信息预测未来；BERT bidirectional，使用左右侧的上下文信息
ELMo based on RNNs, down-stream 任务需要调整架构
GPT, based on Transformers decoder, down-stream 任务只需要改最上层
BERT based on Transformers encoder, down-stream 任务只需要调整最上层

2024-10-13

/posts/resumeessentials/bert%E8%AE%BA%E6%96%87%E7%B2%BE%E8%AF%BB%E7%AC%94%E8%AE%B0/ map[email:1522009317@qq.com name:fmh]

fgg blog

: BERT

BERT模型论文精读笔记

finetune_llm