BERT(Bidirectional Encoder Representations from Transformers)模型是Google推出的基于Transformer的预训练语言模型。
BERT模型的主要特点和原理:
一、模型结构
BERT采用Transformer编码器的结构:
- 包含多个Transformer编码器堆叠在一起
- Transformer编码器由多个自注意力层组成
- 最后连接一个全连接层用于最终任务
二、模型思想
BERT采用了双向预训练:
- 可以同时使用目标单词的前向和后向信息
- 更好地理解上下文语境
三、预训练目标
BERT使用了mask language model和下一句预测两个预训练目标:
- Mask language model构建语言模型
- 下一句预测学习句子间关系
四、微调
微调阶段,BERT使用最终任务的输出层,微调整个网络:
- 文本分类
- 命名实体识别
- 句子序关系判断等
五、Transformer 3大特点
- 自注意力机制
- 残差连接
- 位置编码
总的来说,BERT模型的主要特点包括:
- 使用Transformer编码器结构
- 双向预训练思想
- Mask language model + 下一句预测预训练目标
- 微调全网络
- 采用Transformer 3大创新
BERT提出后,在NLP许多任务上都创下了州界性的效果。