BERT, Pre-training of Deep Bidirectional Transformers for Language Understanding
本文最后更新于:8 个月前
\(\mathbf{B}\text{idirectional}\ \mathbf{E}\text{ncoder}\ \mathbf{R}\text{epresentations}\text{from}\ \mathbf{T}\text{ransformers}\)
Key-points
\((1)\) 双向预训练;\((2)\) 统一模型解决任务;\((3)\) 无监督训练方式。
\[ \begin{cases} \mathbf{MLM} \text{: masked language model}\\ \mathbf{NSP} \text{: next sentence prediction} \end{cases} \]
- 从 feature-based 到 fine-tuned,模型参数从不可变到可变。
- 大规模数据集上无监督预训练加目标数据集微调,上下文均可获取。
- 采用 Wordpiece 算法得到 \(30000\) 个词汇
- embedding 有 Token, Segment, Position 三种。
在 \(11\) 个 NLP 任务上表现好。
Ablation study
该实验主要通过对比实验说明不同关键点融合的好处,本质思想是奥卡姆剃刀原理。
预训练:没有 NSP 以及没有 NSP 且加上 LTR 都会使结果变差
大小:原模型当大小变大时表现未必好,而该模型效果随模型大小增加而增加
训练步数:收敛速度较慢
Mask比例:概率 0.8:0.1:0.1 [MASK], 替代, 保持不变时最好
BERT, Pre-training of Deep Bidirectional Transformers for Language Understanding
https://lr-tsinghua11.github.io/2023/01/24/NLP/BERT_Pre-training_of_Deep_Bidirectional_Transformers_for_Language_Understanding/