BERT, Pre-training of Deep Bidirectional Transformers for Language Understanding

本文最后更新于:1 年前

\(\mathbf{B}\text{idirectional}\ \mathbf{E}\text{ncoder}\ \mathbf{R}\text{epresentations}\text{from}\ \mathbf{T}\text{ransformers}\)

Key-points

\((1)\) 双向预训练;\((2)\) 统一模型解决任务;\((3)\) 无监督训练方式。

\[ \begin{cases} \mathbf{MLM} \text{: masked language model}\\ \mathbf{NSP} \text{: next sentence prediction} \end{cases} \]

  • 从 feature-based 到 fine-tuned,模型参数从不可变到可变。
  • 大规模数据集上无监督预训练加目标数据集微调,上下文均可获取。
  • 采用 Wordpiece 算法得到 \(30000\) 个词汇
  • embedding 有 Token, Segment, Position 三种。

\(11\) 个 NLP 任务上表现好。


Ablation study

该实验主要通过对比实验说明不同关键点融合的好处,本质思想是奥卡姆剃刀原理。

  • 预训练:没有 NSP 以及没有 NSP 且加上 LTR 都会使结果变差

  • 大小:原模型当大小变大时表现未必好,而该模型效果随模型大小增加而增加

  • 训练步数:收敛速度较慢

  • Mask比例:概率 0.8:0.1:0.1 [MASK], 替代, 保持不变时最好


BERT, Pre-training of Deep Bidirectional Transformers for Language Understanding
https://lr-tsinghua11.github.io/2023/01/24/NLP/BERT_Pre-training_of_Deep_Bidirectional_Transformers_for_Language_Understanding/
作者
Learning_rate
发布于
2023年1月24日
许可协议