Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

本文最后更新于:1 年前

T5

T5: Transfer Text-to-Text Transformer

C4: Colossal Clean Crawled Corpus

架构择优

image-20230212182549309

  • Encoder-Decoder(Seq2Seq,Encoder 看全体,Decoder 看之前的,效果最好)
  • Decoder(看之前)
  • Prefix-LM(一部分全体一部分过去)

其中两层数据之间的关联如下

image-20230212185102519

训练择优

顺次在以下并列选项中找到“最优解”,蓝色代表“胜出”

image-20230212194432962

训练方式

  • 语言模型式:从左到右预测
  • BERT 式:还原 MASK
  • Deshuffling 式:还原打乱文本

掩盖策略

  • Mask:盖住 token
  • Replace spans:相邻 Mask 合成一个特殊字符
  • Drop:直接丢弃一些字符

掩盖比例

10%, 15%, 25%, 50% 的 MASK 比例

掩盖长度

2, 3, 5, 10 的长度


Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
https://lr-tsinghua11.github.io/2023/02/09/NLP/T5/
作者
Learning_rate
发布于
2023年2月9日
许可协议