1.模型角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练
2.数据角度:将训练任务拆解成共性学习和特性学习两个步骤两类典型的大语言模型
·BERT:Bidirectional Encoder Representations fromTransformers
·双向模型,同时考虑前文和后文
·采用掩码语言模型(masked language model)和下一句预测任务(nextsentenceprediction)进行预训练,使得模型能够学习到上下文关系和词汇语义
·通常用于文本分类、序列标注、问答等任务
·GPT:Generative Pre-trained Transformer
·单向模型,只考虑前文,不考虑后文
·采用自回归(autoregressive)的方式生成文本,即逐个生成下一个词
·通常用于生成文本、对话、问答等任务
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)