首先我确定要改变Transformer的编解码器结构,那么我是否还可以使用Bert、MASS等预训练模型?
如果使用预训练,
1.使用单语语料预训练的权重迁移到我的翻译模型上
2.语料经过预训练处理,可以获取更多的语义特征,然后用这些经过预训练处理的语料来训练我自己改变结构的Transformer模型的参数权重
1正确还是2正确?
nlp萌新。求教大佬。
我是不是可以使用ELMO来预训练我的语料,然后把训练好的词嵌入输入到我的transformer中?