前言
在昨天我们实践了word2vec模型,今天还是来学习一个深度学习文本分类模型——bert,这是一个在文本分类中非常著名的模型。接下来让我们来学习一下这个模型。
文本型数据的读取与训练与图片等其他格式较为一致的数据不同,文本数据一般不定长,所以如果要进行机器学习的矩阵训练,需要先对文本数据进行归一化处理,把文本转换成可以进行运算的shape相同的向量,然后输入算法进行学习。转换的方法有几种,下面的文本表示方法引用自Datawhale零基础入门NLP赛事 - Task3 基于机器学习的文本分类。