原理 [4]
切分
切分权重[3]
设输入数据为X,参数为W。X的维度 = (b, s, h),W的维度 = (h, h')。其中:
b
:batch_size,表示批量大小
s
:sequence_length,表示输入序列的长度
h
:hidden_size,表示每个token向量的维度。
h'
:参数W的hidden_size。
则每次forward的过程如下:
按行切分权重[3]
forward