Update meaning dataset stride token.
This commit is contained in:
parent
297c346df9
commit
e18ee0c781
|
@ -19,11 +19,18 @@
|
|||
|
||||

|
||||
|
||||
## 在样本的中间插入固定的token
|
||||
## stride数据集 插入固定的token
|
||||
|
||||
1. 使用stride的方法,在每个token的中间插入一个固定的无用的token
|
||||
2. 插入的token用或者不用于计算loss,对精度都没有提升
|
||||
3. 使用tree的数据集,在token中间插入一些tree node,对精度都没有提升
|
||||
|
||||
## stride数据集 总是插入前一个token(重复token)
|
||||
|
||||
1. 能提升精度 0.75940 0.76777
|
||||
|
||||
## Tree数据集 固定token
|
||||
|
||||
1. 使用tree的数据集,在token中间插入一些固定的token,tree node,对精度都没有提升
|
||||
|
||||
## 非线性Dot
|
||||
|
||||
|
|
|
@ -124,7 +124,7 @@ class MeaningMap:
|
|||
ms_rank_idx[index] = 0xFFFFFFF
|
||||
ms_rank_all[index] = 0xFFFFFFF
|
||||
for ind in range(index + 1, index + stride):
|
||||
ms_data[ind] = vocab_of_stride
|
||||
ms_data[ind] = i
|
||||
ms_level[ind] = 511
|
||||
ms_rank_idx[ind] = 0xFFFFFFF
|
||||
ms_rank_all[ind] = 0xFFFFFFF
|
||||
|
|
Loading…
Reference in New Issue