Update meaning dataset stride token.
This commit is contained in:
parent
297c346df9
commit
e18ee0c781
|
@ -19,11 +19,18 @@
|
||||||
|
|
||||||

|

|
||||||
|
|
||||||
## 在样本的中间插入固定的token
|
## stride数据集 插入固定的token
|
||||||
|
|
||||||
1. 使用stride的方法,在每个token的中间插入一个固定的无用的token
|
1. 使用stride的方法,在每个token的中间插入一个固定的无用的token
|
||||||
2. 插入的token用或者不用于计算loss,对精度都没有提升
|
2. 插入的token用或者不用于计算loss,对精度都没有提升
|
||||||
3. 使用tree的数据集,在token中间插入一些tree node,对精度都没有提升
|
|
||||||
|
## stride数据集 总是插入前一个token(重复token)
|
||||||
|
|
||||||
|
1. 能提升精度 0.75940 0.76777
|
||||||
|
|
||||||
|
## Tree数据集 固定token
|
||||||
|
|
||||||
|
1. 使用tree的数据集,在token中间插入一些固定的token,tree node,对精度都没有提升
|
||||||
|
|
||||||
## 非线性Dot
|
## 非线性Dot
|
||||||
|
|
||||||
|
|
|
@ -124,7 +124,7 @@ class MeaningMap:
|
||||||
ms_rank_idx[index] = 0xFFFFFFF
|
ms_rank_idx[index] = 0xFFFFFFF
|
||||||
ms_rank_all[index] = 0xFFFFFFF
|
ms_rank_all[index] = 0xFFFFFFF
|
||||||
for ind in range(index + 1, index + stride):
|
for ind in range(index + 1, index + stride):
|
||||||
ms_data[ind] = vocab_of_stride
|
ms_data[ind] = i
|
||||||
ms_level[ind] = 511
|
ms_level[ind] = 511
|
||||||
ms_rank_idx[ind] = 0xFFFFFFF
|
ms_rank_idx[ind] = 0xFFFFFFF
|
||||||
ms_rank_all[ind] = 0xFFFFFFF
|
ms_rank_all[ind] = 0xFFFFFFF
|
||||||
|
|
Loading…
Reference in New Issue