Update meaning dataset stride token.
This commit is contained in:
		
							parent
							
								
									297c346df9
								
							
						
					
					
						commit
						e18ee0c781
					
				|  | @ -19,11 +19,18 @@ | ||||||
| 
 | 
 | ||||||
|  |  | ||||||
| 
 | 
 | ||||||
| ## 在样本的中间插入固定的token | ## stride数据集 插入固定的token | ||||||
| 
 | 
 | ||||||
| 1. 使用stride的方法,在每个token的中间插入一个固定的无用的token | 1. 使用stride的方法,在每个token的中间插入一个固定的无用的token | ||||||
| 2. 插入的token用或者不用于计算loss,对精度都没有提升 | 2. 插入的token用或者不用于计算loss,对精度都没有提升 | ||||||
| 3. 使用tree的数据集,在token中间插入一些tree node,对精度都没有提升 | 
 | ||||||
|  | ## stride数据集 总是插入前一个token(重复token) | ||||||
|  | 
 | ||||||
|  | 1. 能提升精度 0.75940  0.76777 | ||||||
|  | 
 | ||||||
|  | ## Tree数据集 固定token | ||||||
|  | 
 | ||||||
|  | 1. 使用tree的数据集,在token中间插入一些固定的token,tree node,对精度都没有提升 | ||||||
| 
 | 
 | ||||||
| ## 非线性Dot | ## 非线性Dot | ||||||
| 
 | 
 | ||||||
|  |  | ||||||
|  | @ -124,7 +124,7 @@ class MeaningMap: | ||||||
|                 ms_rank_idx[index] = 0xFFFFFFF |                 ms_rank_idx[index] = 0xFFFFFFF | ||||||
|                 ms_rank_all[index] = 0xFFFFFFF |                 ms_rank_all[index] = 0xFFFFFFF | ||||||
|                 for ind in range(index + 1, index + stride): |                 for ind in range(index + 1, index + stride): | ||||||
|                     ms_data[ind] = vocab_of_stride |                     ms_data[ind] = i | ||||||
|                     ms_level[ind] = 511 |                     ms_level[ind] = 511 | ||||||
|                     ms_rank_idx[ind] = 0xFFFFFFF |                     ms_rank_idx[ind] = 0xFFFFFFF | ||||||
|                     ms_rank_all[ind] = 0xFFFFFFF |                     ms_rank_all[ind] = 0xFFFFFFF | ||||||
|  |  | ||||||
		Loading…
	
		Reference in New Issue
	
	 Colin
						Colin