Witllm/wit/doc/train_meaning_dataset.md


# Train Meaning dataset


## level and index

不同level和index对结果的影响
![alt text](level_and_index.png)

## 不同模型深度对结果的影响

6层相对于3层没有提升的原因，可能是数据集太小，3层已经能完全拟合
![alt text](model_level_number.png)

## qk图解释

1. key[10] = 1000.0
2. 每一行数据（像素）表示一个新的token，和前面所有token的关系

![alt text](q@k_seq_47_layer_0.png)

## stride数据集 插入固定的token

1. 使用stride的方法，在每个token的中间插入一个固定的无用的token
2. 插入的token用或者不用于计算loss，对精度都没有提升

## stride数据集 总是插入前一个token（重复token）

1. 能提升精度 0.75940  0.76777

## Tree数据集 固定token

1. 使用tree的数据集，在token中间插入一些固定的token，tree node，对精度都没有提升

## 非线性Dot

1. A = B *C 变成 A = B *(C+D) 等价于 A = B*C + B*D
2. 增加了参数，会提升精度