Witllm/wit/doc/train_meaning_dataset.md

38 lines
1001 B
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Train Meaning dataset
## level and index
不同level和index对结果的影响
![alt text](level_and_index.png)
## 不同模型深度对结果的影响
6层相对于3层没有提升的原因可能是数据集太小3层已经能完全拟合
![alt text](model_level_number.png)
## qk图解释
1. key[10] = 1000.0
2. 每一行数据像素表示一个新的token和前面所有token的关系
![alt text](q@k_seq_47_layer_0.png)
## stride数据集 插入固定的token
1. 使用stride的方法在每个token的中间插入一个固定的无用的token
2. 插入的token用或者不用于计算loss对精度都没有提升
## stride数据集 总是插入前一个token重复token
1. 能提升精度 0.75940 0.76777
## Tree数据集 固定token
1. 使用tree的数据集在token中间插入一些固定的tokentree node对精度都没有提升
## 非线性Dot
1. A = B *C 变成 A = B *(C+D) 等价于 A = B*C + B*D
2. 增加了参数,会提升精度