Witllm/wit/doc/train_meaning_dataset.md

25 lines
652 B
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Train Meaning dataset
## level and index
不同level和index对结果的影响
![alt text](level_and_index.png)
## 不同模型深度对结果的影响
6层相对于3层没有提升的原因可能是数据集太小3层已经能完全拟合
![alt text](model_level_number.png)
## qk图解释
1. key[10] = 1000.0
2. 每一行数据像素表示一个新的token和前面所有token的关系
![alt text](q@k_seq_47_layer_0.png)
## 在样本的中间插入固定的token
1. 使用stride的方法在每个token的中间插入一个固定的无用的token
2. 插入的token用或者不用于计算loss对精度都没有提升