Witllm/wit/doc/train_meaning_dataset.md

25 lines
652 B
Markdown
Raw Normal View History

2024-04-14 17:41:30 +08:00
# Train Meaning dataset
## level and index
不同level和index对结果的影响
![alt text](level_and_index.png)
## 不同模型深度对结果的影响
6层相对于3层没有提升的原因可能是数据集太小3层已经能完全拟合
![alt text](model_level_number.png)
## qk图解释
1. key[10] = 1000.0
2. 每一行数据像素表示一个新的token和前面所有token的关系
2025-08-13 16:37:24 +08:00
![alt text](q@k_seq_47_layer_0.png)
## 在样本的中间插入固定的token
1. 使用stride的方法在每个token的中间插入一个固定的无用的token
2. 插入的token用或者不用于计算loss对精度都没有提升