25 lines
652 B
Markdown
25 lines
652 B
Markdown
|
||
# Train Meaning dataset
|
||
|
||
|
||
## level and index
|
||
|
||
不同level和index对结果的影响
|
||

|
||
|
||
## 不同模型深度对结果的影响
|
||
|
||
6层相对于3层没有提升的原因,可能是数据集太小,3层已经能完全拟合
|
||

|
||
|
||
## qk图解释
|
||
|
||
1. key[10] = 1000.0
|
||
2. 每一行数据(像素)表示一个新的token,和前面所有token的关系
|
||
|
||

|
||
|
||
## 在样本的中间插入固定的token
|
||
|
||
1. 使用stride的方法,在每个token的中间插入一个固定的无用的token
|
||
2. 插入的token用或者不用于计算loss,对精度都没有提升 |