2024-04-14 17:41:30 +08:00
|
|
|
|
|
|
|
|
|
# Train Meaning dataset
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## level and index
|
|
|
|
|
|
|
|
|
|
不同level和index对结果的影响
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
## 不同模型深度对结果的影响
|
|
|
|
|
|
|
|
|
|
6层相对于3层没有提升的原因,可能是数据集太小,3层已经能完全拟合
|
2025-06-25 20:13:48 +08:00
|
|
|
|

|
|
|
|
|
|
|
|
|
|
## qk图解释
|
|
|
|
|
|
|
|
|
|
1. key[10] = 1000.0
|
|
|
|
|
2. 每一行数据(像素)表示一个新的token,和前面所有token的关系
|
|
|
|
|
|
2025-08-13 16:37:24 +08:00
|
|
|
|

|
|
|
|
|
|
2025-08-21 18:11:58 +08:00
|
|
|
|
## stride数据集 插入固定的token
|
2025-08-13 16:37:24 +08:00
|
|
|
|
|
|
|
|
|
1. 使用stride的方法,在每个token的中间插入一个固定的无用的token
|
2025-08-21 13:52:34 +08:00
|
|
|
|
2. 插入的token用或者不用于计算loss,对精度都没有提升
|
2025-08-21 18:11:58 +08:00
|
|
|
|
|
|
|
|
|
## stride数据集 总是插入前一个token(重复token)
|
|
|
|
|
|
|
|
|
|
1. 能提升精度 0.75940 0.76777
|
|
|
|
|
|
|
|
|
|
## Tree数据集 固定token
|
|
|
|
|
|
|
|
|
|
1. 使用tree的数据集,在token中间插入一些固定的token,tree node,对精度都没有提升
|
2025-08-21 13:52:34 +08:00
|
|
|
|
|
|
|
|
|
## 非线性Dot
|
|
|
|
|
|
|
|
|
|
1. A = B *C 变成 A = B *(C+D) 等价于 A = B*C + B*D
|
|
|
|
|
2. 增加了参数,会提升精度
|