854 B
854 B
Train Meaning dataset
level and index
不同模型深度对结果的影响
6层相对于3层没有提升的原因,可能是数据集太小,3层已经能完全拟合
qk图解释
- key[10] = 1000.0
- 每一行数据(像素)表示一个新的token,和前面所有token的关系
在样本的中间插入固定的token
- 使用stride的方法,在每个token的中间插入一个固定的无用的token
- 插入的token用或者不用于计算loss,对精度都没有提升
- 使用tree的数据集,在token中间插入一些tree node,对精度都没有提升
非线性Dot
- A = B C 变成 A = B (C+D) 等价于 A = BC + BD
- 增加了参数,会提升精度