# Train Meaning dataset ## level and index 不同level和index对结果的影响 ![alt text](level_and_index.png) ## 不同模型深度对结果的影响 6层相对于3层没有提升的原因,可能是数据集太小,3层已经能完全拟合 ![alt text](model_level_number.png) ## qk图解释 1. key[10] = 1000.0 2. 每一行数据(像素)表示一个新的token,和前面所有token的关系 ![alt text](q@k_seq_47_layer_0.png) ## 在样本的中间插入固定的token 1. 使用stride的方法,在每个token的中间插入一个固定的无用的token 2. 插入的token用或者不用于计算loss,对精度都没有提升 3. 使用tree的数据集,在token中间插入一些tree node,对精度都没有提升 ## 非线性Dot 1. A = B *C 变成 A = B *(C+D) 等价于 A = B*C + B*D 2. 增加了参数,会提升精度