Witllm/wit/doc/train_meaning_dataset.md

1001 B
Raw Blame History

Train Meaning dataset

level and index

不同level和index对结果的影响 alt text

不同模型深度对结果的影响

6层相对于3层没有提升的原因可能是数据集太小3层已经能完全拟合 alt text

qk图解释

  1. key[10] = 1000.0
  2. 每一行数据像素表示一个新的token和前面所有token的关系

alt text

stride数据集 插入固定的token

  1. 使用stride的方法在每个token的中间插入一个固定的无用的token
  2. 插入的token用或者不用于计算loss对精度都没有提升

stride数据集 总是插入前一个token重复token

  1. 能提升精度 0.75940 0.76777

Tree数据集 固定token

  1. 使用tree的数据集在token中间插入一些固定的tokentree node对精度都没有提升

非线性Dot

  1. A = B C 变成 A = B (C+D) 等价于 A = BC + BD
  2. 增加了参数,会提升精度