Witllm/wit/doc/train_meaning_dataset.md

449 B
Raw Blame History

Train Meaning dataset

level and index

不同level和index对结果的影响 alt text

不同模型深度对结果的影响

6层相对于3层没有提升的原因可能是数据集太小3层已经能完全拟合 alt text

qk图解释

  1. key[10] = 1000.0
  2. 每一行数据像素表示一个新的token和前面所有token的关系

alt text