This website requires JavaScript.
Explore
Help
Sign In
colin
/
Witllm
Watch
1
Star
0
Fork
You've already forked Witllm
0
Code
Issues
Pull Requests
Packages
Projects
Releases
Wiki
Activity
59e079f5e7
Witllm
/
wit
/
doc
/
train_meaning_dataset.md
652 B
Raw
Blame
History
Unescape
Escape
Train Meaning dataset
level and index
不同level和index对结果的影响
不同模型深度对结果的影响
6层相对于3层没有提升的原因
,
可能是数据集太小
,
3层已经能完全拟合
qk图解释
key[10] = 1000.0
每一行数据
(
像素
)
表示一个新的token
,
和前面所有token的关系
在样本的中间插入固定的token
使用stride的方法
,
在每个token的中间插入一个固定的无用的token
插入的token用或者不用于计算loss
,
对精度都没有提升