Add none linear dot.

This commit is contained in:
Colin 2025-08-21 13:52:34 +08:00
parent a326df1bba
commit 297c346df9
1 changed files with 7 additions and 1 deletions

View File

@ -23,3 +23,9 @@
1. 使用stride的方法在每个token的中间插入一个固定的无用的token
2. 插入的token用或者不用于计算loss对精度都没有提升
3. 使用tree的数据集在token中间插入一些tree node对精度都没有提升
## 非线性Dot
1. A = B *C 变成 A = B *(C+D) 等价于 A = B*C + B*D
2. 增加了参数,会提升精度