2025-03-03 21:30:58 +08:00
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
R-Receptance 这个接受度可以从代码上直接看到,它是模型对过去的记忆程度。
|
|
|
|
|
W-Weight 这个Weight本身并不是一个泛指,是一个过去信息的时间衰减
|
|
|
|
|
K、V 就是等同于Transformer的Key与Value。
|
|
|
|
|
|
|
|
|
|
- 记住过去的信息(通过 V)
|
|
|
|
|
- 找到相关的信息(通过 K)
|
|
|
|
|
- 控制信息的重要性(通过 W)
|
|
|
|
|
- 决定使用多少信息(通过 R)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
TimeMix,指的是过去信息x-1与当前信息x的混合。 xx = self.time_shift(x) - x 这个是典型的操作
|
|
|
|
|
|
|
|
|
|
|
2025-03-05 19:39:08 +08:00
|
|
|
|
RWKV_Tmix_x070
|