兄弟们,这个双指数操作是认真的吗?

我已经多次被这个双指数操作干溢出很多回了。

这里不会溢出,输入的 w 有上限,可以检查一下其他地方

呃,你好,请问w的上限在哪能查到?

另外,你知道如果想训练一个TimeMix模块,官方有推荐的权重吗?RWKV-v7的这个模块想训练对初始权重的要求蛮精细的,

在 RWKV7 论文 https://arxiv.org/pdf/2503.14456 可以看到:

推荐的初始权重就是 RWKV7 的初始化代码构造的 rwkv-init.pth

最新kernel会自动将输入的w做soft-clamp,看:https://github.com/BlinkDL/RWKV-LM/blob/main/RWKV-v7/train_temp/cuda/rwkv7_clampw.cu

以及看 RWKV-CUDA/rwkv7_fast_fused/rwkv7_cuda_benchmark.py at main · BlinkDL/RWKV-CUDA · GitHub 的 46-69 行

多谢指点,我再去试一下 :grinning_face: