Runner 怎么实现多卡推理?

在 RWKV Runner 的配置界面没有找到设置多卡的地方呀 :pleading_face:

1 Like

客户端默认面向单卡,但是可以把 strategy 改成自定义。选了自定义,可以自己填strategy,并且有一个灰色的提示教你怎么用多卡。

cuda:0 cuda:1就是两张卡,后面的 *20 是模型层数,因此 cuda:0 fp16*20 -> cuda:1 fp16 是把模型前 20 层放到第一张卡,剩下的层放到第二张卡。

如果不填层数,比如 cuda:0 fp16 -> cuda:1 fp16 ,是两张卡分别存放模型的一半层。

注意:RWKV Runner 的双卡仅支持 CUDA ,也就是 NVIDIA 显卡


自定义 strategy 还支持更多混合量化精度,请参考此图片:

1 Like