RWKV能否有一个类似vllm或者SGLang高效推理框架,目前框架推理速度有点感人

RWKV能否有一个类似vllm或者SGLang高效推理框架,
目前runer和Ai100来做服务,推理速度有点感人。

RWKV推理还没怎么优化呢,实际上能有10个正交的方向来优化,到时候肯定快的起飞来

1 Like

in todo list.

可以看看这个GitHub - 00ffcc/conRWKV: RWKV7 with continuous batching

转gguf后使用基于llama.cpp的推理框架