RWKV能否有一个类似vllm或者SGLang高效推理框架,
目前runer和Ai100来做服务,推理速度有点感人。
RWKV推理还没怎么优化呢,实际上能有10个正交的方向来优化,到时候肯定快的起飞来
1 Like
in todo list.
转gguf后使用基于llama.cpp的推理框架
RWKV能否有一个类似vllm或者SGLang高效推理框架,
目前runer和Ai100来做服务,推理速度有点感人。
RWKV推理还没怎么优化呢,实际上能有10个正交的方向来优化,到时候肯定快的起飞来
in todo list.
转gguf后使用基于llama.cpp的推理框架