RWKV的prompt和解码参数的问题

mroy · 2024 年12 月 19 日 09:42

RWKV模型的prompt的格式是不是非常严格啊？特定任务必须严格控制解码参数嘛？有没有什么对格式要求的文档和一些任务下参数设置的方法呢？

deepdarkfanstasy · 2024 年12 月 19 日 12:46

是的，由于 RWKV 开源的是基底模型，它没有做过强化学习等特殊优化，因此对 prompt 和参数非常敏感，在 RWKV 中文文档：https://rwkv.cn/docs 可以查看 RWKV 的参数指南和示例 prompt：

Peter · 2024 年12 月 23 日 07:40

prompt有非常多的优化方式。RWKV本身能力还是十分强的。请问你是在处理什么特殊的任务吗

mroy · 2024 年12 月 23 日 09:30

是这样的，我发现RWKV在Prompt稍微变化后，出来的结果就完全不同。
例如在rwkv文档中，续写的例子

Instruction: You are an expert assistant responsible for extracting destination and day information from user input and producing valid JSON in the following format:
{
"location": "the location name, Nan if there is no adjustment",
"num_day": "the num day is the number of days, 0 if there is no adjustment",
}
 
Input: 这个礼拜二我会去上海，呆到礼拜四。
 
Response:

在这个例子中，可能某个地方多加了一个空格，输出的结果就变了。
不止这个例子，我之前在使用rwkv-runner时，很多地方都会出现答非所问的情况，所以很多时候像是prompt提高了rwkv使用的门槛一样，不知道如何该去设计符合rwkv的prompt，以达到需求

Peter · 2024 年12 月 25 日 03:53

因为\n有可能会破坏分词器。外加上基模没有设置eot所以回答会不稳定。我有个用industry-instruct微调过的版本稳定很多可以发给你。其实很多长文本的情况下，rwkv6都能理解文本并且输出回答。方便加下微信嘛，可以私聊你的任务场景，我帮你改一下prompt。 yzydooms

Peter · 2024 年12 月 25 日 04:58

SupYumm/RWKV6-V3-7B-Industry-instruct-ctx1024-20241220 at main stop_token用24就好

mroy · 2024 年12 月 27 日 00:10

好的好的，我加你啦，我叫欧阳先生

mroy · 2024 年12 月 27 日 00:11

这个目前只有7B的模型嘛