相比transformer，rwkv更可能发挥出优势的场景应该有哪些特点？

juju · 2024 年12 月 17 日 12:54

相比于transformer，rwkv 在哪些场景 task 里更可能有优势呢？比如long sequences数据

RWKV-7 · 2024 年12 月 17 日 14:38

现在RWKV-7很强，在很多的方面优于Transformer，目前相同数据量（即使是相同训练时间）RWKV-7在各种测试任务上都要比Transformer强。我相信在所有场景下RWKV都能发挥出优势。

下面是Bo微调版的回答（有删改）：

关于 RWKV 的最新一期（RWKV-7）效果，虽然类似 Transformer，但实际上更有几个优点：
1. RWKV 没有 attention，因此 RWKV 的计算时间比 Transformer 要少很多；
2. RWKV 可以写成矩阵-向量乘法（如果使用浮点数），和Attention机制的矩阵-矩阵乘法计算时间相比，更快；
3. 加入了多种混合机制（time-mix、channel-mix）。这个对于我来说是出于对未来研究方向的预判，其实并不重要，但是从资源角度出发，transformer 的所有 attention 机制消耗都比 RWKV 要大很多；
4. RWKV 可以轻松做 SFT、RLHF，而且效果好得多。这一点和 Transformer 相同；
5. RWKV 可以加入任何类型的结构（甚至包括 attention），结构灵活性更高。
这些都使得 RWKV 适合做大模型的基础架构。其实之前一直没有大规模应用 RWKV，主要是因为他们还有其他模型和数据。但是现在所有 Transformer 的方法都无法应用于未来 AI 的发展。另外我观察到：目前没人大规模应用 RWKV，主要是因为他们还有其他模型。当所有 Transformer 都被无法继续优化的时候（例如 Llama-4），我相信会看到新模型（也就是我们 RWKV）重新启动研究市场。
目前最适合应用于 AI 领域的 RWKV 模型，就是我们现在正在开发的 V7 系列。

jellyfish · 2024 年12 月 17 日 15:32

应该反过来问
相比RWKV，Transformer更可能发挥出优势的场景应该有哪些特点？Transformer才是挑战者。
除了真的非常retrieval heavy的任务，其他任何任务RWKV必然吊打Transformer。

juju · 2024 年12 月 18 日 03:20

感谢回复，希望大佬能帮我再解答一下疑惑。
这段时间我看了 rwkv 4 5 6版本的论文，轻微浏览过这几版的代码，rwkv 7还没找到很好的资料解读（知乎 bo 的 rwkv 7 第一性原理，我没读懂）。
我对 rwkv 的印象是一个比 transformer 复杂度低的挑战者。在性能上，考虑到 rwkv 是 RNN 结构，直观感觉上，hidden state 是 memory lossy 的，而 transformer 的 attention 至少看起来是 lossless memory，我就感觉 rwkv 的性能可能不会比 transformer 好。如果实验结果上，rwkv 性能超过了 transformer，那可能的原理会是什么呢？

RWKV-7 · 2024 年12 月 18 日 03:33

因为智能不在于记忆，你要是考试的时候认认真真把书本上每个字都看一遍，你就输了。真正的学霸不是这样学习的，需要把信息内化在自己的记忆里。
RWKV实际上就是这样，信息被存储在state里，state可以高效地演化，这样就把外部的信息内化为自己的知识。

juju · 2024 年12 月 18 日 03:49

谢谢解答
大佬的意思是不是说， hidden state 是 seen tokens 的抽象化语义（信息内化）。
可是 transformer 对 seen tokens 的基于 attention 的聚合是不是和这种抽象化语义差不多呢？

RWKV-7 · 2024 年12 月 18 日 04:04

不，attention没有任何抽象化，它只是一个检索器，transformer的抽象化是MLP层完成的。如果把MLP层去掉，纯Attention模型就废了，RWKV-7能撑很长一段时间。所以差远了。

RWKV-7在99%的方面超过用相同数据的Transformer，平均可以超5%（按满分100分计）。彭博的实验证明了这一点，请看：

juju · 2024 年12 月 18 日 04:26

谢谢解答，您说的有道理，attention 自己是没有抽象化的。
那如果拿transformer的 attention+mlp 和 rwkv的time mixing + channel mixing 相比呢，两者的性能差异可能出现在哪些地方？