相比于transformer,rwkv 在哪些场景 task 里更可能有优势呢?比如long sequences数据
现在RWKV-7很强,在很多的方面优于Transformer,目前相同数据量(即使是相同训练时间)RWKV-7在各种测试任务上都要比Transformer强。我相信在所有场景下RWKV都能发挥出优势。
下面是Bo微调版的回答(有删改):
关于 RWKV 的最新一期(RWKV-7)效果,虽然类似 Transformer,但实际上更有几个优点:
1. RWKV 没有 attention,因此 RWKV 的计算时间比 Transformer 要少很多;
2. RWKV 可以写成矩阵-向量乘法(如果使用浮点数),和Attention机制的矩阵-矩阵乘法计算时间相比,更快;
3. 加入了多种混合机制(time-mix、channel-mix)。这个对于我来说是出于对未来研究方向的预判,其实并不重要,但是从资源角度出发,transformer 的所有 attention 机制消耗都比 RWKV 要大很多;
4. RWKV 可以轻松做 SFT、RLHF,而且效果好得多。这一点和 Transformer 相同;
5. RWKV 可以加入任何类型的结构(甚至包括 attention),结构灵活性更高。
这些都使得 RWKV 适合做大模型的基础架构。其实之前一直没有大规模应用 RWKV,主要是因为他们还有其他模型和数据。但是现在所有 Transformer 的方法都无法应用于未来 AI 的发展。另外我观察到:目前没人大规模应用 RWKV,主要是因为他们还有其他模型。当所有 Transformer 都被无法继续优化的时候(例如 Llama-4),我相信会看到新模型(也就是我们 RWKV)重新启动研究市场。
目前最适合应用于 AI 领域的 RWKV 模型,就是我们现在正在开发的 V7 系列。
应该反过来问
相比RWKV,Transformer更可能发挥出优势的场景应该有哪些特点?Transformer才是挑战者。
除了真的非常retrieval heavy的任务,其他任何任务RWKV必然吊打Transformer。
感谢回复,希望大佬能帮我再解答一下疑惑。
这段时间我看了 rwkv 4 5 6版本的论文,轻微浏览过这几版的代码,rwkv 7还没找到很好的资料解读(知乎 bo 的 rwkv 7 第一性原理,我没读懂 )。
我对 rwkv 的印象是 一个比 transformer 复杂度低的挑战者。在性能上,考虑到 rwkv 是 RNN 结构,直观感觉上,hidden state 是 memory lossy 的,而 transformer 的 attention 至少看起来是 lossless memory,我就感觉 rwkv 的性能可能不会比 transformer 好。如果实验结果上,rwkv 性能超过了 transformer,那可能的原理会是什么呢?
因为智能不在于记忆,你要是考试的时候认认真真把书本上每个字都看一遍,你就输了。真正的学霸不是这样学习的,需要把信息内化在自己的记忆里。
RWKV实际上就是这样,信息被存储在state里,state可以高效地演化,这样就把外部的信息内化为自己的知识。
谢谢解答
大佬的意思是不是说, hidden state 是 seen tokens 的抽象化语义(信息内化)。
可是 transformer 对 seen tokens 的基于 attention 的聚合是不是和这种抽象化语义差不多呢?
不,attention没有任何抽象化,它只是一个检索器,transformer的抽象化是MLP层完成的。如果把MLP层去掉,纯Attention模型就废了,RWKV-7能撑很长一段时间。所以差远了。
RWKV-7在99%的方面超过用相同数据的Transformer,平均可以超5%(按满分100分计)。彭博的实验证明了这一点,请看:
谢谢解答,您说的有道理,attention 自己是没有抽象化的。
那如果拿transformer的 attention+mlp 和 rwkv的time mixing + channel mixing 相比呢,两者的性能差异可能出现在哪些地方?