RWKV-LM_新一代大模型架构，超越 Transformer

Web前端开发网

fly63.com

首页资源工具文章教程栏目

RWKV-LM

网站地址:https://www.rwkv.cn

GitHub:https://github.com/BlinkDL/RWKV-LM

描述信息:新一代大模型架构，超越 Transformer

访问官网

GitHub

RWKV（读作 RWaKuV）是一种具有 GPT 级大型语言模型（LLM）性能的 RNN，也可以像 GPT Transformer 一样直接训练（可并行化）。
RWKV 是一个开源的非盈利组织，隶属于 Linux 基金会，算力则由我们的赞助商支持。RWKV 结合了 RNN 和 Transformer 的最佳特性 - 出色的性能、快速的推理、快速的训练、节省 VRAM、"无限" 的 ctxlen 和自由的句嵌入，而且是 100% 不含注意力机制的。

RWKV-LM 是由 BlinkDL 主导开发的一款开源语言模型项目，核心聚焦于 RWKV（Receptance Weighted Key Value）架构的研发与落地 —— 这是一种兼具 RNN（循环神经网络）简单高效和 Transformer 强大表达能力的全新模型架构，打破了传统 RNN 在长文本处理上的短板，也规避了 Transformer 计算复杂度高、显存占用大的问题。

一、项目简介

RWKV-LM 的核心目标是打造 “高效、易用、可扩展” 的纯 RNN 类大语言模型，摆脱 Transformer 架构对注意力机制的强依赖。项目最早从 RWKV-v4 版本起步，逐步迭代到 RWKV-v7/v8 版本，目前已推出 7.2B、13.3B 等参数量级的模型（如 RWKV-7 "G0" 7.2B），并完成了 2T 甚至计划向 8T 令牌（tokens）规模的预训练，是目前已知性能最强的纯 RNN 语言模型之一。

项目代码仓包含完整的模型训练代码、推理演示代码、不同版本的模型实现（如 RWKV-v4neo、RWKV-v7/v8），同时提供预训练模型权重下载链接（托管在 Hugging Face），开发者可以直接基于现有代码和模型进行训练、微调或推理。

二、功能特色

1. 架构优势：RNN 与 Transformer 的 “优势融合”

RWKV 架构本质是纯 RNN，但通过特殊的权重设计（如 Receptance Weighted 机制），实现了类似 Transformer 的上下文捕捉能力，同时保留 RNN 的核心优点：

计算高效：推理时逐令牌计算，无需缓存全部历史注意力矩阵，显存占用远低于同参数量级的 Transformer 模型；
长上下文友好：天然支持超长文本输入，不会像 Transformer 那样因上下文长度增加导致计算量呈平方级上升；
训练 / 推理速度快：官方测试中，8 卡 A100 训练 1.5B 模型可达 115k 令牌 / 秒的速度，单卡推理也能保持高效。

2. 丰富的训练与适配能力

项目提供了高度可配置的训练脚本（如 RWKV-v4neo/train.py），支持：

灵活的参数配置：可自定义模型层数（n_layer）、嵌入维度（n_embd）、上下文长度（ctx_len）、学习率、批次大小等；
多场景训练：支持从 scratch 训练小模型（如 L6-D512）、微调大模型（如 1.5B 模型），适配 dummy 数据、enwik8 文本、numpy 格式数据集等多种数据类型；
硬件适配：支持 GPU 单机 / 多机训练，兼容 bf16/fp16 精度，可结合 DeepSpeed 进行显存优化，甚至支持单卡 16G 显存微调 1.5B 模型。