PaLM-rlhf-pytorch

在PaLM体系结构之上实现RLHF（人工反馈强化学习）

该项目是在 PaLM 架构之上实施 RLHF（人类反馈强化学习）。

基本上等同于 ChatGPT，区别是使用了 PaLM。PaLM 是在谷歌的通用 AI 架构「Pathways」上训练而成的具有 5400 亿参数的大型语言模型。

而 RLHF，是 ChatGPT 在 GPT 3.5 系列模型的基础上，引入「人工标注数据 + 强化学习」（RLHF）来不断微调预训练语言模型，旨在让大型语言模型（LLM）学会理解人类的命令，并学会根据给定的 prompt 给出最优的答案。