Palm-Rlhf-Pytorch(PaLM-rlhf-pytorch)

在棕榈体系结构之上实施RLHF(通过人为反馈的增强学习)。基本上是changpt,但用棕榈

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部