简记。


论文概况

Training language models to follow instructions with human feedback

根据人类反馈指示来训练语言模型

OpenAI 2022

核心

该系统包含主要三个步骤实现:

1、使用一组广泛分布的互联网数据对GPT-3模型进行预训练。然后,针对典型的一组human prompts,让laber写下正确的答案并用这组12,725的监督数据对模型进行精调;

2、随机选择一组human prompts,并用模型对每个prompt产生多个输出的答案。让labeler对这些回答进行排序,并根据排序训练一个奖励模型 (reward model)。这组用来训练reward model的数据包含有33,207个prompts以及在不同回答组合下产生的10倍于此的答案;

3、再次随机采样human prompts,并基于PPO的强化学习算法(Proximal Policy Optimization Algorithm)对监督训练后精调过的模型进行再次fine-tune。每个采样的prompt输入PPO模型,并用reward model给出的奖励信号用31,144个prompts对模型进行训练。