简记。
论文概况
Training language models to follow instructions with human feedback
根据人类反馈指示来训练语言模型
OpenAI 2022
核心
该系统包含主要三个步骤实现:
1、使用一组广泛分布的互联网数据对GPT-3模型进行预训练。然后,针对典型的一组human prompts,让laber写下正确的答案并用这组12,725的监督数据对模型进行精调;
2、随机选择一组human prompts,并用模型对每个prompt产生多个输出的答案。让labeler对这些回答进行排序,并根据排序训练一个奖励模型 (reward model)。这组用来训练reward model的数据包含有33,207个prompts以及在不同回答组合下产生的10倍于此的答案;
3、再次随机采样human prompts,并基于PPO的强化学习算法(Proximal Policy Optimization Algorithm)对监督训练后精调过的模型进行再次fine-tune。每个采样的prompt输入PPO模型,并用reward model给出的奖励信号用31,144个prompts对模型进行训练。