文章翻译自《Aligning Language Models to Follow Instructions》
引言
我们训练的语言模型比 GPT-3 更善于遵循用户意图,同时,通过使用我们的一致研究(alignment research)开发的技术,使回答更真实、毒性更小(less toxic)。这些与人类一起训练的 InstructGPT 模型,现在作为默认语言模型部署在我们的API上。
InstructGPT 与 GPT-3
在遵循英文指令上,InstructGPT 优于 GPT-3。
GPT-3 模型没有被训练去遵循用户指令。我们的 InstructGPT 模型明显能生成更有用的输出,来响应用户的指令。