ChatGPT为什么选择强化学习而非监督学习

上传：brake3023 浏览： 9 推荐： 0 文件：zip 大小：29.02KB 上传时间：2023-07-28 19:03:35 版权申诉

为什么ChatGPT等大型语言模型选择使用强化学习而不是监督学习进行训练，这是一个备受讨论的话题。虽然从演示中学习（或者所谓的“指令微调”）可以让模型学习人类写作的回答，但为什么强化学习更优秀呢？本文提供了一个有说服力的理论论据来解答这个问题，并且讨论了为什么强化学习特别适用于ChatGPT等语言模型。John Schulman在OpenAI的演讲中详细阐述了大部分论点，并且本文还补充了一些John没有提及的内容，但这些内容应该是他也考虑到的。文章提供了详尽的背景知识，以帮助读者更好地理解文章内容。如果您只关注核心论证部分，可以直接跳转到该部分进行阅读。此外，文章还简要介绍了监督学习与强化学习，并解释了预训练的概念。在这两种学习设置中，模型首先在大量文本上进行预训练，以预测下一个token的概率。通过了解这些信息，我们可以更好地理解为什么ChatGPT选择了强化学习来进行训练。

上传资源