ChatGPT官网,美国OpenAI,openai.com

chatgpt互联网公司

我们已经训练了一个名为 ChatGPT 的模型，它以对话方式进行交互。对话格式使 ChatGPT 可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。

我们很高兴推出 ChatGPT 以获取用户的反馈并了解其优势和劣势。在研究预览期间，ChatGPT 的使用是免费的。立即在chat.openai.com上试用。

我们使用与 InstructGPT相同的方法，使用来自人类反馈的强化学习 (RLHF) 来训练该模型，但数据收集设置略有不同。我们使用监督微调训练了一个初始模型：人类 AI 训练员提供对话，他们在对话中扮演双方——用户和 AI 助手。我们让培训师可以访问模型编写的建议，以帮助他们撰写回复。我们将这个新的对话数据集与 InstructGPT 数据集混合，我们将其转换为对话格式。

为了创建强化学习的奖励模型，我们需要收集比较数据，其中包含两个或多个按质量排序的模型响应。为了收集这些数据，我们收集了 AI 培训师与聊天机器人的对话。我们随机选择了一条模型编写的消息，抽取了几个备选的完成方式，并让 AI 培训师对它们进行排名。使用这些奖励模型，我们可以使用近端策略优化来微调模型。我们对这个过程进行了几次迭代。

ChatGPT官网, openai.com, 美国OpenAI

扫一扫打开手机网站

微信扫一扫关注我们

ChatGPT官网

手机扫一扫打开链接

相关推荐