扫一扫分享
OpenAI训练了一个名为ChatGPT的模型,它以对话方式进行交互。对话格式使ChatGPT可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。
ChatGPT是InstructGPT的兄弟模型,它经过训练可以按照提示中的说明进行操作并提供详细的响应。目前,OpenAI将ChatGPT免费开放给大众使用,以获取用户的反馈,为后续改进做好准备。
OpenAI使用强化学习(RLHF)训练ChatGPT,与InstructGPT训练方法相同,但在数据收集设置上有所区别。在模型训练中,OpenAI使用监督微调:人工智能训练者提供对话样本,扮演对话的双方,即用户和人工智能助手。训练者可以访问模型编写的建议,以帮助他们撰写答案。为了创建强化学习的奖励模型,研究团队展开人工智能训练者与聊天机器人的对话,收集比较数据。
另外,OpenAI测试后发现ChatGPT也可以debug程序代码。开发人员贴一段存在bug的程序代码,询问ChatGPT调试方法;而ChatGPT会通过对话询问开发者更多资讯,以提供具体有效的解法。
ChatGPT对措辞非常敏感。当用户发问而未获得正确答案或回应时,可尝试调整措辞;只要稍微改写句型,ChatGPT就能正确回答。
OpenAI也指出,ChatGPT回应仍未完美,因有时ChatGPT会有看似合理却不正确或荒谬的答案。研究人员认为原因有三种,除了在增强训练时缺乏事实来源,或是监督训练时被误导,训练模型过度谨慎反而拒绝回答可能正确回答的问题。
ChatGPT-4:https://openai.com/gpt-4
目前GPT-4已发布,根据OpenAI官方的介绍,GPT-4是一个超大的多模态模型,也就是说,它的输入可以是文字(上限2.5万字),还可以是图像。
在性能表现上,OpenAI直接甩出一句话:在各种专业和学术基准上和人类相当!
手机预览