1 gen 2022 anni - GPT-3.5 (InstructGPT) 发布
Descrizione:
发布时间: 关键论文《基于人类反馈的指令微调》发表于2022年3月,但其核心模型text-davinci-002在2022年1月左右就已发布。
核心创新:
引入人类反馈强化学习 (RLHF): 这是革命性的一步。通过让模型学习人类的偏好(哪个回答更好、更安全、更符合指令),OpenAI极大地提升了模型遵循指令和进行安全、有用对话的能力。
从“续写”到“听话”: 之前的GPT模型更像一个“文本补全”工具,而InstructGPT则更像一个能理解并执行你指令的“助手”。
意义: ChatGPT的幕后英雄。广受欢迎的ChatGPT (2022年11月发布) 正是基于GPT-3.5系列模型微调而来的。RLHF技术是让ChatGPT拥有惊人对话能力的关键。
Aggiunto al nastro di tempo:
Data:
~ 3 years and 10 months ago