33
/es/
AIzaSyB4mHJ5NPEv-XzF7P6NDYXjlkCWaeKw5bc
November 30, 2025
10492172
1005895
1
Public Timelines
FAQ

1 ene 2022 año - GPT-3.5 (InstructGPT) 发布

Descripción:

发布时间: 关键论文《基于人类反馈的指令微调》发表于2022年3月,但其核心模型text-davinci-002在2022年1月左右就已发布。

核心创新:

引入人类反馈强化学习 (RLHF): 这是革命性的一步。通过让模型学习人类的偏好(哪个回答更好、更安全、更符合指令),OpenAI极大地提升了模型遵循指令和进行安全、有用对话的能力。

从“续写”到“听话”: 之前的GPT模型更像一个“文本补全”工具,而InstructGPT则更像一个能理解并执行你指令的“助手”。

意义: ChatGPT的幕后英雄。广受欢迎的ChatGPT (2022年11月发布) 正是基于GPT-3.5系列模型微调而来的。RLHF技术是让ChatGPT拥有惊人对话能力的关键。

Añadido al timeline:

hace 1 meses atrás
0
0
78

fecha:

1 ene 2022 año
Ahora mismo
~ 3 years and 10 months ago