1 ene 2022 año - GPT-3.5 (InstructGPT) 发布

Descripción:

发布时间: 关键论文《基于人类反馈的指令微调》发表于2022年3月，但其核心模型text-davinci-002在2022年1月左右就已发布。

核心创新:

引入人类反馈强化学习 (RLHF): 这是革命性的一步。通过让模型学习人类的偏好（哪个回答更好、更安全、更符合指令），OpenAI极大地提升了模型遵循指令和进行安全、有用对话的能力。

从“续写”到“听话”: 之前的GPT模型更像一个“文本补全”工具，而InstructGPT则更像一个能理解并执行你指令的“助手”。

意义: ChatGPT的幕后英雄。广受欢迎的ChatGPT (2022年11月发布) 正是基于GPT-3.5系列模型微调而来的。RLHF技术是让ChatGPT拥有惊人对话能力的关键。

Añadido al timeline:

AIGC小史

ByLihao Shao

hace 1 meses atrás

fecha:

1 ene 2022 año

Ahora mismo

~ 3 years and 10 months ago

About & Feedback Acuerdo Privacidad FAQ

Support 24/7

Cabinet Get premium

Donate

The service accepts bank transfer (ACH, Wire) or cards (Visa, MasterCard, etc). Processed by Stripe.

Secured with SSL