33
/
AIzaSyB4mHJ5NPEv-XzF7P6NDYXjlkCWaeKw5bc
November 30, 2025
10492175
1005895
1
Public Timelines
FAQ

jan 23, 2020 - Scalling Laws 发布

Description:

論文標題: 《Scaling Laws for Neural Language Models》(神經語言模型的擴展定律)

發布者: 論文的主要貢獻者來自 OpenAI。

主要作者: 由 Jared Kaplan 和 Sam McCandlish 領導了這項研究,論文的作者團隊還包括了 Tom Henighan, Tom B. Brown, Jeff Wu, Alec Radford, Dario Amodei 等多位OpenAI的核心研究人員。

歷史背景與意義
這篇論文首次以嚴謹的實驗數據和數學公式,系統性地揭示了大型語言模型性能背後的秘密。在它發表之前,大家普遍認為「更大的模型會更好」,但這更像是一種直覺。

而 Kaplan 等人的這篇論文 將這種直覺變成了可預測的科學。他們通過訓練數百個不同規模的模型,發現模型的性能(以Cross-Entropy Loss衡量)與模型參數數量、訓練數據量和總計算量之間,存在著平滑的、可預測的冪律關係(Power-Law Relationship)。

這項成果的發布,直接為OpenAI後來訓練**GPT-3(2020年6月發布)**這一巨型模型提供了強大的理論信心和工程指導。可以說,沒有這篇論文,GPT-3以及後續所有巨型模型的開發都將充滿更多的不確定性。它標誌著AI大模型領域從「手工作坊」式的探索,進入了有理論指導的「規模化工程」時代。

Added to timeline:

1 months ago
0
0
72

Date:

jan 23, 2020
Now
~ 5 years and 9 months ago