33
/de/
AIzaSyB4mHJ5NPEv-XzF7P6NDYXjlkCWaeKw5bc
November 1, 2025
Create a timeline
Public Timelines
For education
For educational institutions
For teachers
For students
Cabinet
For educational institutions
For teachers
For students
Open cabinet
FAQ
Das Premium bekommen
Close
Create a timeline
Public timelines
FAQ
About & Feedback
Vereinbarung
Privatheit
FAQ
Support 24/7
Cabinet
Get premium
Donate
Herunterladen
Export
Eine Kopie erstellen
Premium
In der Webseite integrieren
Share
RL timeline
Category:
Geschichte
Wurde aktualisiert:
16 St. zuvor
0
0
17
Autoren
Created by
shupei
Attachments
Comments
Ereignisse
基于搜索技术, Johathan Schaeffer 教授主导开发的 Chinook 程序击败人类冠军
基于搜索技术, Johathan Schaeffer 教授终于在 2007 年完美 Solve 西洋跳棋, 论文发表当年 Science 杂志
Cepheus 程序实现单挑无限注德州扑克突破人类水平, 基于强化学习与数学最优策略
DeepStack 在单挑无限注德州扑克突破人类冠军水平
Chain-of-Thought 为开创大模型能力提升新范式
图灵奖的启示, 大模型训练发展进入瓶颈, 亟需 RL 实现从经验中学习
Perioden
Tesauro 依靠 “少量搜索” + “神经网络”, 利用 Sutton 教授的 TD-Learning 算法实现自我博弈达到西洋双陆棋大师水平
基于搜索技术, 阿尔伯塔大学校友 Murray Campbell 与许峰雄主导 IBM 深蓝项目, 击败人类冠军, 引起轰动
搜索融入更多强化学习思想, UCT 与 MCTS 开始在围棋上发挥作用, FueGo 首次 9x9 围棋上击败职业棋手
深度学习与强化学习融合, DQN 自我学习在电子游戏上达到人类水平
阿尔伯塔大学校友 David Silver 与 黄世杰主导开发 AlphaGo, 击败人类冠军
About & Feedback
Vereinbarung
Privatheit
FAQ
Support 24/7
Cabinet
Get premium
Donate
Comments