33
/fr/
AIzaSyB4mHJ5NPEv-XzF7P6NDYXjlkCWaeKw5bc
November 1, 2025
Create a timeline
Public Timelines
For education
For educational institutions
For teachers
For students
Cabinet
For educational institutions
For teachers
For students
Open cabinet
FAQ
Obtenir le Premium
Close
Create a timeline
Public timelines
FAQ
About & Feedback
Un accord
Confidentialité
FAQ
Support 24/7
Cabinet
Get premium
Donate
Télécharger
Export
Créer une copie
Premium
Intégrer dans le site Web
Share
RL timeline
Category:
Histoire
mise à jour avec succès:
il y a 16 h
0
0
16
Auteurs
Created by
shupei
Attachments
Comments
Les événements
基于搜索技术, Johathan Schaeffer 教授主导开发的 Chinook 程序击败人类冠军
基于搜索技术, Johathan Schaeffer 教授终于在 2007 年完美 Solve 西洋跳棋, 论文发表当年 Science 杂志
Cepheus 程序实现单挑无限注德州扑克突破人类水平, 基于强化学习与数学最优策略
DeepStack 在单挑无限注德州扑克突破人类冠军水平
Chain-of-Thought 为开创大模型能力提升新范式
图灵奖的启示, 大模型训练发展进入瓶颈, 亟需 RL 实现从经验中学习
Périodes
Tesauro 依靠 “少量搜索” + “神经网络”, 利用 Sutton 教授的 TD-Learning 算法实现自我博弈达到西洋双陆棋大师水平
基于搜索技术, 阿尔伯塔大学校友 Murray Campbell 与许峰雄主导 IBM 深蓝项目, 击败人类冠军, 引起轰动
搜索融入更多强化学习思想, UCT 与 MCTS 开始在围棋上发挥作用, FueGo 首次 9x9 围棋上击败职业棋手
深度学习与强化学习融合, DQN 自我学习在电子游戏上达到人类水平
阿尔伯塔大学校友 David Silver 与 黄世杰主导开发 AlphaGo, 击败人类冠军
About & Feedback
Un accord
Confidentialité
FAQ
Support 24/7
Cabinet
Get premium
Donate
Comments