Contents1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 What is Deep Reinforcement Learning? . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Three Machine Learning Paradigms . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3 Overview of the Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 Tabular Value-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.1 Sequential Decision Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Tabular Value-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.3 Classic Gym Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603 Approximating the Value Function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.1 Large, High-Dimensional, Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.2 Deep Value-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.3 Atari 2600 Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874 Policy-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894.1 Continuous Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.2 Policy-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.3 Locomotion and Visuo-Motor Environments . . . . . . . . . . . . . . . . . . . . 1114.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1154.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1165 Model-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1195.1 Dynamics Models of High-Dimensional Problems . . . . . . . . . . . . . . . 1225.2 Learning and Planning Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.3 High-dimensional Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1365.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142viiviii CONTENTS5.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1446 Two-Agent Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1476.1 Two-Agent Zero-Sum Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1506.2 Tabula Rasa Self-Play Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1566.3 Self-Play Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1786.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1866.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1887 Multi-Agent Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1917.1 Multi-Agent Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1937.2 Multi-Agent Reinforcement Learning Agents . . . . . . . . . . . . . . . . . . . . 2027.3 Multi-Agent Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2147.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2217.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2238 Hierarchical Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 2258.1 Granularity of the Structure of Problems . . . . . . . . . . . . . . . . . . . . . . . 2278.2 Divide and Conquer for Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2298.3 Hierarchical Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2358.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2408.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2419 Meta Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2439.1 Learning to Learn Related Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2469.2 Transfer Learning and Meta Learning Agents . . . . . . . . . . . . . . . . . . . 2479.3 Meta-Learning Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2619.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2679.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26810 Further Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27110.1 Developments in Deep Reinforcement Learning . . . . . . . . . . . . . . . . . 27110.2 Main Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27410.3 The Future of Articial Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279A Deep Reinforcement Learning Suites . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283A.1 Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284A.2 Agent Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285A.3 Deep Learning Suites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286B Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287B.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287B.2 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294B.3 Datasets and Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311CONTENTS ixC Mathematical Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323C.1 Sets and Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323C.2 Probability Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326C.3 Derivative of an Expectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334C.4 Bellman Equations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381x CONTENTSContents1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 What is Deep Reinforcement Learning? . . . . . . . . . . . . . . . . . . . . . . . . 11.1.1 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.2 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.3 Deep Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.1.5 Four Related Fields . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1.5.1 Psychology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.1.5.2 Mathematics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.1.5.3 Engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.1.5.4 Biology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2 Three Machine Learning Paradigms . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.2.1 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.2.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.2.3 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.3 Overview of the Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3.1 Prerequisite Knowledge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.3.2 Structure of the Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 Tabular Value-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.1 Sequential Decision Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Tabular Value-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2.1 Agent and Environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2.2 Markov Decision Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.2.2.1 State ( . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.2.2.2 Action . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.2.2.3 Transition )0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2.2.4 Reward '0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.2.2.5 Discount Factor W . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.2.2.6 Policy Function c . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.2.3 MDP Objective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34xixii Contents2.2.3.1 Trace g . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.2.3.2 State Value + . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.2.3.3 State-Action Value & . . . . . . . . . . . . . . . . . . . . . . . . . . 372.2.3.4 Reinforcement Learning Objective . . . . . . . . . . . . . . 382.2.3.5 Bellman Equation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.2.4 MDP Solution Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.2.4.1 Hands On: Value Iteration in Gym . . . . . . . . . . . . . . . 412.2.4.2 Model-Free Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 442.2.4.3 Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472.2.4.4 O-Policy Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 492.2.4.5 Hands On: Q-learning on Taxi . . . . . . . . . . . . . . . . . . 522.3 Classic Gym Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552.3.1 Mountain Car and Cartpole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552.3.2 Path Planning and Board Games . . . . . . . . . . . . . . . . . . . . . . . . 562.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603 Approximating the Value Function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.1 Large, High-Dimensional, Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.1.1 Atari Arcade Games . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.1.2 Real-Time Strategy and Video Games . . . . . . . . . . . . . . . . . . . . 683.2 Deep Value-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.2.1 Generalization of Large Problem with Deep Learning . . . . . 693.2.1.1 Minimizing Supervised Target Loss . . . . . . . . . . . . . 693.2.1.2 Bootstrapping Q-Values . . . . . . . . . . . . . . . . . . . . . . . 703.2.1.3 Deep Reinforcement Learning Target-Error . . . . . 713.2.2 Three Problems: Coverage, Correlation, Convergence . . . . . 723.2.2.1 Coverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723.2.2.2 Correlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723.2.2.3 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733.2.3 Stable Deep Value-Based Learning . . . . . . . . . . . . . . . . . . . . . . 743.2.3.1 Decorrelating States . . . . . . . . . . . . . . . . . . . . . . . . . . . 753.2.3.2 Infrequent Updates of Target Weights . . . . . . . . . . . 763.2.3.3 Hands On: DQN and Breakout Gym Example . . . . . 763.2.4 Improving Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803.2.4.1 Overestimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 813.2.4.2 Distributional Methods . . . . . . . . . . . . . . . . . . . . . . . . 833.3 Atari 2600 Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833.3.1 Network Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 843.3.2 Benchmarking Atari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 853.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87Contents xiii4 Policy-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894.1 Continuous Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.1.1 Continuous Policies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.1.2 Stochastic Policies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.1.3 Environments: Gym and MuJoCo . . . . . . . . . . . . . . . . . . . . . . . 924.1.3.1 Robotics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.1.3.2 Physics Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.1.3.3 Games . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.2 Policy-Based Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.2.1 Policy-Based Algorithm: REINFORCE . . . . . . . . . . . . . . . . . . . 954.2.2 Bias-Variance trade-o in Policy-Based Methods . . . . . . . . . 984.2.3 Actor Critic Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 994.2.4 Baseline Subtraction with Advantage Function . . . . . . . . . . . 1014.2.5 Trust Region Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1044.2.6 Entropy and Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.2.7 Deterministic Policy Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . 1074.2.8 Hands On: PPO and DDPG MuJoCo Examples . . . . . . . . . . . . . 1104.3 Locomotion and Visuo-Motor Environments . . . . . . . . . . . . . . . . . . . . 1114.3.1 Locomotion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1114.3.2 Visuo-Motor Interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1134.3.3 Benchmarking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1144.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1154.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1165 Model-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1195.1 Dynamics Models of High-Dimensional Problems . . . . . . . . . . . . . . . 1225.2 Learning and Planning Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.2.1 Learning the Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1285.2.1.1 Modeling Uncertainty . . . . . . . . . . . . . . . . . . . . . . . . . 1285.2.1.2 Latent Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1295.2.2 Planning with the Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1315.2.2.1 Trajectory Rollouts and Model-Predictive Control 1325.2.2.2 End-to-end Learning and Planning-by-Network . 1335.3 High-dimensional Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1365.3.1 Overview of Model-Based Experiments . . . . . . . . . . . . . . . . . . 1375.3.2 Small Navigation Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1385.3.3 Robotic Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1395.3.4 Games Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1395.3.5 Hands On: PlaNet Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1415.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1425.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144xiv Contents6 Two-Agent Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1476.1 Two-Agent Zero-Sum Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1506.1.1 The Diculty of Playing Go . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1526.1.2 AlphaGo Achievements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1556.2 Tabula Rasa Self-Play Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1566.2.1 Move-Level Self Play . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1606.2.1.1 Minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1616.2.1.2 Monte Carlo Tree Search . . . . . . . . . . . . . . . . . . . . . . 1646.2.2 Example-Level Self Play . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1716.2.2.1 Policy and Value Network . . . . . . . . . . . . . . . . . . . . . 1726.2.2.2 Stability and Exploration . . . . . . . . . . . . . . . . . . . . . . 1726.2.3 Tournament-Level Self Play . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1746.2.3.1 Self-Play Curriculum Learning . . . . . . . . . . . . . . . . . 1756.2.3.2 Supervised Curriculum Learning . . . . . . . . . . . . . . . 1756.3 Self-Play Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1786.3.1 How to Design a World Class Go Program? . . . . . . . . . . . . . . 1786.3.2 AlphaGo Zero Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1806.3.3 AlphaZero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1816.3.4 Open Self-Play Frameworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1836.3.5 Hands On: Hex in Polygames Example . . . . . . . . . . . . . . . . . . . . 1846.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1866.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1887 Multi-Agent Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1917.1 Multi-Agent Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1937.1.1 Competitive Behavior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1967.1.2 Cooperative Behavior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1977.1.3 Mixed Behavior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1987.1.4 Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2007.1.4.1 Partial Observability . . . . . . . . . . . . . . . . . . . . . . . . . . 2017.1.4.2 Nonstationary Environments . . . . . . . . . . . . . . . . . . 2017.1.4.3 Large State Space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2027.2 Multi-Agent Reinforcement Learning Agents . . . . . . . . . . . . . . . . . . . . 2027.2.1 Competitive Behavior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2037.2.1.1 Counterfactual Regret Minimization . . . . . . . . . . . . 2037.2.1.2 Deep Counterfactual Regret Minimization . . . . . . . 2047.2.2 Cooperative Behavior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2067.2.2.1 Centralized Training/Decentralized Execution . . . 2067.2.2.2 Opponent Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . 2077.2.2.3 Communication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2087.2.2.4 Psychology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2087.2.3 Mixed Behavior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2097.2.3.1 Evolutionary Algorithms . . . . . . . . . . . . . . . . . . . . . . 2097.2.3.2 Swarm Computing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2117.2.3.3 Population-Based Training . . . . . . . . . . . . . . . . . . . . . 212Contents xv7.2.3.4 Self-Play Leagues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2137.3 Multi-Agent Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2147.3.1 Competitive Behavior: Poker . . . . . . . . . . . . . . . . . . . . . . . . . . . 2147.3.2 Cooperative Behavior: Hide and Seek. . . . . . . . . . . . . . . . . . . . 2167.3.3 Mixed Behavior: Capture the Flag and StarCraft . . . . . . . . . . 2187.3.4 Hands On: Hide and Seek in the Gym Example . . . . . . . . . . . . 2207.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2217.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2238 Hierarchical Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 2258.1 Granularity of the Structure of Problems . . . . . . . . . . . . . . . . . . . . . . . 2278.1.1 Advantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2278.1.2 Disadvantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2288.2 Divide and Conquer for Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2298.2.1 The Options Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2298.2.2 Finding Subgoals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2318.2.3 Overview of Hierarchical Algorithms . . . . . . . . . . . . . . . . . . . . 2318.2.3.1 Tabular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2328.2.3.2 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2328.3 Hierarchical Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2358.3.1 Four Rooms and Robot Tasks . . . . . . . . . . . . . . . . . . . . . . . . . . . 2358.3.2 Montezuma’s Revenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2368.3.3 Multi-Agent Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2388.3.4 Hands On: Hierarchical Actor Citic Example . . . . . . . . . . . . . . 2388.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2408.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2419 Meta Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2439.1 Learning to Learn Related Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2469.2 Transfer Learning and Meta Learning Agents . . . . . . . . . . . . . . . . . . . 2479.2.1 Transfer Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2489.2.1.1 Task Similarity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2489.2.1.2 Pretraining and Finetuning . . . . . . . . . . . . . . . . . . . . 2499.2.1.3 Hands-on: Pretraining Example . . . . . . . . . . . . . . . . . 2499.2.1.4 Multi-task learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2509.2.1.5 Domain Adaptation . . . . . . . . . . . . . . . . . . . . . . . . . . . 2519.2.2 Meta Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2539.2.2.1 Evaluating Few-Shot Learning Problems . . . . . . . . 2539.2.2.2 Deep Meta Learning Algorithms . . . . . . . . . . . . . . . 2549.2.2.3 Recurrent Meta Learning . . . . . . . . . . . . . . . . . . . . . . 2569.2.2.4 Model-Agnostic Meta Learning . . . . . . . . . . . . . . . . . 2579.2.2.5 Hyperparameter Optimization . . . . . . . . . . . . . . . . . 2599.2.2.6 Meta Learning and Curriculum Learning . . . . . . . . 2609.2.2.7 From Few-Shot to Zero-Shot Learning . . . . . . . . . . 2609.3 Meta-Learning Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261xvi Contents9.3.1 Image Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2629.3.2 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . 2639.3.3 Meta Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2639.3.4 Meta World . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2649.3.5 Alchemy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2659.3.6 Hands-on: Meta World Example . . . . . . . . . . . . . . . . . . . . . . . . . 2669.4 Summary and Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2679.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26810 Further Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27110.1 Developments in Deep Reinforcement Learning . . . . . . . . . . . . . . . . . 27110.1.1 Tabular and Single-Agent Methods . . . . . . . . . . . . . . . . . . . . . . 27210.1.2 Deep Learning Model-Free Methods . . . . . . . . . . . . . . . . . . . . . 27210.1.3 Multi-Agent and Imperfect Information . . . . . . . . . . . . . . . . . . 27210.1.4 A Framework for Learning by Doing . . . . . . . . . . . . . . . . . . . . 27310.2 Main Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27410.2.1 Latent Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27510.2.2 Self Play . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27510.2.3 Hierarchical Reinforcement Learning . . . . . . . . . . . . . . . . . . . . 27510.2.4 Transfer Learning and Meta Learning . . . . . . . . . . . . . . . . . . . 27610.2.5 Population-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27610.2.6 Exploration and Intrinsic Motivation . . . . . . . . . . . . . . . . . . . . 27710.2.7 Explainable AI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27810.2.8 Generalization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27810.3 The Future of Articial Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279A Deep Reinforcement Learning Suites . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283A.1 Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284A.2 Agent Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285A.3 Deep Learning Suites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286B Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287B.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287B.1.1 Training Set and Test Set . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288B.1.2 Curse of Dimensionality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289B.1.3 Overtting and the Bias-Variance Trade-O . . . . . . . . . . . . . . 290B.2 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294B.2.1 Weights, Neurons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294B.2.2 Backpropagation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295B.2.3 End-to-end Feature Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 297B.2.4 Convolutional Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300B.2.5 Recurrent Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303B.2.6 More Network Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . 305B.2.7 Overtting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310B.3 Datasets and Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311Contents xviiB.3.1 Keras, TensorFlow, PyTorch . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312B.3.2 MNIST and ImageNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313B.3.3 GPU Implementations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315B.3.4 Hands On: Classication Example . . . . . . . . . . . . . . . . . . . . . . . . 316B.3.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319C Mathematical Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323C.1 Sets and Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323C.1.1 Sets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323C.1.2 Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325C.2 Probability Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326C.2.1 Discrete Probability Distributions . . . . . . . . . . . . . . . . . . . . . . . 326C.2.2 Continuous Probability Distributions . . . . . . . . . . . . . . . . . . . . 327C.2.3 Conditional Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329C.2.4 Expectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330C.2.4.1 Expectation of a Random Variable . . . . . . . . . . . . . . 330C.2.4.2 Expectation of a Function of a Random Variable . 331C.2.5 Information Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332C.2.5.1 Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332C.2.5.2 Entropy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332C.2.5.3 Cross-entropy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333C.2.5.4 Kullback-Leibler Divergence . . . . . . . . . . . . . . . . . . . 333C.3 Derivative of an Expectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334C.4 Bellman Equations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337Tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381

Deep Reinforcement Learning Aske Plaat

Deep Reinforcement Learning by Aske Plaat

Summary

Deep Reinforcement Learning Summary

Deep Reinforcement Learning by Aske Plaat

About Aske Plaat

Table of Contents

Additional information

Customer Reviews - Deep Reinforcement Learning