reinforcement-learning

Epsilon-greedy
Gradient bandit
Markov decision processes; Bellman equation; Iterative policy evaluation
Monte carlo control; Epsilon-soft
Optimistic initial values; Policy iteration
Importance sampling; Off-policy MC prediction; One-step temporal difference prediction