Delete probability normalization in play_action for actor critic.

peterparser · peterparser · commit ed1398028dc1 · 2020-07-15T14:50:25.000+02:00
Renamed main.py
diff --git a/README.md b/README.md
@@ -20,23 +20,23 @@ or download the zip from github and extract  it.
 
 If you want to train a simple DQN model just use "--train"
 ```commandline
-python my_main.py --train
+python main.py --train
 ```
 
 to use Prioritized experience replay:
 ```commandline
-python my_main.py --train --per
+python main.py --train --per
 ```
 
 to use actor critic instead of dqn:
 ```commandline
-python my_main.py --train --ac
+python main.py --train --ac
 ```
 
 If you want to test a model:
 
 ```commandline
-python my_main.py --test --model model_file
+python main.py --test --model model_file
 ```
 
 
diff --git a/agents.py b/agents.py
@@ -84,8 +84,7 @@ def __init__(self, hidden_layers_actor, hidden_layers_critic, state_spec, action
     # Playing action by following the policy (output of the actor network)
     def play_action(self, state):
         probabilities = self.actor_network(np.atleast_2d(state))
-        selection_probabilities = probabilities[0] / np.sum(probabilities[0])
-        action = np.random.choice(self.actor_network.output_shape[1], p=selection_probabilities)
+        action = np.random.choice(self.actor_network.output_shape[1], p=probabilities[0])
         return action
 
     def play_and_train(self, state, env, gamma):
diff --git a/main.py b/main.py