data-and-decision-lab
diff --git a/‎examples/mujoco/a2c_torch.py
Lines changed: 7 additions & 1 deletion b/‎examples/mujoco/a2c_torch.py
Lines changed: 7 additions & 1 deletion
diff --git a/‎examples/mujoco/lstm_a2c_torch.py
Lines changed: 15 additions & 3 deletions b/‎examples/mujoco/lstm_a2c_torch.py
Lines changed: 15 additions & 3 deletions
diff --git a/‎examples/mujoco/lstm_ppo_torch.py
Lines changed: 22 additions & 10 deletions b/‎examples/mujoco/lstm_ppo_torch.py
Lines changed: 22 additions & 10 deletions
diff --git a/‎examples/mujoco/ppo_torch.py
Lines changed: 19 additions & 5 deletions b/‎examples/mujoco/ppo_torch.py
Lines changed: 19 additions & 5 deletions
diff --git a/‎model_train.py
Lines changed: 0 additions & 152 deletions b/‎model_train.py
Lines changed: 0 additions & 152 deletions
diff --git a/‎modular_baselines/algorithms/a2c/a2c.py
Lines changed: 36 additions & 2 deletions b/‎modular_baselines/algorithms/a2c/a2c.py
Lines changed: 36 additions & 2 deletions
@@ -24,12 +24,18 @@ def a2c_setup(env_name: str, config: Dict[str, Any], experiment_name, device: st
         lr=LinearAnnealing(3e-4, 0.0, 5_000_000 // (8 * 16)),
         max_grad_norm=1.0,
         normalize_advantage=True,
+        use_vec_normalization=True,
+        vec_norm_info={
+            "norm_reward": True,
+            "norm_obs": True,
+            "clip_obs": 1e5,
+            "clip_reward": 1e5,
+        },
     ),
     name="default",
     n_envs=16,
     total_timesteps=5_000_000,
     log_interval=256,
-    use_vec_normalization=True,
     record_video=False,
     seed=np.random.randint(2**10, 2**30),
 )
 
@@ -23,16 +23,28 @@ def a2c_setup(env_name: str, config: Dict[str, Any], seed: int):
         lr=LinearAnnealing(3e-4, 0.0, 5_000_000 // (8 * 16)),
         max_grad_norm=1.0,
         normalize_advantage=True,
+        use_vec_normalization=True,
+        vec_norm_info={
+            "norm_reward": True,
+            "norm_obs": True,
+            "clip_obs": 1e5,
+            "clip_reward": 1e5,
+        },
     ),
     n_envs=16,
     total_timesteps=5_000_000,
     log_interval=256,
-    device="cpu",
+    record_video=False,
+    seed=np.random.randint(2**10, 2**30),
 )
 
 if __name__ == "__main__":
     parser = ArgumentParser("LSTM A2C Mujoco")
     add_arguments(parser)
     cli_args = parser.parse_args()
-    parallel_run(a2c_setup, lstm_a2c_mujoco_config, n_procs=cli_args.n_procs,
-                 env_names=cli_args.env_names, n_seeds=cli_args.n_seeds)
+    parallel_run(a2c_setup,
+                 lstm_a2c_mujoco_config,
+                 n_procs=cli_args.n_procs,
+                 env_names=cli_args.env_names,
+                 experiment_name=cli_args.experiment_name,
+                 cuda_devices=cli_args.cuda_devices)
@@ -1,6 +1,7 @@
 from typing import Any, Dict
 from argparse import ArgumentParser
 import multiprocessing as mp
+import numpy as np
 
 from modular_baselines.algorithms.ppo.ppo import LstmPPO, LstmPPOArgs
 from modular_baselines.algorithms.ppo.torch_lstm_agent import TorchLstmPPOAgent
@@ -10,11 +11,11 @@
 from torch_setup import MujocoTorchConfig, setup, parallel_run, add_arguments
 
 
-def lstm_ppo_setup(experiment_name: str, env_name: str, config: MujocoTorchConfig, seed: int, device:str):
-    return setup(LstmPPO, TorchLstmPPOAgent, LSTMSeparateNetwork, experiment_name, env_name, config, seed, device)
+def lstm_ppo_setup(env_name: str, config: Dict[str, Any], experiment_name: str, device: str):
+    return setup(LstmPPO, TorchLstmPPOAgent, LSTMSeparateNetwork, experiment_name, env_name, config, device)
 
 
-lstm_ppo_mujoco_config = [MujocoTorchConfig(
+lstm_ppo_mujoco_config = MujocoTorchConfig(
     args=LstmPPOArgs(
         rollout_len=2048,
         ent_coef=1e-4,
@@ -24,23 +25,34 @@ def lstm_ppo_setup(experiment_name: str, env_name: str, config: MujocoTorchConfi
         epochs=10,
         lr=LinearAnnealing(3e-4, 0.0, 5_000_000 // (2048 * 16)),
         clip_value=LinearAnnealing(0.2, 0.2, 5_000_000 // (2048 * 16)),
-        batch_size=64 // n_step,
+        batch_size=64 // 16,
         max_grad_norm=1.0,
         normalize_advantage=True,
-        mini_rollout_size=n_step,
+        mini_rollout_size=16,
         use_sampled_hidden=False,
+        use_vec_normalization=True,
+        vec_norm_info={
+            "norm_reward": True,
+            "norm_obs": True,
+            "clip_obs": 1e5,
+            "clip_reward": 1e5,
+        },
     ),
-    name=f"{n_step}_step",
+    name=f"default_{16}_step",
     n_envs=16,
     total_timesteps=5_000_000,
     log_interval=1,
-) for n_step in (1, 2, 4, 8, 16, 32, 64)]
+    record_video=False,
+    seed=np.random.randint(2**10, 2**30))
 
 if __name__ == "__main__":
     mp.set_start_method("spawn")
     parser = ArgumentParser("PPO Mujoco")
     add_arguments(parser)
     cli_args = parser.parse_args()
-    parallel_run(lstm_ppo_setup, lstm_ppo_mujoco_config, n_procs=cli_args.n_procs,
-                 env_names=cli_args.env_names, experiment_name=cli_args.experiment_name,
-                 n_seeds=cli_args.n_seeds, cuda_devices=cli_args.cuda_devices)
+    parallel_run(lstm_ppo_setup,
+                 lstm_ppo_mujoco_config,
+                 n_procs=cli_args.n_procs,
+                 env_names=cli_args.env_names,
+                 experiment_name=cli_args.experiment_name,
+                 cuda_devices=cli_args.cuda_devices)
@@ -1,5 +1,6 @@
 from typing import Any, Dict
 from argparse import ArgumentParser
+import numpy as np
 
 from modular_baselines.algorithms.ppo.ppo import PPO, PPOArgs
 from modular_baselines.algorithms.ppo.torch_agent import TorchPPOAgent
@@ -9,8 +10,8 @@
 from torch_setup import MujocoTorchConfig, setup, parallel_run, add_arguments
 
 
-def ppo_setup(env_name: str, config: Dict[str, Any], seed: int):
-    return setup(PPO, TorchPPOAgent, SeparateFeatureNetwork, env_name, config, seed)
+def ppo_setup(env_name: str, config: Dict[str, Any], experiment_name: str, device: str):
+    return setup(PPO, TorchPPOAgent, SeparateFeatureNetwork, experiment_name, env_name, config, device)
 
 
 ppo_mujoco_config = MujocoTorchConfig(
@@ -26,16 +27,29 @@ def ppo_setup(env_name: str, config: Dict[str, Any], seed: int):
         batch_size=64,
         max_grad_norm=1.0,
         normalize_advantage=True,
+        use_vec_normalization=True,
+        vec_norm_info={
+            "norm_reward": True,
+            "norm_obs": True,
+            "clip_obs": 1e5,
+            "clip_reward": 1e5,
+        },
     ),
     n_envs=16,
+    name="default",
     total_timesteps=5_000_000,
     log_interval=1,
-    device="cpu",
+    record_video=False,
+    seed=np.random.randint(2**10, 2**30),
 )
 
 if __name__ == "__main__":
     parser = ArgumentParser("PPO Mujoco")
     add_arguments(parser)
     cli_args = parser.parse_args()
-    parallel_run(ppo_setup, ppo_mujoco_config, n_procs=cli_args.n_procs,
-                 env_names=cli_args.env_names, n_seeds=cli_args.n_seeds)
+    parallel_run(ppo_setup,
+                 ppo_mujoco_config,
+                 n_procs=cli_args.n_procs,
+                 env_names=cli_args.env_names,
+                 experiment_name=cli_args.experiment_name,
+                 cuda_devices=cli_args.cuda_devices)
@@ -24,6 +24,8 @@ class A2CArgs():
     lr: Coefficient
     max_grad_norm: float
     normalize_advantage: bool
+    use_vec_normalization: bool
+    vec_norm_info: Dict[str, Union[float, bool, int, str]]
 
 
 class A2C(OnPolicyAlgorithm):
@@ -104,15 +106,31 @@ def setup(env: VecEnv,
         """
         observation_space, action_space, action_dim = A2C._setup(env)
 
+        normalizer_struct = []
+        if args.use_vec_normalization:
+            normalizer_struct = [
+                ("reward_rms_var", np.float32, (1,)),
+                ("obs_rms_mean", np.float32, observation_space.shape),
+                ("obs_rms_var", np.float32, observation_space.shape),
+                ("next_obs_rms_mean", np.float32, observation_space.shape),
+                ("next_obs_rms_var", np.float32, observation_space.shape),
+            ]
         struct = np.dtype([
             ("observation", np.float32, observation_space.shape),
             ("next_observation", np.float32, observation_space.shape),
             ("action", action_space.dtype, (action_dim,)),
             ("reward", np.float32, (1,)),
             ("termination", np.float32, (1,)),
+            *normalizer_struct
         ])
         buffer = Buffer(struct, args.rollout_len, env.num_envs, data_logger, buffer_callbacks)
-        collector = RolloutCollector(env, buffer, agent, data_logger, collector_callbacks)
+        collector = RolloutCollector(
+            env=env,
+            buffer=buffer,
+            agent=agent,
+            logger=data_logger,
+            store_normalizer_stats=args.use_vec_normalization,
+            callbacks=collector_callbacks)
         return A2C(
             agent=agent,
             collector=collector,
@@ -153,6 +171,15 @@ def setup(env: VecEnv,
         """
         observation_space, action_space, action_dim = A2C._setup(env)
 
+        normalizer_struct = []
+        if args.use_vec_normalization:
+            normalizer_struct = [
+                ("reward_rms_var", np.float32, (1,)),
+                ("obs_rms_mean", np.float32, observation_space.shape),
+                ("obs_rms_var", np.float32, observation_space.shape),
+                ("next_obs_rms_mean", np.float32, observation_space.shape),
+                ("next_obs_rms_var", np.float32, observation_space.shape),
+            ]
         struct = np.dtype([
             ("observation", np.float32, observation_space.shape),
             ("next_observation", np.float32, observation_space.shape),
@@ -166,7 +193,14 @@ def setup(env: VecEnv,
         ])
 
         buffer = Buffer(struct, args.rollout_len, env.num_envs, data_logger, buffer_callbacks)
-        collector = RecurrentRolloutCollector(env, buffer, agent, data_logger, collector_callbacks)
+        collector = RecurrentRolloutCollector(
+            env=env,
+            buffer=buffer,
+            agent=agent,
+            logger=data_logger,
+            store_normalizer_stats=args.use_vec_normalization,
+            callbacks=collector_callbacks
+        )
         return LstmA2C(
             agent=agent,
             collector=collector,