PufferAI · kywch · Aug 13, 2025
diff --git a/pufferlib/config/mujoco.ini b/pufferlib/config/mujoco.ini
@@ -10,10 +10,10 @@ render_mode = rgb_array
 [vec]
 num_envs = 512
 num_workers = 16
-batch_size = auto
 
 [train]
 total_timesteps = 5_000_000
+batch_size = auto
 learning_rate = 3e-4
 gamma = 0.99
 gae_lambda = 0.95
@@ -24,6 +24,5 @@ vf_clip_coef = 0.2
 max_grad_norm = 0.5
 ent_coef = 0.0
 checkpoint_interval = 200
-batch_size = 32768
 minibatch_size = 4096
 bptt_horizon = 64
diff --git a/pufferlib/environments/mujoco/environment.py b/pufferlib/environments/mujoco/environment.py
@@ -11,21 +11,15 @@
 import pufferlib.environments
 
 
-def single_env_creator(env_name, capture_video, gamma,
+def single_env_creator(env_name, gamma,
         run_name=None, idx=None, obs_norm=True, pufferl=False, render_mode='rgb_array', buf=None, seed=0):
-    if capture_video and idx == 0:
-        assert run_name is not None, "run_name must be specified when capturing videos"
-        env = gymnasium.make(env_name, render_mode="rgb_array")
-        env = gymnasium.wrappers.RecordVideo(env, f"videos/{run_name}")
-    else:
-        env = gymnasium.make(env_name, render_mode=render_mode)
-
+    env = gymnasium.make(env_name, render_mode=render_mode)
     env = pufferlib.ClipAction(env)  # NOTE: this changed actions space
     env = pufferlib.EpisodeStats(env)
 
     if obs_norm:
         env = gymnasium.wrappers.NormalizeObservation(env)
-        env = gymnasium.wrappers.TransformObservation(env, lambda obs: np.clip(obs, -10, 10), env.observation_space)
+        env = gymnasium.wrappers.TransformObservation(env, lambda obs: np.clip(obs, -10, 10))
 
     env = gymnasium.wrappers.NormalizeReward(env, gamma=gamma)
     env = gymnasium.wrappers.TransformReward(env, lambda reward: np.clip(reward, -10, 10))
@@ -36,11 +30,10 @@ def single_env_creator(env_name, capture_video, gamma,
     return env
 
 
-def cleanrl_env_creator(env_name, run_name, capture_video, gamma, idx):
+def cleanrl_env_creator(env_name, run_name, gamma, idx):
     kwargs = {
         "env_name": env_name,
         "run_name": run_name,
-        "capture_video": capture_video,
         "gamma": gamma,
         "idx": idx,
         "pufferl": False,
@@ -52,7 +45,6 @@ def cleanrl_env_creator(env_name, run_name, capture_video, gamma, idx):
 def env_creator(env_name="HalfCheetah-v4", gamma=0.99):
     default_kwargs = {
         "env_name": env_name,
-        "capture_video": False,
         "gamma": gamma,
         "pufferl": True,
     }

diff --git a/pyproject.toml b/pyproject.toml
@@ -149,8 +149,7 @@ minihack =  [
 ]
 
 mujoco = [
-    'gymnasium[mujoco]==1.0.0',
-    'moviepy',
+    'gymnasium[mujoco]==0.29.1',
 ]
 
 nethack = [