revert

harshbhatt7585 · harshbhatt7585 · commit 99fb97262151 · 2025-09-18T10:54:53.000-07:00
diff --git a/pufferlib/environments/metta/environment.py b/pufferlib/environments/metta/environment.py
@@ -71,4 +71,5 @@ def __init__(self, env_cfg, render_mode='human', buf=None, seed=0):
             env_cfg=env_cfg,
             render_mode=render_mode,
             replay_writer=self.replay_writer,
+            is_training=True,  # Enable training mode for desync_episodes
         )
diff --git a/pufferlib/pufferl.py b/pufferlib/pufferl.py
@@ -279,8 +279,8 @@ def evaluate(self):
                 logits, value = self.policy.forward_eval(o_device, state)
                 action, logprob, _ = pufferlib.pytorch.sample_logits(logits)
                 # Skip reward clipping for Metta environments to preserve multi-agent reward signals
-                if not self._is_metta_env():
-                    r = torch.clamp(r, -1, 1)
+                # if not self._is_metta_env():
+                #     r = torch.clamp(r, -1, 1)
 
             profile('eval_copy', epoch)
             with torch.no_grad():

Original file line number	Diff line number	Diff line change
`@@ -71,4 +71,5 @@ def __init__(self, env_cfg, render_mode='human', buf=None, seed=0):`
`71`	`71`	`env_cfg=env_cfg,`
`72`	`72`	`render_mode=render_mode,`
`73`	`73`	`replay_writer=self.replay_writer,`
	`74`	`+ is_training=True, # Enable training mode for desync_episodes`
`74`	`75`	`)`