open-mmlab · MGAMZ · Oct 26, 2025 · Oct 26, 2025 · Copilot · Oct 26, 2025
diff --git a/mmengine/optim/optimizer/amp_optimizer_wrapper.py b/mmengine/optim/optimizer/amp_optimizer_wrapper.py
@@ -1,5 +1,6 @@
 # Copyright (c) OpenMMLab. All rights reserved.
 from contextlib import contextmanager
+from functools import partial
 from typing import Union
 
 import torch
@@ -17,7 +18,8 @@
 elif is_mlu_available():
     from torch.mlu.amp import GradScaler
 else:
-    from torch.cuda.amp import GradScaler
+    from torch.amp import GradScaler as amp_GradScaler
+    GradScaler = partial(amp_GradScaler, device='cuda')
 
 
-    GradScaler = partial(amp_GradScaler, device='cuda')
+    def get_grad_scaler(*args, **kwargs):
+        """Create a torch.amp.GradScaler instance bound to device='cuda'.
+
+        Args:
+            *args: Positional arguments passed to torch.amp.GradScaler.
+            **kwargs: Keyword arguments passed to torch.amp.GradScaler.
+
+        Returns:
+            amp_GradScaler: An instance of torch.amp.GradScaler with device='cuda'.
+        """
+        return amp_GradScaler(*args, device='cuda', **kwargs)
-    GradScaler = partial(amp_GradScaler, device='cuda')
+    def get_grad_scaler(*args, **kwargs):
+        """Create a torch.amp.GradScaler instance bound to device='cuda'.
+
+        Args:
+            *args: Positional arguments passed to torch.amp.GradScaler.
+            **kwargs: Keyword arguments passed to torch.amp.GradScaler.
+
+        Returns:
+            amp_GradScaler: An instance of torch.amp.GradScaler with device='cuda'.
+        """
+        return amp_GradScaler(*args, device='cuda', **kwargs)
 @OPTIM_WRAPPERS.register_module()

diff --git a/tests/test_optim/test_optimizer/test_optimizer_wrapper.py b/tests/test_optim/test_optimizer/test_optimizer_wrapper.py
@@ -1,5 +1,7 @@
 # Copyright (c) OpenMMLab. All rights reserved.
 import os
+from functools import partial
+
 import unittest
 from unittest import TestCase
 from unittest.mock import MagicMock
-from functools import partial
-
-import unittest
-from unittest import TestCase
-from unittest.mock import MagicMock
+import unittest
+from unittest import TestCase
+from unittest.mock import MagicMock
+from functools import partial
-from functools import partial
-
-import unittest
-from unittest import TestCase
-from unittest.mock import MagicMock
+import unittest
+from unittest import TestCase
+from unittest.mock import MagicMock
+from functools import partial
@@ -8,7 +10,8 @@
 import torch.distributed as torch_dist
 import torch.nn as nn
 from parameterized import parameterized
-from torch.cuda.amp import GradScaler
+from torch.amp import GradScaler as amp_GradScaler
+GradScaler = partial(amp_GradScaler, device='cuda')
-GradScaler = partial(amp_GradScaler, device='cuda')
+
+def get_cuda_grad_scaler(*args, **kwargs):
+    """Return a torch.amp.GradScaler instance bound to the 'cuda' device.
+
+    Args:
+        *args: Positional arguments for torch.amp.GradScaler.
+        **kwargs: Keyword arguments for torch.amp.GradScaler.
+
+    Returns:
+        amp_GradScaler: An instance of GradScaler with device='cuda'.
+    """
+    return amp_GradScaler(*args, device='cuda', **kwargs)
-GradScaler = partial(amp_GradScaler, device='cuda')
+
+def get_cuda_grad_scaler(*args, **kwargs):
+    """Return a torch.amp.GradScaler instance bound to the 'cuda' device.
+
+    Args:
+        *args: Positional arguments for torch.amp.GradScaler.
+        **kwargs: Keyword arguments for torch.amp.GradScaler.
+
+    Returns:
+        amp_GradScaler: An instance of GradScaler with device='cuda'.
+    """
+    return amp_GradScaler(*args, device='cuda', **kwargs)
 from torch.nn.parallel.distributed import DistributedDataParallel
 from torch.optim import SGD, Adam, Optimizer
 
@@ -423,13 +426,13 @@ def setUp(self) -> None:
     def test_init(self):
         # Test with default arguments.
         amp_optim_wrapper = AmpOptimWrapper(optimizer=self.optimizer)
-        self.assertIsInstance(amp_optim_wrapper.loss_scaler, GradScaler)
+        self.assertIsInstance(amp_optim_wrapper.loss_scaler, amp_GradScaler)
 
         # Test with dynamic.
         amp_optim_wrapper = AmpOptimWrapper(
             'dynamic', optimizer=self.optimizer)
         self.assertIsNone(amp_optim_wrapper._scale_update_param)
-        self.assertIsInstance(amp_optim_wrapper.loss_scaler, GradScaler)
+        self.assertIsInstance(amp_optim_wrapper.loss_scaler, amp_GradScaler)
 
         # Test with dtype float16
         amp_optim_wrapper = AmpOptimWrapper(
@@ -444,7 +447,7 @@ def test_init(self):
         # Test with dict loss_scale.
         amp_optim_wrapper = AmpOptimWrapper(
             dict(init_scale=1, growth_factor=2), optimizer=self.optimizer)
-        self.assertIsInstance(amp_optim_wrapper.loss_scaler, GradScaler)
+        self.assertIsInstance(amp_optim_wrapper.loss_scaler, amp_GradScaler)
         self.assertIsNone(amp_optim_wrapper._scale_update_param)
         with self.assertRaisesRegex(TypeError,
                                     'loss_scale must be of type float'):