Fixed issue of quantizer_compressed

quic-amitraj · quic-amitraj · commit 1e27fe74077d · 2025-04-08T08:25:04.000Z
Signed-off-by: Amit Raj &lt;quic_amitraj@quicinc.com&gt;
diff --git a/QEfficient/transformers/quantizers/quantizer_compressed_tensors.py b/QEfficient/transformers/quantizers/quantizer_compressed_tensors.py
@@ -130,12 +130,20 @@ def forward(self, x):
 
 class QEffFP8Config(QuantizationConfigMixin):
     def __init__(
-        self, quant_method: str, activation_scheme: str, ignored_layers: List[str] = None, kv_cache_scheme: str = None
+        self,
+        quant_method: str,
+        activation_scheme: str,
+        ignored_layers: List[str] = None,
+        kv_cache_scheme: str = None,
+        run_compressed: bool = True,
     ):
         self.quant_method = quant_method
         self.activation_scheme = activation_scheme
         self.ignored_layers = ignored_layers
         self.kv_cache_scheme = kv_cache_scheme
+        self.run_compressed = run_compressed
+        self.quantization_config = None
+        self.sparsity_config = None
         if kv_cache_scheme:
             logger.warning(
                 f"kv_cache_scheme={kv_cache_scheme} will be ignored please use `mxint8_kv_cache=True` during compile call if you want to keep kv cache in int8 at runtime on Cloud AI 100"
@@ -156,7 +164,7 @@ def __init__(self, quantization_config, **kwargs):
             raise TypeError(f"Only {QEffFP8Config} is supported for initialization got {type(quantization_config)}")
 
         self.quantization_config = quantization_config
-
+        self.run_compressed = quantization_config.run_compressed
         # -- Handle extra kwargs below --
         self.modules_to_not_convert = kwargs.pop("modules_to_not_convert", [])
         self.modules_to_not_convert = list(
@@ -216,6 +224,7 @@ def __init__(
         ignore=None,
         sparsity_config=None,
         quant_method="compressed-tensors",
+        run_compressed: bool = True,
         **kwargs,
     ):
         self.config_groups = config_groups
@@ -226,6 +235,10 @@ def __init__(
         self.global_compression_ratio = global_compression_ratio
         self.ignore = ignore
 
+        self.quantization_config = None
+        self.sparsity_config = None
+
+        self.run_compressed = run_compressed
         # Validate configuration
         if len(self.config_groups) != 1:
             raise NotImplementedError(
@@ -318,7 +331,7 @@ def __init__(self, quantization_config, **kwargs):
             raise TypeError(
                 f"Only {QEffCompressedTensorsConfig} is supported for initialization got {type(quantization_config)}"
             )
-
+        self.run_compressed = quantization_config.run_compressed
         self.quantization_config = quantization_config
 
         # -- Handle extra kwargs below --