From b153765fedf40817d801ea40093b7eb79801c4bf Mon Sep 17 00:00:00 2001
From: "Lin, Fanli" <fanli.lin@intel.com>
Date: Fri, 17 Jan 2025 04:28:26 -0800
Subject: [PATCH 1/2] fix quality issue

---
 tests/test_quantization.py | 9 +++------
 1 file changed, 3 insertions(+), 6 deletions(-)

diff --git a/tests/test_quantization.py b/tests/test_quantization.py
index 85b97b7f3a8..66fbc13496d 100644
--- a/tests/test_quantization.py
+++ b/tests/test_quantization.py
@@ -377,9 +377,8 @@ def test_int8_serialization(self):
         r"""
         Test whether it is possible to serialize a model in 8-bit.
         """
-        from transformers import AutoConfig, AutoModelForCausalLM
-
         from bitsandbytes.nn import Int8Params
+        from transformers import AutoConfig, AutoModelForCausalLM
 
         with tempfile.TemporaryDirectory() as tmpdirname:
             # saving state dict for now but will save config and other in the future
@@ -411,10 +410,9 @@ def test_int8_serialization_offload(self):
         r"""
         Test whether it is possible to serialize a model in 8-bit and offload weights to cpu/disk
         """
-
+        from bitsandbytes.nn import Int8Params
         from transformers import AutoConfig, AutoModelForCausalLM
 
-        from bitsandbytes.nn import Int8Params
 
         with tempfile.TemporaryDirectory() as tmpdirname:
             # saving state dict for now but will save config and other in the future
@@ -473,9 +471,8 @@ def test_int8_serialization_shard(self):
         r"""
         Test whether it is possible to serialize a model in 8-bit.
         """
-        from transformers import AutoConfig, AutoModelForCausalLM
-
         from bitsandbytes.nn import Int8Params
+        from transformers import AutoConfig, AutoModelForCausalLM
 
         with tempfile.TemporaryDirectory() as tmpdirname:
             # saving state dict for now but will save config and other in the future

From 4690ec30b8115251904822505bfe4c2906d2f1b2 Mon Sep 17 00:00:00 2001
From: "Lin, Fanli" <fanli.lin@intel.com>
Date: Fri, 17 Jan 2025 04:30:31 -0800
Subject: [PATCH 2/2] furter fix quality

---
 tests/test_quantization.py | 11 ++++-------
 1 file changed, 4 insertions(+), 7 deletions(-)

diff --git a/tests/test_quantization.py b/tests/test_quantization.py
index 66fbc13496d..fb3adfd2e0c 100644
--- a/tests/test_quantization.py
+++ b/tests/test_quantization.py
@@ -134,9 +134,8 @@ def test_llm_skip(self):
         r"""
         A simple test to check if `llm_int8_skip_modules` works as expected
         """
-        from transformers import AutoConfig, AutoModelForCausalLM
-
         import bitsandbytes as bnb
+        from transformers import AutoConfig, AutoModelForCausalLM
 
         bnb_quantization_config = BnbQuantizationConfig(
             load_in_8bit=True, skip_modules=["lm_head", "transformer.word_embeddings"]
@@ -201,9 +200,9 @@ def test_fp32_8bit_conversion(self):
 
     @require_multi_device
     def test_cpu_gpu_loading_custom_device_map(self):
+        from bitsandbytes.nn import Int8Params
         from transformers import AutoConfig, AutoModelForCausalLM
 
-        from bitsandbytes.nn import Int8Params
 
         r"""
         A test to check is dispatching a model on cpu & gpu works correctly using a custom `device_map`.
@@ -257,9 +256,8 @@ def test_cpu_gpu_loading_custom_device_map(self):
 
     @require_multi_device
     def test_cpu_gpu_loading_custom_device_map_offload_state_dict(self):
-        from transformers import AutoConfig, AutoModelForCausalLM
-
         from bitsandbytes.nn import Int8Params
+        from transformers import AutoConfig, AutoModelForCausalLM
 
         r"""
         A test to check is dispatching a model on cpu & gpu works correctly using a custom `device_map` and offload_state_dict=True.
@@ -315,9 +313,8 @@ def test_cpu_gpu_loading_custom_device_map_offload_state_dict(self):
 
     @require_multi_device
     def test_cpu_gpu_disk_loading_custom_device_map_kwargs(self):
-        from transformers import AutoConfig, AutoModelForCausalLM
-
         from bitsandbytes.nn import Int8Params
+        from transformers import AutoConfig, AutoModelForCausalLM
 
         r"""
         A test to check is dispatching a model on cpu & gpu works correctly using a custom `device_map`.