Update gemma2 examples with a note about sample generation (#1176)

dsikka · web-flow · commit 6a1ba3c1e5be · 2025-02-19T19:00:14.000Z
SUMMARY:
- Add a note advising users to either downgrade transformers from 4.49
or use vLLM for generation
- We should revisit why this is only happening on generation with this
new release but can be revisited down the road
diff --git a/examples/quantization_kv_cache/gemma2_fp8_kv_example.py b/examples/quantization_kv_cache/gemma2_fp8_kv_example.py
@@ -86,6 +86,10 @@ def process_and_tokenize(example):
     "Please use vLLM for inference with the quantized kv_cache.",
 )
 # Confirm generations of the quantized model look sane.
+
+# NOTE: transformers 4.49.0 results in a generation error with gemma2.
+# Consider either downgrading your transformers version to a previous version
+# or use vLLM for sample generation.
 print("\n\n")
 print("========== SAMPLE GENERATION ==============")
 input_ids = tokenizer("Hello my name is", return_tensors="pt").input_ids.to("cuda")
diff --git a/examples/quantization_w8a8_fp8/gemma2_example.py b/examples/quantization_w8a8_fp8/gemma2_example.py
@@ -29,6 +29,9 @@
 )
 
 # Confirm generations of the quantized model look sane.
+# NOTE: transformers 4.49.0 results in a generation error with gemma2.
+# Consider either downgrading your transformers version to a previous version
+# or use vLLM for sample generation.
 print("========== SAMPLE GENERATION ==============")
 input_ids = tokenizer("Hello my name is", return_tensors="pt").input_ids.to("cuda")
 output = model.generate(input_ids, max_new_tokens=20)
diff --git a/examples/quantization_w8a8_int8/gemma2_example.py b/examples/quantization_w8a8_int8/gemma2_example.py
@@ -68,6 +68,9 @@ def tokenize(sample):
 )
 
 # Confirm generations of the quantized model look sane.
+# NOTE: transformers 4.49.0 results in a generation error with gemma2.
+# Consider either downgrading your transformers version to a previous version
+# or use vLLM for sample generation.
 print("========== SAMPLE GENERATION ==============")
 input_ids = tokenizer("Hello my name is", return_tensors="pt").input_ids.to("cuda")
 output = model.generate(input_ids, max_new_tokens=20)

Original file line number	Diff line number	Diff line change
`@@ -29,6 +29,9 @@`
`29`	`29`	`)`
`30`	`30`
`31`	`31`	`# Confirm generations of the quantized model look sane.`
	`32`	`+# NOTE: transformers 4.49.0 results in a generation error with gemma2.`
	`33`	`+# Consider either downgrading your transformers version to a previous version`
	`34`	`+# or use vLLM for sample generation.`
`32`	`35`	`print("========== SAMPLE GENERATION ==============")`
`33`	`36`	`input_ids = tokenizer("Hello my name is", return_tensors="pt").input_ids.to("cuda")`
`34`	`37`	`output = model.generate(input_ids, max_new_tokens=20)`
Original file line number	Diff line number	Diff line change
`@@ -68,6 +68,9 @@ def tokenize(sample):`
`68`	`68`	`)`
`69`	`69`
`70`	`70`	`# Confirm generations of the quantized model look sane.`
	`71`	`+# NOTE: transformers 4.49.0 results in a generation error with gemma2.`
	`72`	`+# Consider either downgrading your transformers version to a previous version`
	`73`	`+# or use vLLM for sample generation.`
`71`	`74`	`print("========== SAMPLE GENERATION ==============")`
`72`	`75`	`input_ids = tokenizer("Hello my name is", return_tensors="pt").input_ids.to("cuda")`
`73`	`76`	`output = model.generate(input_ids, max_new_tokens=20)`