huggingface
diff --git a/‎_blog.yml
Lines changed: 10 additions & 1 deletion b/‎_blog.yml
Lines changed: 10 additions & 1 deletion
diff --git a/‎assets/96_hf_bitsandbytes_integration/BF16.png
31.8 KB b/‎assets/96_hf_bitsandbytes_integration/BF16.png
31.8 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/FP16.png
36.8 KB b/‎assets/96_hf_bitsandbytes_integration/FP16.png
36.8 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/FP32.png
47.8 KB b/‎assets/96_hf_bitsandbytes_integration/FP32.png
47.8 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/LLM.png
60 KB b/‎assets/96_hf_bitsandbytes_integration/LLM.png
60 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/LLM3.png
962 KB b/‎assets/96_hf_bitsandbytes_integration/LLM3.png
962 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/Matmul.png
1.82 MB b/‎assets/96_hf_bitsandbytes_integration/Matmul.png
1.82 MB
diff --git a/‎assets/96_hf_bitsandbytes_integration/Mixed-int8.gif
398 KB b/‎assets/96_hf_bitsandbytes_integration/Mixed-int8.gif
398 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/Model-storage.png
40.7 KB b/‎assets/96_hf_bitsandbytes_integration/Model-storage.png
40.7 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/TF32.png
120 KB b/‎assets/96_hf_bitsandbytes_integration/TF32.png
120 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/Thumbnail_blue.png
238 KB b/‎assets/96_hf_bitsandbytes_integration/Thumbnail_blue.png
238 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/byte.png
50.1 KB b/‎assets/96_hf_bitsandbytes_integration/byte.png
50.1 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/example.py
Lines changed: 41 additions & 0 deletions b/‎assets/96_hf_bitsandbytes_integration/example.py
Lines changed: 41 additions & 0 deletions
diff --git a/‎assets/96_hf_bitsandbytes_integration/mantissa.svg
Lines changed: 129 additions & 0 deletions b/‎assets/96_hf_bitsandbytes_integration/mantissa.svg
Lines changed: 129 additions & 0 deletions
diff --git a/‎assets/96_hf_bitsandbytes_integration/out-quant.gif
176 KB b/‎assets/96_hf_bitsandbytes_integration/out-quant.gif
176 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/quant-freeze.png
246 KB b/‎assets/96_hf_bitsandbytes_integration/quant-freeze.png
246 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/quantization.png
43.9 KB b/‎assets/96_hf_bitsandbytes_integration/quantization.png
43.9 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/tf32-Mantissa-chart-hi-res-FINAL.png
17.4 KB b/‎assets/96_hf_bitsandbytes_integration/tf32-Mantissa-chart-hi-res-FINAL.png
17.4 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/thumbnail.png
235 KB b/‎assets/96_hf_bitsandbytes_integration/thumbnail.png
235 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/thumbnail_logo.png
44.9 KB b/‎assets/96_hf_bitsandbytes_integration/thumbnail_logo.png
44.9 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/tim.jpeg
29.6 KB b/‎assets/96_hf_bitsandbytes_integration/tim.jpeg
29.6 KB
diff --git a/‎assets/96_hf_bitsandbytes_integration/younes.png
60.2 KB b/‎assets/96_hf_bitsandbytes_integration/younes.png
60.2 KB
diff --git a/‎hf-bitsandbytes-integration.md
Lines changed: 462 additions & 0 deletions b/‎hf-bitsandbytes-integration.md
Lines changed: 462 additions & 0 deletions
@@ -1120,7 +1120,6 @@
     - guide
 
 
-    
 - local: skops
   title: Introducing Skops
   author: merve
@@ -1132,3 +1131,13 @@
     - announcement
     - guide
 
+
+- local: hf-bitsandbytes-integration
+  title: "A Gentle Introduction to 8-bit Matrix Multiplication for transformers at scale using transformers, accelerate and bitsandbytes"
+  author: ybelkada
+  thumbnail: /blog/assets/96_hf_bitsandbytes_integration/thumbnail_blue.png
+  date: August 17, 2022
+  tags:
+    - nlp
+    - llm
+    - quantization
@@ -0,0 +1,41 @@
+import torch
+import torch.nn as nn
+
+from bitsandbytes.nn import Linear8bitLt
+
+# Utility function
+
+def get_model_memory_footprint(model):
+    r"""
+        Partially copied and inspired from: https://discuss.pytorch.org/t/gpu-memory-that-model-uses/56822/2
+    """
+    return sum([param.nelement() * param.element_size() for param in model.parameters()])
+
+# Main script
+
+fp16_model = nn.Sequential(
+    nn.Linear(64, 64),
+    nn.Linear(64, 64)
+).to(torch.float16)
+
+# Train and save your model!
+
+torch.save(fp16_model.state_dict(), "model.pt")
+
+# Define your int8 model!
+
+int8_model = nn.Sequential(
+    Linear8bitLt(64, 64, has_fp16_weights=False),
+    Linear8bitLt(64, 64, has_fp16_weights=False)
+)
+
+int8_model.load_state_dict(torch.load("model.pt"))
+int8_model = int8_model.to(0) # Quantization happens here
+
+input_ = torch.randn(8, 64, dtype=torch.float16)
+hidden_states = int8_model(input_.to(0))
+
+mem_int8 = get_model_memory_footprint(int8_model)
+mem_fp16 = get_model_memory_footprint(fp16_model)
+
+print(f"Relative difference: {mem_fp16/mem_int8}")