sgl-project
diff --git a/‎_sources/advanced_features/lora.ipynb
Lines changed: 158 additions & 166 deletions b/‎_sources/advanced_features/lora.ipynb
Lines changed: 158 additions & 166 deletions
diff --git a/‎_sources/advanced_features/separate_reasoning.ipynb
Lines changed: 84 additions & 84 deletions b/‎_sources/advanced_features/separate_reasoning.ipynb
Lines changed: 84 additions & 84 deletions
diff --git a/‎_sources/advanced_features/speculative_decoding.ipynb
Lines changed: 387 additions & 379 deletions b/‎_sources/advanced_features/speculative_decoding.ipynb
Lines changed: 387 additions & 379 deletions
diff --git a/‎_sources/advanced_features/structured_outputs.ipynb
Lines changed: 122 additions & 117 deletions b/‎_sources/advanced_features/structured_outputs.ipynb
Lines changed: 122 additions & 117 deletions
diff --git a/‎_sources/advanced_features/structured_outputs_for_reasoning_models.ipynb
Lines changed: 173 additions & 164 deletions b/‎_sources/advanced_features/structured_outputs_for_reasoning_models.ipynb
Lines changed: 173 additions & 164 deletions
diff --git a/‎_sources/advanced_features/tool_parser.ipynb
Lines changed: 157 additions & 170 deletions b/‎_sources/advanced_features/tool_parser.ipynb
Lines changed: 157 additions & 170 deletions
diff --git a/‎_sources/advanced_features/vlm_query.ipynb
Lines changed: 261 additions & 254 deletions b/‎_sources/advanced_features/vlm_query.ipynb
Lines changed: 261 additions & 254 deletions
diff --git a/‎_sources/basic_usage/deepseek.md
Lines changed: 1 addition & 1 deletion b/‎_sources/basic_usage/deepseek.md
Lines changed: 1 addition & 1 deletion
diff --git a/‎_sources/basic_usage/native_api.ipynb
Lines changed: 178 additions & 184 deletions b/‎_sources/basic_usage/native_api.ipynb
Lines changed: 178 additions & 184 deletions
diff --git a/‎_sources/basic_usage/offline_engine_api.ipynb
Lines changed: 471 additions & 441 deletions b/‎_sources/basic_usage/offline_engine_api.ipynb
Lines changed: 471 additions & 441 deletions
@@ -104,7 +104,7 @@ Overall, with these optimizations, we have achieved up to **7x** acceleration in
   <img src="https://lmsys.org/images/blog/sglang_v0_3/deepseek_mla.svg" alt="Multi-head Latent Attention for DeepSeek Series Models">
 </p>
 
-**Usage**: MLA optimization is enabled by default. For MLA models on Blackwell architecture (e.g., B200), the default backend is FlashInfer. To use the optimized TRTLLM MLA backend for decode operations, explicitly specify `--attention-backend trtllm_mla`. Note that TRTLLM MLA only optimizes decode operations - prefill operations (including multimodal inputs) will fall back to FlashInfer MLA.
+**Usage**: MLA optimization is enabled by default. For MLA models on Blackwell architecture (e.g., B200), the default backend is FlashInfer. To use the optimized TRTLLM MLA backend for prefill and decode operations, explicitly specify `--attention-backend trtllm_mla`.
 
 **Reference**: Check [Blog](https://lmsys.org/blog/2024-09-04-sglang-v0-3/#deepseek-multi-head-latent-attention-mla-throughput-optimizations) and [Slides](https://github.com/sgl-project/sgl-learning-materials/blob/main/slides/lmsys_1st_meetup_deepseek_mla.pdf) for more details.